L'INTERNET ET LES LANGUES
[autour de l'an 2000]
MARIE LEBERT
NEF, Université de Toronto, 2009
Copyright © 2009 Marie Lebert. Tous droits réservés.
TABLE
Introduction
Des "communautés de langues" en ligne
Vers un web multilingue
L'anglais reste prédominant
Le français sur l'internet
Encodage: de l'ASCII a l'Unicode
Premiers projets multilingues
Dictionnaires de langues en ligne
Apprendre les langues en ligne
Les langues minoritaires
Encyclopédies multilingues
Localisation et internationalisation
Traduction assistée par ordinateur
Traduction automatique
Chronologie
Sites web
INTRODUCTION
On dit souvent que l'internet abolit le temps, les distances et les frontières,
mais qu'en est-il des langues? En 2000, le web est multilingue, mais la barrière
de la langue est loin d'avoir disparu. Si toutes les langues sont désormais
représentées sur le web, on oublie trop souvent que de nombreux usagers sont
unilingues, et que même les polyglottes ne peuvent connaître toutes les langues.
Il importe aussi d'avoir à l'esprit l'ensemble des langues, et pas seulement les
langues dominantes. Il reste à créer des passerelles entre les communautés
linguistiques pour favoriser la circulation des écrits dans d'autres langues,
notamment en améliorant la qualité des logiciels de traduction.
# Des "nations de langues"
"Comme l’internet n’a pas de frontières nationales, les internautes s’organisent
selon d’autres critères propres au médium. En termes de multilinguisme, vous
avez des communautés virtuelles, par exemple ce que j’appelle les 'nations des
langues', tous ces internautes qu’on peut regrouper selon leur langue maternelle
quel que soit leur lieu géographique. Ainsi la nation de la langue espagnole
inclut non seulement les internautes d’Espagne et d’Amérique latine, mais aussi
tous les hispanophones vivant aux Etats-Unis, ou encore ceux qui parlent
espagnol au Maroc." (Randy Hobler, consultant en marketing internet de produits
et services de traduction, septembre 1998)
# La "démocratie linguistique"
"Dans un rapport de l'UNESCO du début des années 1950, l'enseignement dispensé
dans sa langue maternelle était considéré comme un droit fondamental de
l'enfant. La possibilité de naviguer sur l'internet dans sa langue maternelle
pourrait bien être son équivalent à l'Âge de l'Information. Si l'internet doit
vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient
y avoir accès sans problème de langue. Considérer l'internet comme la chasse
gardée de ceux qui, par accident historique, nécessité pratique ou privilège
politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne
connaissent pas cette langue." (Brian King, directeur du WorldWide Language
Institute, septembre 1998)
# Un médium pour le monde
"Il est très important de pouvoir communiquer en différentes langues. Je dirais
même que c’est obligatoire, car l’information donnée sur l'internet est à
destination du monde entier, alors pourquoi ne l’aurions-nous pas dans notre
propre langue ou dans la langue que nous souhaitons lire? Information mondiale,
mais pas de vaste choix dans les langues, ce serait contradictoire, pas vrai?"
(Maria Victoria Marinetti, professeure d’espagnol en entreprise et traductrice,
août 1999)
# De bons logiciels
"Quand la qualité des logiciels sera suffisante pour que les gens puissent
converser par écrit et par oral sur le web en temps réel dans différentes
langues, nous verrons tout un monde s'ouvrir à nous. Les scientifiques, les
hommes politiques, les hommes d'affaires et bien d'autres groupes seront à même
de communiquer immédiatement entre eux sans l'intermédiaire de médiateurs ou
traducteurs." (Tim McKenna, écrivain et philosophe, octobre 2000)
# Dans toutes les langues
"Les recherches sur la traduction automatique devraient permettre une traduction
automatique dans les langues souhaitées, mais avec des applications pour toutes
les langues et non les seules dominantes (ex.: diffusion de documents en
japonais, si l’émetteur est de langue japonaise, et lecture en breton, si le
récepteur est de langue bretonne). Il y a donc beaucoup de travaux à faire dans
le domaine de la traduction automatique et écrite de toutes les langues."
(Pierre-Noël Favennec, expert à la direction scientifique de France Télécom R&D,
février 2001)
***
Sauf indication contraire, les citations présentes dans ce livre sont des
extraits des Entretiens du NEF .
Merci à toutes les personnes ayant accepté de répondre à des questions sur le
multilinguisme, parfois pendant plusieurs années. Ce livre est disponible aussi
en anglais, avec un texte différent. Les deux versions sont disponibles en
ligne
.
Marie Lebert, chercheuse et journaliste, s'intéresse aux technologies dans le
monde du livre, des autres médias et des langues. Ses livres et dossiers sont
publiés par le NEF (Net des études françaises), Université de Toronto, et sont
librement disponibles sur le site du NEF .
DES "COMMUNAUTES DE LANGUES" EN LIGNE
= [Citation]
Consultant en marketing internet de produits et services de traduction, Randy
Hobler écrit en septembre 1998: "Comme l’internet n’a pas de frontières
nationales, les internautes s’organisent selon d’autres critères propres au
médium. En termes de multilinguisme, vous avez des communautés virtuelles, par
exemple ce que j’appelle les 'nations des langues', tous ces internautes qu’on
peut regrouper selon leur langue maternelle quel que soit leur lieu
géographique. Ainsi la nation de la langue espagnole inclut non seulement les
internautes d’Espagne et d’Amérique latine, mais aussi tous les hispanophones
vivant aux Etats-Unis, ou encore ceux qui parlent espagnol au Maroc."
= [Texte]
Si Randy donne l'exemple d'une communauté internet hispanophone répartie sur
trois continents, la même remarque vaut pour la francophonie, une communauté de
langue française présente sur cinq continents. La même remarque concerne tout
autant le créole, parlé non seulement dans les Caraïbes mais aussi à Paris,
Montréal et New York.
À ses débuts, l'internet est anglophone à pratiquement 100%, ce qui s'explique
par le fait qu'il débute aux États-Unis en tant que réseau mis en place dès 1969
par le Pentagone avant de se développer dans les agences gouvernementales et les
universités suite à la création du protocole TCP/IP (transmission control
protocol/internet protocol) en 1974 par Vinton Cerf et Bob Kahn. Après la
création du World Wide Web en 1989-90 par Tim Berners-Lee au Centre européen
pour la recherche nucléaire (CERN) à Genève (Suisse) et le lancement en novembre
1993 du premier navigateur Mosaic, ancêtre de Netscape, l'internet se développe
rapidement, d'abord aux États-Unis grâce aux investissements considérables du
gouvernement, puis au Canada, puis dans le monde entier.
Après avoir été anglophone à pratiquement 100%, l’internet est encore anglophone
à plus de 80% en 1998, un pourcentage qui s’explique par trois facteurs: (a)
l’usage de l'anglais en tant que principale langue d’échange internationale; (b)
la création d’un grand nombre de sites web émanant des États-Unis, du Canada et
du Royaume-Uni; (c) une proportion d'usagers particulièrement forte en Amérique
du Nord par rapport au reste du monde, les ordinateurs étant bien meilleur
marché qu'ailleurs, tout comme la connexion à l'internet sous forme de forfait
mensuel à prix modique.
Dans plusieurs pays d'Europe, par exemple, cette connexion est d'abord tarifée à
la durée, avec un tarif de jour et un tarif de nuit moins élevé. Les usagers
passent donc beaucoup moins de temps sur l'internet qu'ils ne le souhaiteraient,
et choisissent souvent de surfer la nuit pour éviter les factures trop élevées.
Fin 1998 et début 1999, des mouvements de grève sont lancés en France, en Italie
et en Allemagne pour faire pression sur les sociétés prestataires afin qu'elles
baissent leurs prix et qu'elles proposent des forfaits internet, avec gain de
cause dans les mois qui suivent.
En 1997, Babel, initative conjointe d'Alis Technologies et de l'Internet
Society, mène la première étude sur la répartition des langues sur l'internet.
Datée de juin 1997, le "Palmarès des langues de la toile" donne les pourcentages
de 82,3% pour l'anglais, 4% pour l'allemand, 1,6% pour le japonais, 1,5% pour le
français, 1,1% pour l'espagnol, 1,1% pour le suédois et 1% pour l'italien.
Dans un article publié le 21 juillet 1998 par ZDNN (ZDNetwork News), Martha
Stone, journaliste, précise: "Cette année, le nombre de nouveaux sites non
anglophones va probablement dépasser celui de nouveaux sites anglophones, et le
monde cyber est en train de véritablement devenir une toile à l'échelle
mondiale. (...) Selon Global Reach [société promouvant la localisation des sites
web], les groupes linguistiques se développant le plus vite sont les groupes non
anglophones: on note une progression de 22,4% pour les sites web espagnols,
12,3% pour les sites japonais, 14% pour les sites allemands et 10% pour les
sites francophones. On estime à 55,7 millions le nombre de personnes non
anglophones ayant accès au web. (...) Alors que 6% seulement de la population
mondiale est de langue maternelle anglaise (et 16% de langue maternelle
espagnole), 80% des pages web sont en anglais." Toujours selon Global Reach, 15%
seulement des 500 millions d'habitants que compte l'Europe sont de langue
maternelle anglaise, 28% maîtrisent bien l'anglais, et 32% consultent le web
anglophone.
Brian King, directeur du WorldWide Language Institute (WWLI), développe le
principe de "démocratie linguistique" dans un entretien daté de septembre 1998:
"Dans un rapport de l'UNESCO du début des années 1950, l'enseignement dispensé
dans sa langue maternelle était considéré comme un droit fondamental de
l'enfant. La possibilité de naviguer sur l'internet dans sa langue maternelle
pourrait bien être son équivalent à l'Âge de l'Information. Si l'internet doit
vraiment devenir le réseau mondial qu'on nous promet, tous les usagers devraient
y avoir accès sans problème de langue. Considérer l'internet comme la chasse
gardée de ceux qui, par accident historique, nécessité pratique ou privilège
politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne
connaissent pas cette langue."
Jean-Pierre Cloutier est l'auteur des Chroniques de Cybérie, une lettre
d'information électronique sur l'actualité de l'internet. Il écrit en août 1999:
"Cet été, le cap a été franchi. Plus de 50% des utilisateurs et utilisatrices du
réseau sont hors des États-Unis. L'an prochain, plus de 50% des utilisateurs
seront non anglophones. Il y a seulement cinq ans, c'était 5%. Formidable, non?"
Les usagers non anglophones atteignent en effet la barre des 50% au cours de
l'été 2000. Selon Global Reach, ce pourcentage est de 52,5% en été 2001, 57% en
décembre 2001, 59,8% en avril 2002, 64,4% en septembre 2003 (dont 34,9%
d’Européens non anglophones et 29,4% d’Asiatiques) et 64,2% en mars 2004 (dont
37,9% d’Européens non anglophones et 33% d’Asiatiques).
Nombre de communautés pratiquent le bilinguisme au quotidien, par exemple à
Genève pour le français et l’allemand, Toronto pour l'anglais et le français, ou
San Francisco pour l’anglais et l’espagnol, pour ne citer que trois exemples. Le
cas extrême étant la Communauté européenne avec ses 11 langues officielles en
2003, puis ses 24 langues officielles en 2007 après son élargissement progressif
vers l'Europe de l'Est.
VERS UN WEB MULTILINGUE
= [Citation]
Professeure d’espagnol en entreprise et traductrice, Maria Victoria Marinetti
écrit en août 1999: "Il est très important de pouvoir communiquer en différentes
langues. Je dirais même que c’est obligatoire, car l’information donnée sur
l'internet est à destination du monde entier, alors pourquoi ne l’aurions-nous
pas dans notre propre langue ou dans la langue que nous souhaitons lire?
Information mondiale, mais pas de vaste choix dans les langues, ce serait
contradictoire, pas vrai?"
= [Texte]
En Californie, deux étudiants de l'Université de Stanford, Jerry Lang et David
Filo, lancent en janvier 1994 l'annuaire Yahoo! pour recenser les sites web et
les classer par thèmes. L'annuaire est un succès, avec un classement plus pointu
que celui de moteurs de recherche comme AltaVista, où ces tâches sont
entièrement automatisées. Trois ans plus tard, Yahoo! propose un classement en
63 grandes catégories thématiques, tout comme une interface en plusieurs
langues: anglais, allemand, coréen, français, japonais, norvégien et suédois. De
plus, quand une recherche ne donne pas de résultat dans Yahoo!, elle est
automatiquement aiguillée vers AltaVista, et réciproquement.
En décembre 1997, AltaVista est le premier moteur de recherche à lancer un
service gratuit de traduction automatisée de l'anglais vers cinq autres langues
(allemand, espagnol, français, italien et portugais) et vice versa, la page
originale et la traduction apparaissant en vis-à-vis à l’écran. AltaVista
Translation, surnommé aussi Babel Fish, est l'oeuvre de SYSTRAN, une société
franco-américaine pionnière dans le domaine de la traduction automatique. Babel
Fish est alimenté par des dictionnaires multilingues comprenant 2,5 millions de
termes. Bien qu'ayant ses limites, avec une traduction de trois pages maximum et
un texte traduit approximatif, ce service est immédiatement très apprécié des
douze millions d'usagers, dont un nombre croissant d'usagers non anglophones. Il
ouvre aussi la voie à d'autres services du même genre - développés entre autres
par Alis Technologies, Lernout & Hauspie, Globalink ou Softissimo - et contribue
grandement au plurilinguisme du web.
Autre initiative, Robert Ware, enseignant, lance en avril 1996 le site OneLook
Dictionaries pour permettre une recherche rapide dans des centaines de
dictionnaires couvrant divers domaines: affaires, informatique et internet,
médecine, religion, sciences et techniques, sports, généralités et argot. Il
explique en septembre 1998: "A titre personnel, je suis presque uniquement en
contact avec des gens qui ne pratiquent qu'une langue et qui n'ont pas beaucoup
de motivation pour développer leurs aptitudes linguistiques. Être en contact
avec le monde entier change cette approche des choses. Et la change en mieux!
(...) J'ai été long à inclure des dictionnaires non anglophones (en partie parce
que je suis monolingue). Mais vous en trouverez maintenant quelques-uns."
OneLook Dictionaries compte 2 millions de termes provenant de 425 dictionnaires
en 1998, 2,5 millions de termes provenant de 530 dictionnaires en 2000, et 5
millions de termes provenant de 910 dictionnaires en 2003.
Robert Ware raconte aussi dans le même entretien par courriel: "Un fait
intéressant s'est produit par le passé qui a été très instructif pour moi. En
1994, je travaillais pour un établissement scolaire et j'essayais d'installer un
logiciel sur un modèle d'ordinateur particulier. J'ai trouvé une personne qui
était en train de travailler sur le même problème, et nous avons commencé à
échanger des courriers électroniques. Soudain, cela m'a frappé... Le logiciel
avait été écrit à 40 kilomètres de là, mais c'était une personne située à
l'autre bout du monde qui m'aidait. Les distances et l'éloignement géographique
n'importaient plus! Et bien, ceci est formidable, mais à quoi cela nous
mène-t-il? Je ne puis communiquer qu'en anglais mais, heureusement, mon
correspondant pouvait utiliser aussi bien l'anglais que l'allemand qui était sa
langue maternelle. L'internet a supprimé une barrière, celle de la distance,
mais il subsiste la barrière de la langue, bien réelle.
Il semble que l'internet propulse simultanément les gens dans deux directions
différentes. L'internet, anglophone à l'origine, relie les gens dans le monde
entier. Par là même, il favorise une langue commune pour communiquer. Mais il
suscite aussi des contacts entre des personnes de langue différente et permet
ainsi de développer un intérêt plus grand pour le multilinguisme. Si une langue
commune est appréciable, elle ne remplace en aucun cas la nécessité de
plusieurs langues. L'internet favorise ainsi à la fois une langue commune et le
multilinguisme, et ceci est un facteur qui aide à trouver des solutions.
L'intérêt croissant pour les langues et le besoin qu'on en a stimulent de par le
monde la création de cours de langues et d'instruments d'aide linguistique, et
l'internet fournit la possibilité de les rendre disponibles rapidement et à bon
marché."
Même si l'anglais est encore prédominant à la fin des années 1990, les sites
bilingues ou plurilingues sont de plus en plus nombreux, ce pour des raisons
aussi bien commerciales que culturelles, qui prennent en compte le fait que tout
le monde ne comprend pas l'anglais. Brian King, directeur du WorldWide Language
Institute (WWLI), écrit en septembre 1998: "De même que l'utilisateur non
anglophone peut maintenant avoir accès aux technologies dans sa propre langue,
l'impact du commerce électronique peut constituer une force majeure qui fasse du
multilinguisme la voie la plus naturelle vers le cyberespace. Les vendeurs de
produits et services dans le marché virtuel mondial que devient l'internet
doivent être préparés à desservir un monde virtuel qui soit aussi multilingue
que le monde physique. S'ils veulent réussir, ils doivent s'assurer qu'ils
parlent bien la langue de leurs clients!"
Le réseau ELSNET (European Network in Language and Speech - Réseau européen pour
le langage et la parole) regroupe une centaine de partenaires académiques et
commerciaux, l'objectif étant de mettre sur pied des systèmes multilingues pour
la langue parlée et la langue écrite. Steven Krauwer, coordinateur d'ELSNET,
explique en septembre 1998: "En tant que citoyen européen, je pense que le
multilinguisme sur le web est absolument essentiel. A mon avis, ce n'est pas une
situation saine à long terme que seuls ceux qui ont une bonne maîtrise de
l'anglais puissent pleinement exploiter les bénéfices du web. En tant que
chercheur (spécialisé dans la traduction automatique), je vois le multilinguisme
comme un défi majeur: pouvoir garantir que l'information sur le web soit
accessible à tous, indépendamment des différences de langue. (...) Je compte
passer le reste de ma vie professionnelle à utiliser les technologies de
l'information pour supprimer ou au moins réduire la barrière des langues."
Il ajoute en août 1999: "Je suis de plus en plus convaincu que nous devons
veiller à ne pas aborder le problème du multilinguisme en l'isolant du reste. Je
reviens de France, où j'ai passé de très bonnes vacances d'été. Même si ma
connaissance du français est sommaire (c'est le moins que l'on puisse dire), il
est surprenant de voir que je peux malgré tout communiquer sans problème en
combinant ce français sommaire avec des gestes, des expressions du visage, des
indices visuels, des schémas, etc. Je pense que le web (contrairement au système
vieillot du courrier électronique textuel) peut permettre de combiner avec
succès la transmission des informations par différents canaux (ou différents
moyens), même si ce processus n'est que partiellement satisfaisant pour chacun
des canaux pris isolément."
Pour un véritable multilinguisme sur le web, Steven Krauwer suggère plusieurs
solutions pratiques: "(a) en ce qui concerne les auteurs: une meilleure
formation des auteurs de sites web pour exploiter les combinaisons possibles
permettant d'améliorer la communication en surmontant la barrière de la langue
(et pas seulement par un vernis superficiel); (b) en ce qui concerne les
usagers: des logiciels de traduction de type AltaVista Translation, dont la
qualité n'est pas frappante, mais qui a le mérite d'exister; (c) en ce qui
concerne les logiciels de navigation: des logiciels de traduction intégrée,
particulièrement pour les langues non dominantes, et des dictionnaires intégrés
plus rapides à consulter."
Le multilinguisme est l'affaire de tous, témoin cet Appel du Comité européen
pour le respect des cultures et des langues en Europe (CERCLE) qui, diffusé en
1998 dans les onze langues officielles de l'Union européenne (allemand, anglais,
danois, espagnol, finlandais, français, grec, hollandais, italien, portugais et
suédois), défend "une Europe humaniste, plurilingue et riche de sa diversité
culturelle". Le CERCLE propose aux réviseurs du Traité de l'Union européenne
douze amendements prenant en compte le respect des cultures et des langues. On
lit dans cet Appel que "la diversité et le pluralisme linguistiques ne sont pas
un obstacle à la circulation des hommes, des idées et des marchandises ou
services, comme veulent le faire croire certains, alliés objectifs, conscients
ou non, de la culture et de la langue dominantes. C'est l'uniformisation et
l'hégémonie qui sont un obstacle au libre épanouissement des individus, des
sociétés et de l'économie de l'immatériel, source principale des emplois de
demain. Le respect des langues, à l'inverse, est la dernière chance pour
l'Europe de se rapprocher des citoyens, objectif toujours affiché, presque
jamais mis en pratique. L'Union doit donc renoncer à privilégier la langue d'un
seul groupe."
Bruno Didier, webmestre de la bibliothèque de l’Institut Pasteur, écrit en août
1999: "L'internet n’est une propriété ni nationale, ni linguistique. C’est un
vecteur de culture, et le premier support de la culture, c’est la langue. Plus
il y a de langues représentées dans leur diversité, plus il y aura de cultures
sur l'internet. Je ne pense pas qu’il faille justement céder à la tentation
systématique de traduire ses pages dans une langue plus ou moins universelle.
Les échanges culturels passent par la volonté de se mettre à la portée de celui
vers qui on souhaite aller. Et cet effort passe par l’appréhension de sa langue.
Bien entendu c’est très utopique comme propos. Concrètement, lorsque je fais de
la veille, je peste dès que je rencontre des sites norvégiens ou brésiliens sans
un minimum d’anglais."
L'ANGLAIS RESTE PREDOMINANT
= [Citation]
L’anglais reste prépondérant et ceci n’est pas près de disparaître. Comme
indiqué en janvier 1999 par Marcel Grangier, responsable de la section française
des services linguistiques centraux de l’Administration fédérale suisse, "cette
suprématie n’est pas un mal en soi, dans la mesure où elle résulte de réalités
essentiellement statistiques (plus de PC par habitant, plus de locuteurs de
cette langue, etc.). La riposte n’est pas de 'lutter contre l’anglais' et encore
moins de s’en tenir à des jérémiades, mais de multiplier les sites en d’autres
langues. Notons qu’en qualité de service de traduction, nous préconisons
également le multilinguisme des sites eux-mêmes. La multiplication des langues
présentes sur l'internet est inévitable, et ne peut que bénéficier aux échanges
multiculturels."
= [Texte]
Professeur en technologies de la communication à la Webster University de Genève
(Suisse), Henk Slettenhaar insiste tout autant sur la nécessité de sites
bilingues, dans la langue originale et en anglais. "Les communautés locales
présentes sur le web devraient en tout premier lieu utiliser leur langue pour
diffuser des informations, écrit-il en décembre 1998. Si elles veulent présenter
ces informations à la communauté mondiale, celles-ci doivent être également
disponibles en anglais. Je pense qu’il existe un réel besoin de sites bilingues.
(...) Mais je suis enchanté qu’il existe maintenant tant de documents
disponibles dans leur langue originale. Je préfère de beaucoup lire l’original
avec difficulté plutôt qu’une traduction médiocre."
Henk ajoute en août 1999: "A mon avis, il existe deux types de recherches sur le
web. La première est la recherche globale dans le domaine des affaires et de
l’information. Pour cela, la langue est d’abord l’anglais, avec des versions
locales si nécessaire. La seconde, ce sont les informations locales de tous
ordres dans les endroits les plus reculés. Si l’information est à destination
d’une ethnie ou d’un groupe linguistique, elle doit d’abord être disponible dans
la langue de l’ethnie ou du groupe, avec peut-être un résumé en anglais."
Alain Bron, consultant en systèmes d'information et écrivain, explique pour sa
part en novembre 1999: "Il y aura encore pendant longtemps l'usage de langues
différentes et tant mieux pour le droit à la différence. Le risque est bien
entendu l'envahissement d'une langue au détriment des autres, donc
l'aplanissement culturel. Je pense que des services en ligne vont petit à petit
se créer pour pallier cette difficulté. Tout d'abord, des traducteurs pourront
traduire et commenter des textes à la demande, et surtout les sites de grande
fréquentation vont investir dans des versions en langues différentes, comme le
fait l'industrie audiovisuelle."
Selon Geoffrey Kingscott, directeur général de Praetorius, société britannique
spécialisée en linguistique appliquée, interviewé en septembre 1998, "les
caractéristiques propres au web sont la multiplicité de générateurs de sites et
le bas prix de l'émission de messages. Ceci favorisera donc le multilinguisme au
fur et à mesure du développement du web. Comme celui-ci a vu le jour aux
États-Unis, il est encore principalement en anglais, mais ce n'est qu'un
phénomène temporaire. Pour expliquer ceci plus en détail, je dirais que quand
nous comptions sur l'imprimé ou l'audiovisuel (film, télévision, radio, vidéo,
cassettes), l'information ou le divertissement que nous attendions dépendait
d'agents (éditeurs, stations de télévision ou de radio, producteurs de cassettes
ou de vidéos) qui devaient subsister commercialement et, dans le cas de la
radiotélédiffusion du service public, avec de sévères contraintes budgétaires.
Ceci signifie que la quantité de clients est primordiale, et détermine la
nécessité de langues autres que l'omniprésent anglais. Ces contraintes
disparaissent avec le web. Pour ne donner qu'un exemple mineur tiré de notre
expérience, nous publions la version imprimée de notre magazine Language Today
uniquement en anglais, qui est le dénominateur commun de nos lecteurs. Quand
nous utilisons un article qui était originellement dans une langue autre que
l'anglais, ou que nous relatons un entretien mené dans une langue autre que
l'anglais, nous le traduisons en anglais et nous ne publions que la version
anglaise, pour la raison suivante: le nombre de pages que nous pouvons imprimer
est limité, et déterminé en fonction de notre clientèle (annonceurs et abonnés).
Par contre, dans notre version web, nous proposons aussi la version originale."
Luc dall'Armellina, co-auteur et webmestre d’oVosite, espace d’écriture
hypermédia, écrit en juin 2000: "L'anglais s'impose sans doute parce qu'il est
devenu la langue commerciale d'échange généralisée; il semble important que
toutes les langues puissent continuer à être représentées parce que chacune
d'elle est porteuse d'une vision 'singulière' du monde. La traduction simultanée
(proposée par AltaVista par exemple) ou les versions multilingues d'un même
contenu me semblent aujourd'hui les meilleures réponses au danger de pensée
unique que représenterait une seule langue d'échange. Peut-être appartient-il
aux éditeurs des systèmes d'exploitation (ou de navigateurs?) de proposer des
solutions de traduction partielle, avec toutes les limites connues des systèmes
automatiques de traduction..."
Pierre Francois Gagnon, fondateur d'Editel et pionnier de l'édition littéraire
francophone en ligne, écrit en juillet 2000: "Je pense que, si les diverses
langues de la planète vont occuper chacune l'internet en proportion de leur
poids démographique respectif, la nécessité d'une langue véhiculaire unique se
fera sentir comme jamais auparavant, ce qui ne fera qu'assurer davantage encore
la suprématie planétaire de l'anglais, ne serait-ce que du fait qu'il a été
adopté définitivement par l'Inde et la Chine. Or la marche de l'histoire n'est
pas plus comprimable dans le dé à coudre d'une quelconque équation mathématique
que le marché des options en bourse!"
Philippe Loubière, traducteur littéraire et dramatique, dénonce pour sa part la
main-mise anglophone sur le réseau. "Tout ce qui peut contribuer à la diversité
linguistique, sur internet comme ailleurs, est indispensable à la survie de la
liberté de penser, explique-t-il en mars 2001. Je n’exagère absolument pas:
l’homme moderne joue là sa survie. Cela dit, je suis très pessimiste devant
cette évolution. Les anglo-saxons vous écrivent en anglais sans vergogne.
L’immense majorité des Français constate avec une indifférence totale le
remplacement progressif de leur langue par le mauvais anglais des marchands et
des publicitaires, et le reste du monde a parfaitement admis l’hégémonie
linguistique des anglo-saxons parce qu’ils n’ont pas d’autres horizons que de
servir ces riches et puissants maîtres. La seule solution consisterait à
recourir à des législations internationales assez contraignantes pour obliger
les gouvernements nationaux à respecter et à faire respecter la langue nationale
dans leur propre pays (le français en France, le roumain en Roumanie, etc.),
cela dans tous les domaines et pas seulement sur internet. Mais ne rêvons
pas..."
C'est aussi le sentiment de Blaise Rosnay, webmestre du site du Club des poètes,
qui écrit en janvier 2000: "Dans la mesure où la culture française, y compris
contemporaine, pourra être diffusée sans obstacles, la langue française aura la
possibilité de rester vivante sur le réseau. Ses oeuvres, liées au génie de
notre langue, susciteront nécessairement de l'intérêt puisqu'elles sont en prise
avec l'évolution actuelle de l'esprit humain. Dans la mesure où il y aura une
volonté d'utiliser l'internet comme moyen de partage de la connaissance, de la
beauté, de la culture, toutes les langues, chacune avec leur génie propre, y
auront leur place. Mais si l'internet, comme cela semble être le cas, abandonne
ces promesses pour devenir un lieu unique de transactions commerciales, la seule
langue qui y sera finalement parlée sera une sorte de jargon dénaturant la belle
langue anglaise, je veux dire un anglais amoindri à l'usage des relations
uniquement commerciales."
Richard Chotin, professeur à l’École supérieure des affaires (ESA) de Lille,
rappelle à juste titre que la suprématie de l’anglais a succédé à celle du
français. "Le problème est politique et idéologique, explique-t-il en septembre
2000. C’est celui de l’'impérialisme' de la langue anglaise découlant de
l’impérialisme américain. Il suffit d’ailleurs de se souvenir de
l’'impérialisme' du français aux 18e et 19e siècles pour comprendre la
déficience en langues des étudiants français: quand on n’a pas besoin de faire
des efforts pour se faire comprendre, on n’en fait pas, ce sont les autres qui
les font."
Bakayoko Bourahima, bibliothécaire de l'École nationale supérieure de
statistique et d’économie appliquée (ENSEA) d'Abidjan (Côte d'Ivoire), écrit en
juillet 2000: "Pour nous les Africains francophones, le diktat de l’anglais sur
la toile représente pour la masse un double handicap d’accès aux ressources du
réseau. Il y a d’abord le problème de l’alphabétisation qui est loin d’être
résolu et que l’internet va poser avec beaucoup plus d’acuité, ensuite se pose
le problème de la maîtrise d’une seconde langue étrangère et son adéquation à
l’environnement culturel. En somme, à défaut de multilinguisme, l’internet va
nous imposer une seconde colonisation linguistique avec toutes les contraintes
que cela suppose. Ce qui n’est pas rien quand on sait que nos systèmes éducatifs
ont déjà beaucoup de mal à optimiser leurs performances, en raison, selon
certains spécialistes, des contraintes de l’utilisation du français comme langue
de formation de base. Il est donc de plus en plus question de recourir aux
langues vernaculaires pour les formations de base, pour 'désenclaver' l’école en
Afrique et l’impliquer au mieux dans la valorisation des ressources humaines.
Comment faire? Je pense qu’il n’y a pas de chance pour nous de faire prévaloir
une quelconque exception culturelle sur la toile, ce qui serait de nature tout à
fait grégaire. Il faut donc que les différents blocs linguistiques
s’investissent beaucoup plus dans la promotion de leur accès à la toile, sans
oublier leurs différentes spécificités internes."
Guy Antoine, créateur de Windows on Haiti, site de référence sur la culture
haïtienne, croit en la nécessité de l'anglais en tant que langue commune. "Pour
des raisons pratiques, l'anglais continuera à dominer le web, relate-t-il en
novembre 1999. Je ne pense pas que ce soit une mauvaise chose, en dépit des
sentiments régionalistes qui s'y opposent, parce que nous avons besoin d'une
langue commune permettant de favoriser les communications à l'échelon
international. Ceci dit, je ne partage pas l'idée pessimiste selon laquelle les
autres langues n'ont plus qu'à se soumettre à la langue dominante. Au contraire.
Tout d'abord l'internet peut héberger des informations utiles sur les langues
minoritaires, qui seraient autrement amenées à disparaître sans laisser de
traces. De plus, à mon avis, l'internet incite les gens à apprendre les langues
associées aux cultures qui les intéressent. Ces personnes réalisent rapidement
que la langue d'un peuple est un élément fondamental de sa culture. De ce fait,
je n'ai pas grande confiance dans les outils de traduction automatique qui,
s'ils traduisent les mots et les expressions, ne peuvent guère traduire l'âme
d'un peuple. Que sont les Haïtiens, par exemple, sans le kreyòl (créole pour les
non initiés), une langue qui s'est développée et qui a permis de souder entre
elles diverses tribus africaines transplantées à Haïti pendant la période de
l'esclavage? Cette langue représente de manière la plus palpable l'unité de
notre peuple. Elle est toutefois principalement une langue parlée et non écrite.
A mon avis, le web va changer cet état de fait plus qu'aucun autre moyen
traditionnel de diffusion d'une langue. Dans Windows on Haiti, la langue
principale est l'anglais, mais on y trouve tout aussi bien un forum de
discussion animé conduit en kreyòl. Il existe aussi des documents sur Haïti en
français et dans l'ancien créole colonial, et je suis prêt à publier d'autres
documents en espagnol et dans diverses langues. Je ne propose pas de
traductions, mais le multilinguisme est effectif sur ce site, et je pense qu'il
deviendra de plus en plus la norme sur le web."
Michel Benoît, romancier vivant à Montréal (Québec), écrit en juin 2000:
"Lorsqu'un problème affecte une structure, quelle qu'elle soit, j'ai toujours
tendance à imaginer que c'est techniquement que le problème trouve sa solution.
Vous connaissez cette théorie? Si les Romains avaient trouvé le moyen d'enlever
le plomb de leur couvert d'étain, Néron ne serait jamais devenu fou et n'aurait
jamais incendié Rome. Escusi, farfelu? Peut-être que oui, peut-être que non. E
que save? L'internet multilingue? Demain, ou après-demain au plus. Voyons,
pensez au premier ordinateur, il y a de cela un peu plus que cinquante ans. Un
étage au complet pour faire à peine plus que les quatre opérations de base. Dans
ce temps-là, un bug, c'était véritablement une mouche - ou autre insecte - qui
s'insérait entre les lecteurs optiques. De nos jours [en 2000], un carte de 3 cm
x 5 cm fait la même chose. La traduction instantanée: demain, après-demain au
plus."
Gérard Fourestier, créateur de Rubriques à Bac, un site destiné aux étudiants du
premier cycle universitaire, écrit en octobre 2000: "Je suis de langue
française. J'ai appris l'allemand, l'anglais, l'arabe, mais je suis encore loin
du compte quand je surfe dans tous les coins de la planète. Il serait dommage
que les plus nombreux ou les plus puissants soient les seuls qui 's'affichent'
et, pour ce qui est des logiciels de traduction, il y a encore largement à
faire. (...) Pour l'instant, [il importe] de connaître suffisament d'anglais et
de créer beaucoup plus encore en français."
Tôt ou tard, le pourcentage des langues sur le réseau correspondra-t-il à leur
répartition sur la planète? Rien n’est moins sûr à l’heure de la fracture
numérique entre riches et pauvres, entre zones rurales et zones urbaines, entre
régions favorisées et régions défavorisées, entre l’hémisphère nord et
l’hémisphère sud, entre pays développés et pays en développement.
Selon Zina Tucsnak, ingénieur d’études au laboratoire ATILF (Analyse et
traitement informatique de la langue française), interviewée en octobre 2000,
"le meilleur moyen serait l’application d’une loi par laquelle on va attribuer
un 'quota' à chaque langue. Mais n’est-ce pas une utopie de demander
l’application d’une telle loi dans une société de consommation comme la nôtre?"
A la même date, Emmanuel Barthe, documentaliste juridique, exprime un avis
contraire: "Des signes récents laissent penser qu’il suffit de laisser les
langues telles qu’elles sont actuellement sur le web. En effet, les langues
autres que l’anglais se développent avec l’accroissement du nombre de sites web
nationaux s’adressant spécifiquement aux publics nationaux, afin de les attirer
vers internet. Il suffit de regarder l’accroissement du nombre de langues
disponibles dans les interfaces des moteurs de recherche généralistes. Il serait
néanmoins utile (et bénéfique pour un meilleur équilibre des langues) de
disposer de logiciels de traduction automatique de meilleure qualité et à très
bas prix sur internet. La récente mise sur le web du GDT (Grand dictionnaire
terminologique, rédigé par l'Office de la langue française du Québec) va dans ce
sens."
Pierre Magnenat, responsable de la cellule "gestion et prospective" du centre
informatique de l'Université de Lausanne, écrit en octobre 2000: "La seule
solution que je vois serait qu'un effort majeur et global soit entrepris pour
développer des traducteurs automatiques. Je ne pense pas qu'une quelconque
incitation ou autre quota pourrait empêcher la domination totale de l'anglais.
Cet effort pourrait - et devrait - être initié au niveau des états, et disposer
des moyens suffisants pour aboutir."
Pierre-Noël Favennec, expert à la direction scientifique de France Télécom R&D,
souligne en février 2001: "Les recherches sur la traduction automatique
devraient permettre une traduction automatique dans les langues souhaitées, mais
avec des applications pour toutes les langues et non les seules dominantes (ex.:
diffusion de documents en japonais, si l’émetteur est de langue japonaise, et
lecture en breton, si le récepteur est de langue bretonne...). Il y a donc
beaucoup de travaux à faire dans le domaine de la traduction automatique et
écrite de toutes les langues."
Lucie de Boutiny, romancière, écrit en septembre 2000: "Les chiffres de
septembre 2000 montrent que 51% des utilisateurs sont anglo-saxons, et 78% des
sites aussi. Les chiffres de cette prépondérance baissent à mesure qu'augmentent
le nombre des internautes de par le monde... L'anglais va devenir la deuxième
langue mondiale après la langue natale, mais il y en aura d'autres. Un exemple:
personnellement, à l'âge de 4 ans, je parlais trois langues alors que je ne
savais ni lire ni écrire. Pour parler une langue, il peut suffire d'avoir la
chance de l'écouter. On peut espérer que le cosmopolitisme traverse toutes les
classes sociales en raison, par exemple, de l'Union européenne, du nomadisme des
travailleurs, de la facilité de déplacement à l'étranger des étudiants, de la
présence des chaînes TV et sites étrangers, etc."
LE FRANCAIS SUR L'INTERNET
= [Citation]
En décembre 1997, Tim Berners-Lee, inventeur du web, déclare à Pierre Ruetschi,
journaliste à la Tribune de Genève, un quotidien suisse: "Pourquoi les
francophones ne mettent-ils pas davantage d’informations sur le web? Est-ce
qu’ils pensent que personne ne veut la lire, que la culture française n’a rien à
offrir? C’est de la folie, l’offre est évidemment énorme." C’est chose faite
dans les années qui suivent.
= [Texte]
"En voulant trop en faire une affaire nationale, qui exprimerait aussi par
ailleurs l'antipathie qu'ils ont envers les Anglais, les Français ont tendance à
freiner la propagation de leur culture. Cela est très regrettable", lit-on le 7
novembre 1996 dans Yomiyuri Shimbun, le plus grand quotidien japonais. Ce cliché
a-t-il jamais été vrai?
Début 1998, les Québécois, pionniers de l'internet francophone, attendent de
pied ferme l'arrivée en masse de sites web français, y compris commerciaux. Lors
d'un entretien publié par le magazine en ligne Multimédium, Louise Beaudouin,
ministre de la Culture et des Communications au Québec, déclare en février 1998:
"J'attendais depuis deux ans que la France se réveille. Aujourd'hui, je ne m'en
plaindrai pas." A cette date, le Québec (6 millions d'habitants) propose plus de
sites web que la France (60 millions d'habitants). La ministre attribue le
retard de la France à deux facteurs: d'une part les tarifs élevés du téléphone
(et donc de l'internet, puisque la connexion s'effectue par le biais de la ligne
téléphonique), d'autre part les transactions commerciales possibles sur le
minitel (le videotex français) depuis plusieurs années, ce qui ralentit
l'expansion du commerce électronique sur l'internet.
C'est l'UREC (Unité réseaux du Centre national de la recherche scientifique)
qui, en France, lance le premier annuaire de sites web francophones. L'annuaire
de l'UREC a pour but de se familiariser avec le web sans se noyer dans la masse
d'informations mondiale, et de connaître les sites qui petit à petit fleurissent
en langue française. Créé début 1994, il recense d'abord les sites académiques
avant de devenir plus généraliste. D'autres annuaires voient ensuite le jour,
dont certains débutés avec l'aide de l'UREC. Le nombre de sites web, y compris
commerciaux, augmente de manière exponentielle, si bien que la gestion d'un
annuaire généraliste devient difficile. En juillet 1997, considérant sa mission
comme accomplie, l'UREC arrête la mise à jour de cet annuaire généraliste, et le
remplace par un annuaire spécialisé consacré à l'enseignement supérieur et à la
recherche.
Le français n'est pas seulement la langue du Québec, de la France et d'une
partie de la Belgique et de la Suisse. Il est parlé dans de nombreux pays - dont
un certain nombre de pays africains - ce qui représente 500 millions de
personnes. Créée en 1970 pour regrouper 21 États francophones, l'Agence de la
Francophonie en compte 47 en 1997. Cette agence se veut un "instrument de
coopération multilatérale née d'un idéal, celui de créer une communauté qui
fasse entendre sa voix dans le concert des nations."
Une Conférence des ministres francophones chargés des inforoutes a lieu à
Montréal (Québec) en mai 1997. Datée du 21 mai 1997, la Déclaration de Montréal
propose de "développer une aire francophone d'éducation, de formation et de
recherche; soutenir la création et la circulation de contenus francophones et
contribuer à la sauvegarde et à la valorisation des patrimoines; encourager la
promotion de l'aire francophone de développement économique; mettre en place une
vigie francophone (veille active); sensibiliser prioritairement la jeunesse
ainsi que les utilisateurs, les producteurs et les décideurs; assurer la
présence et la concertation des francophones dans les instances spécialisées."
Par ailleurs, l’Agence universitaire de la Francophonie (AUF) crée le réseau
internet REFER pour desservir la communauté scientifique et technique en
Afrique, en Asie et en Europe orientale, avec 24 pays participants en 2002.
S'il est la langue des pays francophones, le français est aussi la deuxième
langue utilisée dans les organisations internationales. Malgré la pression
anglophone - réelle ou supposée selon les cas -, des francophones veillent à ce
que leur langue ait une place significative en Europe et dans le monde, au même
titre que les autres grandes langues de communication que sont l'anglais,
l'arabe, le chinois et l'espagnol. Là aussi, l'optique est aussi bien la défense
d'une langue que le respect du multilinguisme et de la diversité des peuples.
ENCODAGE: DE L'ASCII A L'UNICODE
= [Citation]
Olivier Gainon, fondateur de CyLibris et pionnier de l’édition littéraire en
ligne, écrit en décembre 2000: "Il faut que le réseau respecte les lettres
accentuées, les lettres spécifiques, etc. Je crois très important que les futurs
protocoles permettent une transmission parfaite de ces aspects - ce qui n’est
pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles
IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et
que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est
anormal aujourd’hui que la transmission d’accents puisse poser problème dans les
courriers électroniques. La première démarche me semble donc une démarche
technique. Si on arrive à faire cela, le reste en découle: la représentation des
langues se fera en fonction du nombre de connectés, et il faudra envisager à
terme des moteurs de recherche multilingues."
= ASCII
Communiquer dans plusieurs langues implique d’avoir des systèmes d'encodage
adaptés à nos alphabets ou idéogrammes respectifs.
Le premier système d'encodage informatique est l’ASCII (American standard code
for information interchange). Publié en 1968 aux États-Unis par l’American
National Standards Institute (ANSI), avec actualisation en 1977 et 1986, l'ASCII
est un code standard de 128 caractères traduits en langage binaire sur sept bits
(A est traduit par "1000001", B est traduit par "1000010", etc.). Les 128
caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas
de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en
majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et
quelques caractères spéciaux, le tout correspondant aux touches du clavier
anglais ou américain.
L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas
de prendre en compte les lettres accentuées présentes dans bon nombre de langues
européennes, et à plus forte raison les langues non alphabétiques (chinois,
japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières
années, tant que l’échange de fichiers électroniques se limite essentiellement à
l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale.
Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les
caractères accentués de quelques langues européennes. La variante pour le
français, par exemple, est définie par la norme ISO-8859-1 (ISO-Latin-1).
Créé en décembre 1995 par Yoshi Mikami, informaticien à Tokyo (Japon) dans la
société Asia Info Network, le site bilingue anglais-japonais "The Languages of
the World by Computers and the Internet" (Les langues du monde sur ordinateur et
internet) est connu aussi sous le nom de Logos Home Page ou Kotoba Home Page. Le
site donne un bref historique de chaque langue, ses caractéristiques, son
système d'écriture, son jeu de caractères et enfin la configuration du clavier
dans la langue donnée. Yoshi Mikami est également co-auteur (avec Kenji Sekine
et Nobutoshi Kohara) de "Pour un web multilingue", publié en août 1997 en
japonais par les éditions O'Reilly avant d'être traduit en anglais, en allemand
et en français (version française parue en septembre 1998).
Yoshi écrit en décembre 1998: "Ma langue maternelle est le japonais. Comme j'ai
suivi mes études de troisième cycle aux États-Unis et que j'ai travaillé dans
l'informatique, je suis devenu bilingue japonais/anglais américain. J'ai
toujours été intéressé par différentes langues et cultures, aussi j'ai appris le
russe, le français et le chinois dans la foulée. A la fin de 1995, j'ai créé sur
le web 'The Languages of the World by Computers and the Internet' et j'ai tenté
de donner - en anglais et en japonais - un bref historique de toutes ces
langues, ainsi que les caractéristiques propres à chaque langue et à sa
phonétique. Suite à l'expérience acquise, j'ai invité mes deux associés à écrire
un livre sur la conception, la création et la présentation de pages web
multilingues, livre qui fut publié en août 1997 dans son édition japonaise, le
premier livre au monde sur un tel sujet."
Comment voit-il l'évolution vers un web multilingue? "Il y a des milliers
d'années de cela, en Égypte, en Chine et ailleurs, les gens étaient plus
sensibles au fait de communiquer leurs lois et leurs réflexions non seulement
dans une langue mais dans plusieurs. Dans notre monde moderne, chaque État a le
plus souvent adopté une seule langue de communication. A mon avis, l'internet
verra l'utilisation plus grande de langues différentes et de pages multilingues
- et pas seulement une gravitation autour de l'anglais américain - et un usage
plus créatif de la traduction informatique multilingue. 99% des sites web créés
au Japon sont en japonais!"
= Unicode
Avec le développement du web, l’échange des données s’internationalise de plus
en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques
langues européennes, traduites par un système d’encodage datant de 1968. De
plus, le passage de l’ASCII original à ses différentes extensions devient vite
un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes
étant entre autres la multiplication des variantes, la corruption des données
dans les échanges informatiques ou encore l’incompatibilité des systèmes, les
pages ne pouvant être affichées que dans une seule langue à la fois.
Publié pour la première fois en janvier 1991, l’Unicode est un système
d'encodage "universel" sur 16 bits spécifiant un nombre unique pour chaque
caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et
la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre
en compte tous les systèmes d’écriture de la planète. A la grande satisfaction
des linguistes, il remplace progressivement l’ASCII. L’Unicode dispose de
plusieurs variantes en fonction des besoins, par exemple UTF-8, UTF-16 et UTF-32
(UTF: Unicode transformation format). Il devient une composante des
spécifications du World Wide Web Consortium (W3C), l'organisme international
chargé du développement du web.
L’utilisation de l’Unicode se généralise en 1998, par exemple pour les fichiers
texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions
suivantes), qui étaient jusque-là en ASCII.
Mais l’Unicode ne peut résoudre tous les problèmes, comme le souligne en juin
2000 Luc Dall’Armellina, co-auteur et webmestre d’oVosite, un espace d’écriture
hypermédia: "Les systèmes d’exploitation se dotent peu à peu des kits de langues
et bientôt peut-être de polices de caractères Unicode à même de représenter
toutes les langues du monde; reste que chaque application, du traitement de
texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre
clavier avec ses ± 250 touches avoue ses manques dès lors qu’il faille saisir
des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La
grande variété des systèmes d’écriture de par le monde et le nombre de leurs
signes font barrage. Mais les écueils culturels ne sont pas moins importants,
liés aux codes et modalités de représentation propres à chaque culture ou
ethnie."
Patrick Rebollar, professeur de littérature française au Japon et modérateur de
la liste de diffusion LITOR (littérature et ordinateur), donne son sentiment en
janvier 2000: "Il s'agit d'abord d'un problème logiciel. Comme on le voit avec
Netscape ou Internet Explorer, la possibilité d'affichage multilingue existe. La
compatibilité entre ces logiciels et les autres (de la suite Office de
Microsoft, par exemple) n'est cependant pas acquise. L'adoption de la table
Unicode devrait résoudre une grande partie des problèmes, mais il faut pour cela
réécrire la plupart des logiciels, ce à quoi les producteurs de logiciels
rechignent du fait de la dépense, pour une rentabilité qui n'est pas évidente
car ces logiciels entièrement multilingues intéressent moins de clients que les
logiciels de navigation."
= ASCII et/ou Unicode
Le Projet Gutenberg est fondé dès 1971 par Michael Hart pour numériser les
oeuvres littéraires et les mettre gratuitement à la disposition de tous.
Qu’elles aient été numérisées il y a des années ou qu’elles soient numérisées
maintenant, toutes les oeuvres sont numérisées en mode texte, en utilisant
l’ASCII original sur sept bits ou, pour les langues avec accents, l'ASCII sur
huit bits prenant en compte les caractères accentués. Mais, même dans ce cas, le
Projet Gutenberg propose aussi systématiquement en complément une version ASCII
sur sept bits sans accents. Sauf, bien entendu, dans le cas de langues non
encodables en ASCII, comme le chinois, qui est encodé au format Big-5.
Surnommé à juste raison "le plus petit dénominateur commun", l'ASCII sur sept
bits est le seul format compatible avec 99% des machines et des logiciels, et
pouvant être converti dans de nombreux autres formats. Il sera toujours utilisé
quand d’autres formats auront disparu, à commencer par les formats éphémères
liés à quelques appareils de lecture lancés entre 1999 et 2003 et déjà disparus
du marché. Il est l’assurance que les collections ne deviendront jamais
obsolètes, et survivront aux changements technologiques des prochaines décennies
ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement
utilisé, y compris l'Unicode, système d'encodage "universel" créé en 1991. Ce
jusqu'en 2008, date à laquelle les deux systèmes d'encodage sont également
représentés sur le web.
Le Projet Gutenberg propose certains livres dans d’autres formats que l'ASCII,
notamment dans les trois formats répandus que sont les formats HTML, XML et RTF.
Des fichiers Unicode sont également présents. De plus, tout format proposé par
tel ou tel volontaire est généralement accepté (PDF, LIT, TeX et beaucoup
d'autres), dans la mesure où un fichier ASCII est également présent.
En ce qui concerne les langues, le Projet Gutenberg est essentiellement
anglophone, puisqu’il est basé aux États-Unis et qu'il sert en priorité la
communauté anglophone nationale et internationale. En octobre 1997, Michael Hart
annonce son intention d'intensifier la production de livres dans des langues
autres que l'anglais. Début 1998, le catalogue comprend quelques oeuvres en
allemand, en espagnol, en français (dix titres), en italien et en latin. En
juillet 1999, Michael écrit: "J'introduis une nouvelle langue par mois
maintenant, et je vais poursuivre cette politique aussi longtemps que possible."
Le multilinguisme devient ensuite l'une des priorités du Projet Gutenberg, tout
comme l'internationalisation, avec le Project Gutenberg Australia (créé en août
2001), le Projet Gutenberg Europe (créé en janvier 2004), le Project Gutenberg
Canada (créé en juillet 2007), et d'autres Projet Gutenberg à venir dans divers
pays. Dans le Projet Gutenberg original, 25 langues sont représentées en janvier
2004 et 42 langues en juillet 2005. Dès ses débuts en janvier 2004, Distributed
Proofreaders Europe (DP Europe) est un site multilingue, qui prend en compte les
principales langues nationales. Ce site est calqué sur le site original de
Distributed Proofreaders, pour gérer la relecture partagée entre les
volontaires. En avril 2004, grâce à des traducteurs volontaires, le site de DP
Europe est disponible en douze langues. L'objectif à moyen terme est un site en
soixante langues, et donc soixante équipes linguistiques, avec prise en compte
de toutes les langues européennes. DP Europe utilise l'Unicode et non l'ASCII,
pour pouvoir traiter des livres dans un grand nombre de langues.
PREMIERS PROJETS MULTILINGUES
= [Citation]
Tyler Chambers, créateur de deux projets sur le web - Human-Languages Page (Page
des langues humaines) et Internet Dictionary Project (Projet de dictionnaires
internet) - relate en septembre 1998: "Mon activité en ligne a été de rendre des
données linguistiques accessibles à davantage de gens par le biais de deux de
mes projets sur le web. Bien que je ne sois pas multilingue, ni même bilingue
moi-même, je suis conscient du fait que très peu de domaines ont une importance
comparable à celle des langues et du multilinguisme. (...) Dans l'ensemble, je
pense que le web est important pour la sensibilisation aux langues et pour les
questions culturelles. Dans quel autre endroit peut-on chercher au hasard
pendant vingt minutes et trouver des informations susceptibles de vous
intéresser dans trois langues différentes sinon plus?"
= Travlang
Travlang, site dédié à la fois aux voyages et aux langues, est créé par Michael
C. Martin en 1994 sur le site de son université alors qu'il était étudiant en
physique. Devenu chercheur au Lawrence Berkeley National Laboratory
(Californie), Michael Martin poursuit la gestion de ce site devenu très
populaire. La section Foreign Languages for Travelers (Langues étrangères pour
les voyageurs) donne la possibilité d'apprendre les rudiments de soixante
langues sur le web. La section Translating Dictionaries (Dictionnaires de
langues) donne accès à des dictionnaires gratuits dans diverses langues
(afrikaans, allemand, danois, espagnol, espéranto, finnois, français, frison,
hollandais, hongrois, italien, latin, norvégien, portugais et tchèque). Ces
dictionnaires sont le plus souvent sommaires et de qualité inégale. Le site
offre aussi de nombreux liens vers des services de traduction, des écoles de
langue, des librairies multilingues, etc.
Michael Martin écrit en août 1998: "Je pense que le web est un endroit idéal
pour rapprocher les cultures et les personnes, et ceci inclut d'être
multilingue. Notre site Travlang est très populaire pour cette raison, et les
gens aiment le contact avec d'autres parties du monde. (...) L'internet est
vraiment un outil important pour communiquer avec des gens avec lesquels on
n'aurait pas l'occasion de dialoguer autrement. J'apprécie vraiment la
collaboration générale qui a rendu possibles les pages de Foreign Languages for
Travelers. (...) Je pense que les traductions intégrales informatisées vont
devenir monnaie courante, et qu'elles permettront de communiquer à la base avec
davantage de gens. Ceci aidera aussi à amener davantage l'internet au monde non
anglophone."
= Human-Languages Page
Créée par Tyler Chambers en mai 1994, The Human-Languages Page (La page des
langues humaines) est un catalogue détaillé de 1.800 ressources linguistiques
dans une centaine de langues. Les grandes rubriques sont: langues et
littérature, écoles et institutions, ressources linguistiques, produits et
services, organismes, emplois et stages, dictionnaires et cours de langues.
Tyler Chambers mène aussi un autre projet relatif aux langues, l'Internet
Dictionary Project
(Projet de dictionnaires internet), un projet coopératif ouvert à tous pour la
constitution de dictionnaires en accès libre sur le web, de l'anglais vers
d'autres langues (allemand, espagnol, français, italien, latin et portugais).
Comme expliqué sur le site web, "le but de l'Internet Dictionary Project est de
créer des dictionnaires de traduction grâce à l'aide des internautes. Ce site
permet aux individus du monde entier de consulter et de participer à la
traduction de termes anglais dans d'autres langues. Les listes de termes anglais
et leurs correspondants dans d'autres langues sont ensuite mis à la disposition
de tous sur ce site, sans restriction d'aucune sorte. (...) The Internet
Dictionary Project a débuté en 1995 pour combler une lacune et procurer des
dictionnaires de traduction gratuits à la communauté des internautes et à tous
ceux qui s'intéressent à l'informatique. Non seulement il est très utile d'avoir
immédiatement accès à des dictionnaires par le World Wide Web, mais ceci permet
aussi le développement de logiciels pouvant tirer parti de tels dictionnaires,
que ce soit des programmes de traduction ou des vérificateurs d'orthographe ou
encore des guides d'apprentissage des langues. En facilitant la création de ces
dictionnaires en ligne par des milliers de volontaires, et en les mettant
gratuitement à la disposition de tous, l'Internet Dictionary Project espère
imprimer sa marque sur l'internet et susciter d'autres projets qui seront plus
bénéfiques que de générer des revenus purement financiers."
Tyler Chambers écrit en septembre 1998 lors d'un entretien par courriel: "Le
multilinguisme sur le web était inévitable bien avant que ce médium ne se
développe vraiment. Mon premier vrai contact avec l'internet date de 1994, un
peu après ses débuts mais bien avant son expansion. 1994 a été aussi l'année où
j'ai débuté mon premier projet web multilingue, et il existait déjà un nombre
significatif de ressources linguistiques en ligne. Ceci était antérieur à la
création de Netscape. Mosaic était le seul navigateur sur le web, et les pages
web étaient essentiellement des documents textuels reliés par des hyperliens.
Avec l'amélioration des navigateurs et l'expérience acquise par les usagers, je
ne pense pas qu'il existe une langue vivante qui ne soit pas maintenant
représentée sur le web, que ce soit la langue des Indiens d'Amérique ou les
dialectes moyen-orientaux. De même une pléthore de langues mortes peut
maintenant trouver une audience nouvelle avec des érudits et autres spécialistes
en ligne. A ma connaissance, très peu de jeux de caractères ne sont pas
disponibles en ligne: les navigateurs ont maintenant la possibilité de
visualiser les caractères romains, asiatiques, cyrilliques, grecs, turcs, etc.
Accent Software a un produit appelé 'Internet avec accents' qui serait capable
de visualiser plus de 30 encodages différents. S'il existe encore des obstacles
à la diffusion d'une langue spécifique sur le web, ceci ne devrait pas durer."
En ce qui concerne les projets en ligne de Tyler: "Mon activité en ligne a été
de rendre l'information linguistique accessible à davantage de gens par le biais
de deux de mes projets sur le web. Bien que je ne sois pas multilingue, ni même
bilingue moi-même, je suis conscient du fait que très peu de domaines ont une
importance comparable à celle des langues et du multilinguisme. L'internet m'a
permis de toucher des millions de personnes et de les aider à trouver ce
qu'elles cherchaient, chose que je suis heureux de faire. Je suis devenu aussi
une sorte de célébrité, ou au moins quelqu'un de familier dans certains cercles.
Je viens de découvrir qu'un de mes projets est brièvement mentionné dans les
éditions asiatique et internationale de Time Magazine. Dans l'ensemble, je pense
que le web est important pour la sensibilisation aux langues et pour les
questions culturelles. Dans quel autre endroit peut-on chercher au hasard
pendant vingt minutes et trouver des informations susceptibles de vous
intéresser dans trois langues différentes sinon plus? Les médias de
communication rendent le monde plus petit en rapprochant les gens; je pense que
le web est le premier médium - bien plus que le courrier, le télégraphe, le
téléphone, la radio ou la télévision - à réellement permettre à l'usager moyen
de franchir les frontières nationales et culturelles. Israël n'est plus à des
milliers de kilomètres, mais seulement à quelques clics de souris. Notre monde
est désormais suffisamment petit pour tenir sur un écran d'ordinateur."
Comment Tyler voit-il l'avenir? "Je pense que l'avenir de l'internet réside dans
davantage de multilinguisme, d'exploration et de compréhension multiculturelles
que nous n'en avons jamais vu. Toutefois l'internet sera seulement le médium au
travers duquel l'information circule. Comme le papier qui sert de support au
livre, l'internet en lui-même augmente très peu le contenu de l'information. Par
contre il augmente énormément la valeur de celle-ci dans la capacité qu'il a de
communiquer cette information. Dire que l'internet aiguillonne le multilinguisme
est à mon sens une opinion fausse. C'est la communication qui aiguillonne le
multilinguisme et l'échange multiculturel. L'internet est seulement le mode de
communication le plus récent qui soit accessible aux gens plus ou moins
ordinaires. L'internet a un long chemin à parcourir avant d'être omniprésent
dans le monde entier, mais il est vraissemblable que lui-même ou un médium de la
même lignée atteigne ce but. Les langues deviendront encore plus importantes
qu'elles ne le sont quand tout le monde pourra communiquer à l'échelle de la
planète (à travers le web, les discussions, les jeux, le courrier électronique,
ou toute application appartenant encore au domaine de l'avenir), mais je ne sais
pas si ceci mènera à un renforcement des attaches linguistiques ou à une fusion
des langues jusqu'à ce qu'il n'en subsite plus que quelques-unes ou même une
seule. Une chose qui m'apparaît certaine est que l'internet sera toujours la
marque de notre diversité, y compris la diversité des langues, même si cette
diversité diminue. Et c'est une des choses que j'aime au sujet de l'internet,
c'est un exemple à l'échelle mondiale du dicton: 'Cela n'a pas vraiment disparu
tant que quelqu'un s'en souvient.' Et les gens se souviennent."
Au printemps 2001, The Human-Languages Page fusionne avec le Languages Catalog
(Catalogue des langues), section de la WWW Virtual Library, pour devenir
iLoveLanguages. En septembre 2003, iLoveLanguages offre 2.000 ressources
linguistiques dans une centaine de langues. Quant à l'Internet Dictionary
Project, faute de temps, Tyler met fin à ce projet en janvier 2007, tout en
laissant les dictionnaires existants tels quels sur le web pour consultation ou
téléchargement.
= NetGlos
NetGlos - abrégé de "The Multilingual Glossary of Internet Terminology" (Le
glossaire multilingue de la terminologie de l'internet) - est lancé en 1995 à
l'initiative du WorldWide Language Institute (Institut des langues du monde
entier). Il s'agit d'un projet coopératif en treize langues (allemand, anglais,
chinois, croate, espagnol, français, grec, hébreu, hollandais/flamand, italien,
maori, norvégien et portugais), avec la participation de nombre de traducteurs
et autres professionnels des langues.
Brian King, directeur du WorldWide Language Institute (WWLI), explique en
septembre 1998: "Bien que l'anglais soit la langue la plus importante du web et
de l'internet en général, je pense que le multilinguisme fait inévitablement
partie des futures orientations du cyberespace. Voici quelques éléments qui, à
mon sens, permettront que le web multilingue devienne une réalité:
1. . La technologie des
ordinateurs a longtemps été le seul domaine d'une élite 'technicienne', à l'aise
à la fois dans des langages de programmation complexes et en anglais, la langue
universelle des sciences et techniques. Au départ, les ordinateurs n'ont jamais
été conçus pour manier des systèmes d'écriture ne pouvant être traduits en
ASCII. Il n'y avait pas de place pour autre chose que les 26 lettres de
l'alphabet anglais dans un système d'encodage qui, à l'origine, ne pouvait même
pas reconnaître les accents aigus et les trémas, sans parler de systèmes non
alphabétiques comme le chinois. Mais la tradition a été bouleversée, et la
technologie popularisée. Des interfaces graphiques tels que Windows et Macintosh
ont accéléré le processus. La stratégie de marketing de Microsoft a consisté à
présenter son système d'exploitation comme facile à utiliser par le client
moyen. A l'heure actuelle, cette facilité d'utilisation s'est étendue au-delà du
PC vers le réseau internet, si bien que même ceux qui ne sont pas programmeurs
peuvent maintenant insérer des applets Java dans leurs pages web sans comprendre
une seule ligne de programmation.
2. .
L'extension de cette popularisation à l'échelon local est l'exportation des
technologies de l'information dans le monde entier. La popularisation est
maintenant effective à l'échelon mondial, et l'anglais n'est plus nécessairement
la langue obligée de l'utilisateur. Il n'y a plus vraiment de langue
indispensable, il y a les langues propres aux utilisateurs. Une chose est
certaine: il n'est plus nécessaire de comprendre l'anglais pour utiliser un
ordinateur, de même qu'il n'est plus nécessaire d'avoir un diplôme
d'informatique. La demande des utilisateurs non anglophones - et l'effort
entrepris par les sociétés de haute technologie se faisant concurrence pour
obtenir les marchés mondiaux - ont fait de la localisation un secteur en
expansion rapide dans le développement des logiciels et du matériel
informatique. Le premier pas a été le passage de l'ASCII à l'ASCII étendu. Ceci
signifie que les ordinateurs commençaient à reconnaître les accents et les
symboles utilisés dans les variantes de l'alphabet anglais, symboles qui
appartenaient le plus souvent aux langues européennes. Cependant une page ne
pouvait être affichée qu'en une seule langue à la fois.
3. . L'innovation la plus récente est l'Unicode.
Bien qu'il soit encore en train d'évoluer et qu'il ait tout juste été incorporé
dans les derniers logiciels, ce nouveau système d'encodage traduit chaque
caractère en 16 octets. Alors que l'ASCII étendu à 8 octets pouvait prendre en
compte un maximum de 256 caractères, l'Unicode peut prendre en compte plus de
65.000 caractères uniques et il a donc la possibilité de traiter
informatiquement tous les systèmes d'écriture du monde. Les instruments sont
maintenant plus ou moins en place. Ils ne sont pas encore parfaits, mais on peut
désormais surfer sur le web en utilisant le chinois, le japonais, le coréen, et
nombre d'autres langues n'utilisant pas l'alphabet occidental. Comme l'internet
s'étend à des parties du monde où l'anglais est très peu utilisé, par exemple la
Chine, il est naturel que ce soit le chinois et non l'anglais qui soit utilisé.
La majorité des usagers en Chine n'a pas d'autre choix que sa langue maternelle.
Une période intermédiaire précède bien sûr ce changement. Une grande partie de
la terminologie technique disponible sur le web n'est pas encore traduite dans
d'autres langues. Et, comme nous nous en sommes rendus compte dans NetGlos,
notre glossaire multilingue de la terminologie de l'internet, la traduction de
ces termes n'est pas toujours facile. Avant qu'un nouveau terme ne soit accepté
comme le terme correct, il y a une période d'instabilité avec plusieurs
candidats en compétition. Souvent un terme emprunté à l'anglais est le point de
départ et, dans de nombreux cas, il est aussi le point d'arrivée. Finalement
émerge un vainqueur qui est ensuite utilisé aussi bien dans les dictionnaires
techniques que dans le vocabulaire quotidien de l'usager non spécialiste. La
dernière version de NetGlos est la version russe, et elle devrait être
disponible dans deux semaines environ [fin septembre 1998]. Elle sera sans nul
doute un excellent exemple du processus dynamique en cours pour la russification
de la terminologie du web.
4. . Dans un rapport de l'UNESCO du début des années
1950, l'enseignement dispensé dans sa langue maternelle était considéré comme un
droit fondamental de l'enfant. La possibilité de naviguer sur l'internet dans sa
langue maternelle pourrait bien être son équivalent à l'âge de l'information. Si
l'internet doit vraiment devenir le réseau mondial qu'on nous promet, tous les
usagers devraient y avoir accès sans problème de langue. Le considérer comme la
chasse gardée de ceux qui, par accident historique, nécessité pratique ou
privilège politique, connaissent l'anglais, est injuste à l'égard de ceux qui ne
connaissent pas cette langue.
5. . Bien qu'un web multilingue soit souhaitable sur
le plan moral et éthique, un tel idéal ne suffit pas pour en faire une réalité à
vaste échelle. De même que l'utilisateur non anglophone peut maintenant avoir
accès aux technologies dans sa propre langue, l'impact du commerce électronique
peut constituer une force majeure qui fasse du multilinguisme la voie la plus
naturelle vers le cyberespace. Les vendeurs de produits et services dans le
marché virtuel mondial que devient l'internet doivent être préparés à traiter
avec un monde virtuel qui soit aussi multilingue que le monde physique. S'ils
veulent réussir, ils doivent s'assurer qu'ils parlent bien la langue de leurs
clients!"
En ce qui concerne le WorldWide Language Institute, quelles sont les
perspectives? "Comme l'existence de notre organisme est liée à l'importance
attachée aux langues, je pense que son avenir sera excitant et stimulant. Mais
il est impossible de pratiquer l'autosuffisance à l'égard de nos réussites et de
nos réalisations. La technologie change à une allure frénétique. L'apprentissage
durant toute la vie est une stratégie que nous devons tous adopter si nous
voulons rester en tête et être compétitifs. C'est une tâche qui est déjà assez
difficile dans un environnement anglophone. Si nous ajoutons à cela la
complexité apportée par la communication dans un cyberespace multilingue et
multiculturel, la tâche devient encore plus astreignante. Probablement davantage
encore que par le passé, la coopération est aussi indispensable que la
concurrence. Les germes d'une coopération par le biais de l'internet existent
déjà. Notre projet NetGlos dépend du bon vouloir de traducteurs volontaires de
nombreux pays: Canada, États-Unis, Autriche, Norvège, Belgique, Israël,
Portugal, Russie, Grèce, Brésil, Nouvelle-Zélande, etc. Je pense que les
centaines de visiteurs qui consultent quotidiennement les pages de NetGlos
constituent un excellent témoignage du succès de ce type de relations de
travail. Les relations de coopération s'accroîtront encore à l'avenir, mais pas
nécessairement sur la base du volontariat."
= Logos
Fondé en 1979 à Modène (Italie) par Rodrigo Vergara, Logos est une société de
traduction offrant des services dans 35 langues en 1997, avec 300 traducteurs
travaillant sur place et un réseau mondial de 2.500 traducteurs travaillant en
free-lance. La moyenne de production est de 200 textes par jour. Fin 1997, Logos
décide de mettre tous ses outils professionnels en accès libre sur le web. Le
Logos Dictionary est un dictionnaire multilingue de 7,5 millions d'entrées. La
Wordtheque est une base de données multilingue de 328 millions de mots,
constituée à partir de milliers de traductions, notamment des romans et des
documents techniques. La recherche dans la Wordtheque est possible par langue,
mot, auteur ou titre. Linguistic Resources (Ressources linguistiques) offre un
point d'accès unique à 553 glossaires. L'Universal Conjugator (Conjugaison
universelle) propose des tableaux de conjugaison dans 17 langues.
Dans un entretien avec Annie Kahn, journaliste au quotidien Le Monde, publié le
7 décembre 1997 au sein d'un article, "Les mots pour le dire", Robert Vergara
relate: "Nous voulions que nos traducteurs aient tous accès aux mêmes outils de
traduction. Nous les avons donc mis à leur disposition sur internet, et tant
qu’à faire nous avons ouvert le site au public. Cela nous a rendus très
populaires, nous a fait beaucoup de publicité. L’opération a drainé vers nous de
nombreux clients, mais aussi nous a permis d’étoffer notre réseau de traducteurs
grâce aux contacts établis à la suite de cette initiative."
Annie Kahn explique dans le même article: "Le site de Logos est beaucoup plus
qu'un dictionnaire ou qu'un répertoire de liens vers d'autres dictionnaires en
ligne. L'un des piliers du système est un logiciel de recherche documentaire
fonctionnant sur un corpus de textes littéraires disponibles gratuitement sur
internet. Lorsque l'on recherche la définition ou la traduction d'un mot,
'didactique' par exemple, on trouve non seulement le résultat recherché, mais
aussi une phrase d'une oeuvre littéraire utilisant ce mot (en l'occurence, un
essai de Voltaire). Un simple clic permet d'accéder au texte intégral de
l'oeuvre ou de commander le livre grâce à un partenariat avec Amazon.com, le
libraire en ligne bien connu. Il en est de même avec les traductions étrangères.
Si aucun texte utilisant ce mot n'a été trouvé, le système fonctionne alors
comme un moteur de recherche et renvoie aux sites web concernant ce mot. Pour
certains termes, il est proposé d'en entendre la prononciation. Si une
traduction manque, le système fait un appel au peuple. A chacun d'enrichir la
base, les traducteurs de l'entreprise valident ensuite les traductions
proposées."
En 2007, la Wordtheque, devenue la Logos Library, comprend 710 millions de
termes. Conjugation of Verbs, devenu l’Universal Conjugator, propose des
tableaux de conjugaison dans 36 langues. Et Linguistic Resources offre un point
d’accès unique à 1.215 glossaires.
DICTIONNAIRES DE LANGUES EN LIGNE
= [Citation]
Robert Beard, professeur de langues et créateur du site "A Web of Online
Dictionaries" (Un web de dictionnaires en ligne, intégré plus tard au portail
yourDictionary.com), écrit en septembre 1998: "On a d'abord craint que le web
représente un danger pour le multilinguisme, étant donné que le HTML et d'autres
langages de programmation sont basés sur l'anglais et qu'on trouve tout
simplement plus de sites web en anglais que dans toute autre langue. Cependant,
les sites web que je gère montrent que le multilinguisme est très présent et que
le web peut en fait permettre de préserver des langues menacées de disparition.
Je propose maintenant des liens vers des dictionnaires dans 150 langues
différentes et des grammaires dans 65 langues différentes."
= Dictionnaires imprimés en ligne
Le premier dictionnaire de langue française en accès libre est le "Dictionnaire
universel francophone" en ligne, qui répertorie 45.000 mots et 116.000
définitions tout en présentant "sur un pied d’égalité, le français dit
'standard' et les mots et expressions en français tel qu’on le parle sur les
cinq continents". Issu de la collaboration entre Hachette et l’AUPELF-UREF
(devenu depuis l’AUF: Agence universitaire de la francophonie), il correspond à
la partie "noms communs" du dictionnaire imprimé disponible chez Hachette.
L’équivalent pour la langue anglaise est le site Merriam-Webster OnLine, qui
donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.
En mars 2000, les 20 volumes de l’Oxford English Dictionary (OED) sont mis en
ligne par l’Oxford University Press (OUP). La consultation du site est payante.
Le dictionnaire bénéficie d’une mise à jour trimestrielle d’environ 1.000
entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars
2002, l’Oxford University Press met en ligne l’Oxford Reference Online (ORO),
une vaste encyclopédie conçue directement pour le web et consultable elle aussi
sur abonnement payant. Avec 60.000 pages et un million d’entrées, elle
représente l’équivalent d’une centaine d’ouvrages de référence.
= Répertoires de dictionnaires
"Dictionnaires électroniques" est un excellent répertoire établi par la section
française des Services linguistiques centraux (SLC-f) de l'Administration
fédérale suisse. Cette liste très complète de dictionnaires monolingues
(allemand, anglais, espagnol, français, italien), bilingues et multilingues est
complétée par des répertoires d'abréviations et acronymes et des répertoires
géographiques, essentiellement des atlas.
Marcel Grangier, responsable de la section française des Services linguistiques
centraux, écrit en janvier 1999: "Le multilinguisme sur internet peut être
considéré comme une fatalité heureuse et surtout irréversible. C'est dans cette
optique qu'il convient de creuser la tombe des rabat-joie dont le seul discours
est de se plaindre d'une suprématie de l'anglais. Cette suprématie n'est pas un
mal en soi, dans la mesure où elle résulte de réalités essentiellement
statistiques (plus de PC par habitant, plus de locuteurs de cette langue, etc.).
La riposte n'est pas de 'lutter contre l'anglais' et encore moins de s'en tenir
à des jérémiades, mais de multiplier les sites en d'autres langues. Notons qu'en
qualité de service de traduction, nous préconisons également le multilinguisme
des sites eux-mêmes. (...)
Travailler sans internet est devenu tout simplement impossible: au-delà de tous
les outils et commodités utilisés (messagerie électronique, consultation de la
presse électronique, activités de services au profit de la profession des
traducteurs), internet reste pour nous une source indispensable et inépuisable
d'informations dans ce que j'appellerais le 'secteur non structuré' de la toile.
Pour illustrer le propos, lorsqu'aucun site comportant de l'information
organisée ne fournit de réponse à un problème de traduction, les moteurs de
recherche permettent dans la plus grande partie des cas de retrouver le chaînon
manquant quelque part sur le réseau."
Comment voit-il l'avenir? "La multiplication des langues présentes sur internet
est inévitable, et ne peut que bénéficier aux échanges multiculturels. Pour que
ces échanges prennent place dans un environnement optimal, il convient encore de
développer les outils qui amélioreront la compatibilité. La gestion complète des
diacritiques ne constitue qu'un exemple de ce qui peut encore être entrepris."
Quelques années plus tard, le répertoire "Dictionnaires électroniques" rejoint
le site de la Conférence des Services de traduction des États européens (CST).
= yourDictionary.com
Robert Beard, professeur de langues à la Bucknell University (États-Unis), crée
d'abord en 1995 A Web of Online Dictionaries (Un web de dictionnaires en ligne),
qui est un répertoire de dictionnaires en ligne (800 liens en automne 1998) dans
de nombreuses langues, auquel s'ajoutent d'autres sections: dictionnaires
multilingues, dictionnaires anglophones spécialisés, thésauri et vocabulaires,
grammaires en ligne, et enfin outils linguistiques pour non spécialistes.
Robert Beard écrit en septembre 1998: "On a d'abord craint que le web représente
un danger pour le multilinguisme, étant donné que l'HTML et d'autres langages de
programmation sont basés sur l'anglais et qu'on trouve tout simplement plus de
sites web en anglais que dans toute autre langue. Cependant, les sites web que
je gère montrent que le multilinguisme est très présent et que le web peut en
fait permettre de préserver des langues menacées de disparition. Je propose
maintenant des liens vers des dictionnaires dans 150 langues différentes et des
grammaires dans 65 langues différentes. De plus, ceux qui développent les
logiciels de navigation manifestent une attention nouvelle pour la diversité des
langues dans le monde, ce qui favorisera la présence d'un nombre encore plus
grand de sites web dans différentes langues. (...)
En tant que professeur de langues, je pense que le web présente une pléthore de
nouvelles ressources disponibles dans la langue étudiée, de nouveaux instruments
d'apprentissage (exercices interactifs Java et Shockwave) et de test, qui sont à
la disposition des étudiants quand ceux-ci en ont le temps ou l'envie, 24 heures
par jour et 7 jours par semaine. Aussi bien pour mes collègues que pour moi, et
bien sûr pour notre établissement, l'internet nous permet aussi de publier
pratiquement sans limitation."
Comment voit-il l'avenir? "L'internet nous offrira tout le matériel pédagogique
dont nous pouvons rêver, y compris des notes de lecture, exercices, tests,
évaluations et exercices interactifs plus efficaces que par le passé, parce que
reposant davantage sur la notion de communication. Le web sera une encyclopédie
du monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de
connaissances utiles qui ne soient pas diponibles, si bien que l'obstacle
principal à la compréhension internationale et interpersonnelle et au
développement personnel et institutionnel sera levé. Il faudrait une imagination
plus débordante que la mienne pour prédire l'effet de ce développement sur
l'humanité."
Robert Beard co-fonde ensuite le portail yourDictionary.com, qui intègre son
site précédent, avec mise en ligne de la nouvelle mouture en février 2000. Il
écrit en janvier 2000: "Nos nouvelles idées sont nombreuses. Nous projetons de
travailler avec le 'Endangered Language Fund' [Fonds pour les langues menacées]
aux États-Unis et en Grande-Bretagne pour rassembler des fonds pour cette
fondation et nous publierons les résultats sur notre site. Nous aurons des
groupes de discussion et des bulletins d'information sur les langues. Il y aura
des jeux de langue destinés à se distraire et à apprendre les bases de la
linguistique. La page 'Linguistic Fun' [qui propose des éléments de linguistique
pour les non initiés] deviendra un journal en ligne avec des extraits courts,
intéressants et même amusants dans différentes langues, choisis par des experts
du monde entier. (...) Si l'anglais domine encore le web, on voit s'accentuer le
développement de sites monolingues et non anglophones du fait des solutions
variées apportées aux problèmes de caractères."
En septembre 2003, yourDictionary.com, devenu un portail de référence,
répertorie plus de 1.800 dictionnaires dans 250 langues, ainsi que de nombreux
outils linguistiques: vocabulaires, grammaires, glossaires, méthodes de langues,
etc. En avril 2007, le répertoire comprend 2.500 dictionnaires et grammaires
dans 300 langues.
Soucieux de servir toutes les langues sans exception, le portail propose
l'Endangered Language Repository, une section spécifique consacrée aux langues
menacées. "Les langues menacées sont essentiellement des langues non écrites,
écrit Robert Beard en janvier 2000. Un tiers seulement des quelque 6.000 langues
existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant
pas que le web va contribuer à la perte de l’identité des langues et j’ai même
le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de
plus en plus d’Indiens d’Amérique contactent des linguistes pour leur demander
d’écrire la grammaire de leur langue et de les aider à élaborer des
dictionnaires. Pour eux, le web est un instrument à la fois accessible et très
précieux d’expression culturelle."
= Grand dictionnaire terminologique
Le Grand dictionnaire terminologique (GDT) est une initiative majeure de
l'Office québécois de la langue française (OQLF). C'est en effet la première
fois qu'un organisme propose une base terminologique aussi importante en accès
libre sur le web, en septembre 2000. Le GDT est précédé par Le Signet, une base
terminologique relative aux technologies de l'information, dont les 10.000
fiches bilingues français-anglais sont ensuite intégrées au GDT.
Le GDT est un dictionnaire bilingue français-anglais de 3 millions de termes
appartenant au vocabulaire industriel, scientifique et commercial. Sa mise en
ligne est le résultat d'un partenariat entre l'OQLF, auteur du dictionnaire, et
Semantix, société spécialisée dans les solutions logicielles linguistiques.
Evénement célébré par de très nombreux linguistes, cette mise en ligne est un
succès. Dès le premier mois, le GDT est consulté par 1,3 million de personnes,
avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est
ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre
de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars
2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une
société prestataire.
= Bases terminologiques
Des bases terminologiques spécialisées sont mises en ligne par des organisations
internationales, entre autres.
ILOTERM est une base terminologique quadrilingue (allemand, anglais, espagnol,
français) gérée par l'Unité de terminologie et de référence du Service des
documents officiels (OFFDOC) de l'Organisation internationale du Travail (OIT).
Comme indiqué sur le site web en 1998, "sa principale finalité est d'apporter
des solutions, conformes à l'usage courant, à des problèmes terminologiques dans
le domaine du travail et des questions sociales. Les termes figurent en anglais
avec leurs équivalents en français, espagnol et/ou allemand. La base de données
contient également (dans une à quatre langues) des articles concernant la
structure et les programmes de l'OIT, les noms officiels d'institutions
internationales, d'organismes nationaux et d'organisations nationales
d'employeurs et de travailleurs, ainsi que les titres de réunions et
d'instruments internationaux."
La base TERMITE (ITU Telecommunication Terminology Database) est gérée par la
Section de traduction de l'Union internationale des télécommunications (UIT). Il
s'agit d'une base terminologique quadrilingue (environ 60.000 entrées en
anglais, espagnol, français et russe). Comme indiqué sur le site web en 1998,
"TERMITE contient tous les termes qui apparaissent dans tous les glossaires de
l'UIT imprimés depuis 1980, ainsi que des termes plus récents en rapport avec
les différentes activités de l'Union (en tout quelque 59.000 entrées).
Normalement les collaborateurs qui s'occupent de l'amélioration et de la mise à
jour de cette base de données sont des traducteurs ou des éditeurs techniques.
TERMITE est surtout visité par les traducteurs internes mais aussi par des
utilisateurs externes, travaillant dans le domaine des télécommunications."
La base WHOTERM (WHO Terminology Information System) est gérée par
l'Organisation mondiale de la santé (OMS). Cette base terminologique trilingue
(anglais, espagnol, français) a été constituée à partir des documents de l'OMS
(vocabulaire, expressions, concepts) afin d'"améliorer la rigueur et la
cohérence des textes rédigés, préparés ou traduits. Elle permet également à tous
ceux qui collaborent à des programmes techniques de l'OMS d'enrichir les
terminologies nouvelles, de promouvoir leur normalisation et de garantir leur
diffusion".
Eurodicautom est géré par le service de traduction de la Commission européenne.
Cette base terminologique multilingue de termes économiques, scientifiques,
techniques et juridiques permet de combiner entre elles les onze langues
officielles de l’Union européenne (allemand, anglais, danois, espagnol, finnois,
français, grec, hollandais, italien, portugais, suédois), ainsi que le latin,
avec une moyenne de 120.000 consultations par jour.
Fin 2003, Eurodicautom annonce son intégration dans une base terminologique plus
vaste regroupant les bases de plusieurs institutions de l’Union européenne.
Cette nouvelle base traite non plus douze langues, mais une vingtaine, puisque
l’Union européenne s’élargit à l’Est et passe de 15 à 25 membres en mai 2004,
pour atteindre 27 membres en janvier 2007. La nouvelle base terminologique voit
le jour en mars 2007, sous le nom de IATE (Inter-Active Terminology for Europe),
avec 1,4 million d’entrées dans 24 langues.
= Dictionnaires anciens
Les dictionnaires anciens trouvent une nouvelle vie sur le web, par exemple sur
le site de l'Institut national de la langue française (INaLF), qui offre des
ressources terminologiques sur le discours littéraire des 14e au 20e siècles
(contenu, sémantique, thématique), la langue courante (langue écrite, langue
parlée, argot), et le discours scientifique et technique.
Christiane Jadelot, ingénieur d'études à l'INaLF-Nancy, explique en juin 1998:
"Les premières pages sur l'INaLF ont été mises sur l'internet au milieu de
l'année 1996, à la demande de Robert Martin, directeur de l'INaLF. J'ai
participé à la mise sous internet de ces pages (...). La direction a senti la
nécessité urgente de nous faire connaître par l'internet, que beaucoup d'autres
entreprises utilisaient déjà pour promouvoir leurs produits. Nous sommes en
effet 'Unité de recherche et de service' et nous avons donc à trouver des
clients pour nos produits informatisés, le plus connu d'entre eux étant la base
textuelle FRANTEXT [sur l'internet depuis début 1995], ainsi qu'une maquette du
tome 14 du TLF [Trésor de la langue française]. Il était donc nécessaire de
faire connaître l'ensemble de l'INaLF par ce moyen. Cela correspondait à une
demande générale."
La base FRANTEXT comprend, en mode interactif, 180 millions de mots-occurrences
provenant d'une collection représentative de 3.500 unités textuelles en arts,
sciences et techniques des 16e-20e siècles. Début 1998, 82 centres de recherche
et bibliothèques universitaires sont abonnés, en Europe, en Australie, au Japon
et au Canada, ce qui représente 1.250 postes de travail ayant accès à la base,
avec une cinquantaine de sessions d'interrogations par jour.
L'ARTFL Project (ARTFL: American and French Research on the Treasury of the
French Language - Recherche franco-américaine sur les trésors de la langue
française) est un projet commun du Centre national de la recherche scientifique
(CNRS, France) et de l'Université de Chicago (Illinois, États-Unis). Ce projet a
pour but de constituer une base de données de 2.000 textes des 13e-20e siècles
ayant trait à la littérature, la philosophie, les arts ou les sciences.
En 1998, l'ARTFL travaille à la version en ligne exhaustive de la première
édition (1751-1772) de l'"Encyclopédie ou Dictionnaire raisonné des sciences,
des métiers et des arts" de Diderot et d'Alembert. 72.000 articles rédigés par
plus de 140 collaborateurs - dont Voltaire, Rousseau, d'Alembert, Marmontel,
d'Holbach, Turgot, etc. - ont fait de cette encyclopédie un monumental ouvrage
de référence pour les arts et les sciences. Destinée à rassembler puis divulguer
les connaissances de l'époque, elle porte la marque des courants intellectuels
et sociaux du 18e siècle, et c'est grâce à elle qu'ont été propagées les idées
du Siècle des Lumières. L'Encyclopédie comprend 17 volumes de texte - qui
représentent 18.000 pages et 20.736.912 mots - et 11 volumes de planches.
La base de données correspondant au premier volume est accessible en ligne à
titre expérimental. La recherche peut être effectuée par mot, portion de texte,
auteur ou catégorie, ou par la combinaison de ces critères entre eux. On dispose
de renvois d'un article à l'autre, au moyen de liens permettant d'aller d'une
planche au texte ou du texte au fac-similé des pages originales.
L'automatisation complète des procédures de saisie entraîne des erreurs
typographiques et des erreurs d'identification qui sont corrigées au fil des
mois. La recherche d'images par mot, portion de texte ou catégorie est également
possible dans un deuxième temps.
L'ARTFL travaille aussi à un projet de base de données pour le "Dictionnaire de
l'Académie française", dont les différentes éditions se sont échelonnées entre
1694 et 1935. Ce projet inclut la saisie et l'édition du texte, ainsi que la
création d'un moteur de recherche spécifique. La première édition (1694) et la
cinquième édition (1798) du dictionnaire sont les premières à être disponibles
pour une recherche par mot, puis pour une recherche en texte intégral. Les
différentes éditions sont ensuite combinées dans une base de données unique qui
permet de juger de l'évolution d'un terme en consultant aussi bien une édition
particulière que l'ensemble des éditions.
Les autres projets de l'ARTFL sont la version image de l'édition de 1740 du
"Dictionnaire historique et critique" de Philippe Bayle, le "Roget's Thesaurus"
de 1911, le "Webster's Revised Unabridged Dictionary" de 1913, le "Thresor de la
langue française" de Jean Nicot (1606), un projet multilingue sur La Bible
comprenant entre autres "La Bible française" de Louis Segond (1910), etc.
APPRENDRE LES LANGUES EN LIGNE
= [Citation]
Robert Beard, professeur de langues et créateur du portail yourDictionary.com,
écrit en septembre 1998: "En tant que professeur de langues, je pense que le web
présente une pléthore de nouvelles ressources disponibles dans la langue
étudiée, de nouveaux instruments d'apprentissage (exercices interactifs Java et
Shockwave) et de test, qui sont à la disposition des étudiants quand ceux-ci en
ont le temps ou l'envie, 24 heures par jour et 7 jours par semaine. [Plus tard]
l'internet nous offrira tout le matériel pédagogique dont nous pouvons rêver, y
compris des notes de lecture, exercices, tests, évaluations et exercices
interactifs plus efficaces que par le passé parce que reposant davantage sur la
notion de communication."
= Une expérience
Maria Victoria Marinetti, de nationalité mexicaine, est titulaire d'un doctorat
en ingéniérie. Depuis son installation en France, elle est professeur d'espagnol
dans plusieurs entreprises du bassin annécien, en Haute-Savoie, et également
traductrice. Elle raconte en août 1999: "J'ai accès à un nombre important
d'informations au niveau mondial, ce qui est très intéressant pour moi. J'ai
également la possibilité de transmettre ou de recevoir des fichiers, dans un
va-et-vient d'information constant. L'internet me permet de recevoir ou
d'envoyer des traductions générales ou techniques du français vers l'espagnol et
vice versa, ainsi que des textes espagnols corrigés. Dans le domaine technique
ou chimique, je propose une aide technique, ainsi que des informations sur
l'exportation d'équipes de haute technologie vers le Mexique ou d'autres pays
d'Amérique latine."
Elle ajoute en août 2001: "Depuis notre premier entretien, j'utilise beaucoup
l'internet pour des échanges avec ma famille au Mexique et avec mes amis un peu
partout dans le monde. C'est un outil de communication rapide, agréable et
fantastique pour moi. Par contre, pour l'utilisation d'internet comme outil de
télétravail, très peu d'entreprises ont le matériel et l'expérience nécessaires
pour échanger des données dans le travail quotidien, notamment par la voix et
l'image (par exemple pour la formation ou les conférences par l'internet). Pour
ma part, je rencontre ce problème car je souhaite proposer une téléformation en
langue espagnole, en utilisant la voix et l'image. Mais mes entreprises clientes
ne sont pas habituées à utiliser ces moyens de communication malgré leur
caractère pratique (pas de déplacements à faire) et malgré la fiabilité accrue
de ces nouveaux moyens de communication par l'internet. En conclusion, les
sociétés de conseil informatique ont encore beaucoup à faire pour familiariser
les entreprises à l'utilisation des nouvelles technologies liées aux transferts
de données par l'internet."
= CTI Centre
Depuis ses débuts en 1989, le Computer in Teaching Initiative (CTI) Centre for
Modern Languages (Centre pour l'utilisation des ordinateurs dans l'enseignement
des langues modernes) est un centre inclus dans l'Institut des langues de
l'Université d'Hull (Royaume-Uni) et vise à promouvoir l'utilisation des
ordinateurs dans l'apprentissage et l'enseignement des langues. Connu sour le
nom de CTI Centre, il procure des informations sur la manière dont
l'apprentissage des langues assisté par ordinateur peut être effectivement
intégré à des cours existants, et il offre un soutien aux professeurs qui
utilisent - ou souhaitent utiliser - l'informatique dans l'enseignement qu'ils
dispensent.
June Thompson, responsable du CTI Centre, écrit en décembre 1998: "Avec
l'internet, on a la possibilité de favoriser l'utilisation des langues
étrangères, et notre organisation ne soutient absolument pas la suprématie de
l'anglais en tant que langue de l'internet. L'utilisation de l'internet a
apporté une nouvelle dimension à notre tâche qui consiste à soutenir les
professeurs de langue dans l'utilisation de la technologie correspondante. Je
pense que, dans un avenir proche, l'utilisation de supports linguistiques sur
l'internet va continuer à se développer en même temps que d'autres activités
liées aux technologies, par exemple l'utilisation de CD-ROM - certains
établissements n'ont pas suffisamment de matériel informatique en réseau. A
l'avenir, il me semble que l'utilisation de l'internet jouera un rôle plus
grand, mais seulement si ces activités sont à caractère pédagogique. Notre
organisme travaille étroitement avec le WELL, qui se consacre à ces problèmes."
Le WELL (Web Enhanced Language Learning - Apprentissage des langues favorisé par
le web) est un projet britannique mené à bien entre 1997 et 2000 pour donner
accès à des ressources web de qualité dans douze langues différentes.
Sélectionnées et décrites par des experts, ces ressources sont complétées par
des informations et des exemples sur la manière de les utiliser pour
l'enseignement ou l'apprentissage d'une langue.
Ce projet est l'oeuvre de l'association EUROCALL (European Association for
Computer-Assisted Language Learning - Association européenne pour
l'apprentissage des langues assisté par ordinateur), qui regroupe des
professionnels de l'enseignement des langues exerçant en Europe et dans le monde
entier. Ses objectifs sont de favoriser l'utilisation des langues étrangères en
Europe, encourager une vision européenne de l'utilisation des technologies pour
l'apprentissage des langues, et enfin promouvoir la création et la diffusion
d'un matériel de qualité. Un autre projet d'EUROCALL est CAPITAL
(Computer-Assisted Pronunciation Investigation Teaching and Learning -
Recherche, enseignement et apprentissage de la prononciation, assistés par
ordinateur), qui regroupe des chercheurs et praticiens souhaitant utiliser
l'informatique dans ce domaine.
= LINGUIST List
Gérée par l'Eastern Michigan University et la Wayne State University, deux
universités des États-Unis, la LINGUIST List classe les messages reçus par la
liste de diffusion dans diverses rubriques: profession (conférences,
associations linguistiques, programmes, etc.), recherche et soutien à la
recherche (articles, résumés de mémoires, projets, bibliographies, dossiers,
textes), publications, pédagogie, ressources linguistiques (langues, familles
linguistiques, dictionnaires, informations régionales) et soutien informatique
(polices de caractères et logiciels). La LINGUIST List propose aussi un centre
de documentation virtuel (Virtual Library).
Helen Dry, modératrice de la LINGUIST List, explique en août 1998: "La LINGUIST
List, que je modère, a pour politique d'accepter les informations dans toutes
les langues, puisque c'est une liste pour linguistes. Nous ne souhaitons
cependant pas que le message soit publié dans plusieurs langues, tout simplement
à cause de la charge de travail que cela représenterait pour notre personnel de
rédaction (nous ne sommes pas une liste fourre-tout, mais une liste modérée:
avant d'être publié, chaque message est classé par nos étudiants-rédacteurs dans
une section comprenant des messages du même type). Notre expérience nous montre
que pratiquement tout le monde choisit de publier en anglais. Mais nous relions
ces informations à un système de traduction qui présente nos pages dans cinq
langues différentes. Ainsi un abonné ne lit LINGUIST en anglais que s'il le
souhaite. Nous essayons aussi d'avoir au moins un étudiant-éditeur qui soit
réellement multilingue, afin que les lecteurs puissent correspondre avec nous
dans d'autres langues que l'anglais."
= Language Today
Lancé en 1998, Language Today (La langue aujourd'hui) est un magazine destiné
aux traducteurs, interprètes, terminologues, lexicographes et rédacteurs
techniques. Ce magazine est une réalisation commune de Logos, qui procure le
site web, et Praetorius, société de conseil britannique dans le domaine des
langues appliquées. Le site du magazine procure aussi des liens vers des
associations de traducteurs, des écoles de langues et des dictionnaires.
Geoffrey Kingscott, directeur général de Praetorius, écrit en septembre 1998:
"Nous publions la version imprimée de Language Today uniquement en anglais,
dénominateur commun de nos lecteurs. Quand nous utilisons un article qui était
originellement dans une autre langue que l'anglais, ou que nous relatons un
entretien mené dans une autre langue que l'anglais, nous le traduisons en
anglais et nous ne publions que la version anglaise, pour la raison suivante: le
nombre de pages que nous pouvons imprimer est limité, et déterminé en fonction
de notre clientèle (annonceurs et abonnés). Par contre, dans notre version web,
nous proposons aussi la version originale."
En ce qui concerne l'avenir, "nous continuerons d'avoir un site web pour notre
société, et de publier une version de notre revue sur le web, mais ceci ne sera
qu'un secteur de notre travail. Nous utilisons l'internet comme une source
d'information que nous distillons ensuite à nos lecteurs, qui autrement seraient
confrontés au problème majeur du web: faire face à un flux incontrôlé
d'informations."
LES LANGUES MINORITAIRES
= [Citation]
Caoimhín Ó Donnaíle est professeur d’informatique à l’Institut Sabhal Mór
Ostaig, sur l’île de Skye, en Écosse. Il dispense ses cours en gaélique écossais
et maintient un site qui est la principale source d'information mondiale dans
cette langue. Il écrit en mai 2001: "En ce qui concerne l’avenir des langues
menacées, l’internet accélère les choses dans les deux sens. Si les gens ne se
soucient pas de préserver les langues, l’internet et la mondialisation qui
l’accompagne accéléreront considérablement la disparition de ces langues. Si les
gens se soucient vraiment de les préserver, l’internet constituera une aide
irremplaçable."
= L'Ethnologue
Contrairement aux clichés véhiculés dans les médias, l’internet ne favorise pas
forcément l'hégémonie de l'anglais et n'entraîne pas la disparition des langues
minoritaires. L'internet peut au contraire contribuer à protéger ces langues,
s'il existe une volonté politique et culturelle dans ce sens. Un outil
fondamental - avec une version web gratuite - est "The Ethnologue: Languages of
the World" (L'Ethnologue: les langues du monde), qui est d'abord un catalogue de
langues minoritaires avant de prendre de l'ampleur et de recenser toutes les
langues de notre planète.
Publié par SIL International (SIL: Summer Institute of Linguistics), un
organisme basé à Dallas (Texas), cet ouvrage de référence est disponible aussi
sur CD-ROM (payant) et en version imprimée (payante). Il répertorie 6.800
langues selon plusieurs critères (nom de la langue, famille linguistique, pays
dans lesquels la langue est parlée, code officiel de trois lettres, etc.), avec
moteur de recherche unique.
Barbara Grimes, sa directrice de publication entre 1971 et 2000 (8e-14e
éditions), relate en janvier 2000: "Il s’agit d’un catalogue des langues dans le
monde, avec des informations sur les endroits où elles sont parlées, une
estimation du nombre de personnes qui les parlent, la famille linguistique à
laquelle elles appartiennent, les autres termes utilisés pour ces langues, les
noms de dialectes, d’autres informations socio-linguistiques et démographiques,
les dates des Bibles publiées, un index des noms de langues, un index des
familles linguistiques et des cartes géographiques relatives aux langues."
Les deux principaux outils de recherche sont l'Ethnologue Name Index (Index des
noms de l'Ethnologue), qui donne la liste des noms de langues et dialectes et de
leurs synonymes, et l'Ethnologue Language Family Index (Index des familles
linguistiques de l'Ethnologue), qui organise les langues selon leurs familles
linguistiques.
Dans un entretien par courriel plus ancien, en août 1998, Barbara Grimes
explique que, si la version web est utile, la version imprimée l'est encore
plus, en langue anglaise pour toucher un large public. "Nous avons eu des
demandes nous demandant l'accès à l'Ethnologue dans plusieurs autres langues,
mais nous n'avons pas le personnel ni les fonds pour la traduction ou la
réactualisation, indispensable puisque notre site est constamment mis à jour.
L'internet nous est utile, c'est un outil pratique qui apporte un complément à
notre travail. Nous l'utilisons principalement pour le courrier électronique.
C'est aussi un moyen commode pour mettre notre documentation à la disposition
d'une audience plus large que celle de l'Ethnologue imprimé. D'un autre côté,
l'Ethnologue sur l'internet n'atteint en fait qu'une audience limitée disposant
d'ordinateurs. Or, dans les personnes que nous souhaitons atteindre, nombreuses
sont celles qui ne disposent pas d'ordinateurs. Je pense particulièrement aux
habitants du dit 'Tiers-monde'."
= European Minority Languages
Autre expérience, celle de Caoimhín Ó Donnaíle, professeur d’informatique à
l’Institut Sabhal Mór Ostaig, situé sur l’île de Skye, en Écosse. Caoimhín
dispense ses cours en gaélique écossais. Il est aussi le webmestre du site de
l’institut, qui est bilingue anglais-gaélique et se trouve être la principale
source d’information mondiale sur le gaélique écossais. Sur ce site, il tient à
jour la page European Minority Languages (Langues minoritaires en Europe), une
liste elle aussi bilingue, avec classement par ordre alphabétique de langues et
par famille linguistique.
Interviewé en août 1998, Caoimhín raconte: "L'internet a contribué et
contribuera au développement fulgurant de l'anglais comme langue mondiale.
L'internet peut aussi grandement aider les langues minoritaires. Ceci ne se fera
pas tout seul, mais seulement si les gens choisissent de défendre une langue. Le
web est très utile pour dispenser des cours de langues, et la demande est
grande."
Près de trois ans plus tard, en mai 2001, il ajoute: "Nos étudiants utilisent un
correcteur d’orthographe en gaélique et une base terminologique en ligne en
gaélique. (...) Il est maintenant possible d’écouter la radio en gaélique
(écossais et irlandais) en continu sur l’internet partout dans le monde. Une
réalisation particulièrement importante a été la traduction en gaélique du
navigateur Opera. C’est la première fois qu’un logiciel de cette taille est
disponible en gaélique."
= Windows on Haiti
Guy Antoine, créateur de Windows on Haiti, site de référence sur la langue
haïtienne, relate en novembre 1999: "J’ai fait de la promotion du kreyòl (créole
haïtien) une cause personnelle, puisque cette langue est le principal lien
unissant tous les Haïtiens, malgré l’attitude dédaigneuse d’une petite élite
haïtienne - à l’influence disproportionnée - vis-à-vis de l’adoption de normes
pour l’écriture du kreyòl et le soutien de la publication de livres et
d’informations officielles dans cette langue. A titre d’exemple, il y avait
récemment dans la capitale d’Haïti un Salon du livre de deux semaines, à qui on
avait donné le nom de 'Livres en folie'. Sur les 500 ouvrages d’auteurs haïtiens
présentés lors du salon, il y en avait une vingtaine en kreyòl, ceci dans le
cadre de la campagne insistante que mène la France pour célébrer la francophonie
dans ses anciennes colonies. A Haïti cela se passe relativement bien, mais au
détriment direct de la créolophonie.
En réponse à l’attitude de cette minorité haïtienne, j’ai créé sur mon site
Windows on Haiti deux forums de discussion exclusivement en kreyòl. Le premier
forum regroupe des discussions générales sur toutes sortes de sujets, mais en
fait ces discussions concernent principalement les problèmes socio-politiques
qui agitent Haïti. Le deuxième forum est uniquement réservé aux débats sur les
normes d’écriture du kreyòl. Ces débats sont assez animés, et un certain nombre
d’experts linguistiques y participent. Le caractère exceptionnel de ces forums
est qu’ils ne sont pas académiques. Je n’ai trouvé nulle part ailleurs sur
l’internet un échange aussi spontané et aussi libre entre des experts et le
grand public pour débattre dans une langue donnée des attributs et des normes de
la même langue."
En juin 2001, Guy Antoine rejoint l’équipe dirigeante de Mason Integrated
Technologies, une société dont l’objectif est de créer des outils permettant
l’accessibilité des documents publiés dans des langues dites minoritaires.
"Etant donné l’expérience de l’équipe en la matière, nous travaillons d’abord
sur le créole haïtien (kreyòl), qui est la seule langue nationale d’Haïti, et
l’une des deux langues officielles (l’autre étant le français). Cette langue ne
peut guère être considérée comme une langue minoritaire dans les Caraïbes
puisqu’elle est parlée par huit à dix millions de personnes."
ENCYCLOPEDIES MULTILINGUES
= [Citation]
Robert Beard, professeur de langues et co-fondateur du portail
yourDictionary.com, écrit en septembre 1998: "Le web sera une encyclopédie du
monde faite par le monde pour le monde. Il n'y aura plus d'informations ni de
connaissances utiles qui ne soient pas disponibles, si bien que l'obstacle
principal à la compréhension internationale et interpersonnelle et au
développement personnel et institutionnel sera levé. Il faudrait une imagination
plus débordante que la mienne pour prédire l'effet de ce développement sur
l'humanité."
= Précurseurs
Les premières grandes encyclopédies en ligne apparaissent en décembre 1999 avec
WebEncyclo et l’Encyclopaedia Universalis en langue française et Britannica.com
en langue anglaise.
WebEncyclo, publié par les éditions Atlas, est la première grande encyclopédie
francophone en accès libre. La recherche est possible par mots-clés, thèmes,
médias (à savoir les cartes, liens internet, photos ou illustrations) et idées.
Un appel à contribution incite les spécialistes d’un sujet donné à envoyer des
articles, qui sont regroupés dans la section WebEncyclo contributif. Après avoir
été libre, l’accès est ensuite soumis à une inscription préalable gratuite.
La version web de l’Encyclopaedia Universalis est mise en ligne à la même date,
soit un ensemble de 28.000 articles signés par 4.000 auteurs. Si la consultation
est payante sur la base d’un abonnement annuel, de nombreux articles sont en
accès libre.
Le site Britannica.com est la première grande encyclopédie anglophone en accès
libre. Le site propose l’équivalent numérique des 32 volumes de la 15e édition
de l’Encyclopaedia Britannica, parallèlement à la version imprimée et à la
version CD-ROM, toutes deux payantes. Le site web offre une sélection d’articles
issus de 70 magazines, un guide des meilleurs sites, un choix de livres, etc.,
le tout étant accessible à partir d’un moteur de recherche unique. En septembre
2000, le site fait partie des cent sites les plus visités au monde. En juillet
2001, la consultation devient payante sur la base d’un abonnement annuel ou
mensuel. Fin 2008, Britannica.com annnonce l'ouverture prochaine de son site à
des contributeurs extérieurs, avec inscription obligatoire pour écrire et
modifier des articles.
= Wikipédia
Issu du terme hawaïen "wiki" (qui signifie: vite, rapide), un wiki est un site
web permettant à plusieurs utilisateurs de collaborer en ligne sur un même
projet. A tout moment, ces utilisateurs peuvent contribuer à la rédaction du
contenu, modifier ce contenu et l'enrichir en permanence. Le wiki est utilisé
par exemple pour créer et gérer des dictionnaires, des encyclopédies ou encore
des sites d'information sur un sujet donné. Le programme présent derrière
l'interface d'un wiki est plus ou moins élaboré. Un programme simple gère du
texte et des hyperliens. Un programme élaboré permet d'inclure des images, des
graphiques, des tableaux, etc. L’encyclopédie wiki la plus connue est Wikipédia.
Créée en janvier 2001 à l’initiative de Jimmy Wales et de Larry Sanger,
Wikipédia est une encyclopédie gratuite écrite collectivement et dont le contenu
est librement réutilisable. Elle est immédiatement très populaire. Sans
publicité et financée par des dons, cette encyclopédie coopérative est rédigée
par des milliers de volontaires - appelés Wikipédiens, et qui s'inscrivent sous
un pseudonyme - avec possibilité de corriger et compléter les articles, aussi
bien les leurs que ceux d'autres contributeurs. Les articles restent la
propriété de leurs auteurs, et leur libre utilisation est régie par la licence
GFDL (GNU free documentation license).
En décembre 2004, Wikipédia compte 1,3 million d'articles rédigés dans 100
langues par 13.000 contributeurs. En décembre 2006, elle compte 6 millions
d'articles dans 250 langues, et elle est un de dix sites les plus visités du
web. En mai 2007, la version francophone fête ses 500.000 articles. A la même
date, Wikipédia compte 7 millions d'articles dans 192 langues, dont 1,8 million
en anglais, 589.000 en allemand, 260.000 en portugais et 236.000 en espagnol. En
2009, Wikipédia fait partie des cinq sites les plus visités du web.
Fondée en juin 2003, la Wikimedia Foundation gère non seulement Wikipédia mais
aussi Wiktionary, un dictionnaire et thésaurus multilingue lancé en décembre
2002, puis Wikibooks (livres et manuels en cours de rédaction) lancé en juin
2003, auxquels s'ajoutent ensuite Wikiquote (répertoire de citations),
Wikisource (textes appartenant au domaine public), Wikimedia Commons (sources
multimédia), Wikispecies (répertoire d'espèces animales et végétales), Wikinews
(site d'actualités) et enfin Wikiversity (matériel d'enseignement), lancé en
août 2006.
LOCALISATION ET INTERNATIONALISATION
= [Citation]
Peter Raggett, sous-directeur (puis directeur) du Centre de documentation et
d'information (CDI) de l'OCDE (Organisation de coopération et de développement
économiques), écrit en août 1999: "Je pense qu'il appartient aux organisations
et sociétés européennes d'offrir des sites web si possible en trois ou quatre
langues. À l'heure de la mondialisation et du commerce électronique, les
sociétés ont un marché potentiel sur plusieurs pays à la fois. Permettre aux
usagers francophones, germanophones ou japonais de consulter un site web aussi
facilement que les usagers anglophones donnera une plus grande compétitivité à
une firme donnée."
= [Texte]
"Vers la communication sur internet dans toutes les langues..." Tel est le
sous-titre de la page d'accueil de Babel, un projet conjoint d'Alis Technologies
et de l'Internet Society, lancé dans l'optique d'une internationalisation de
l'internet. En 1997, le site multilingue de Babel (allemand, anglais, espagnol,
français, italien, portugais et suédois) propose deux grands secteurs: (a) un
secteur langues, avec trois sections: langues du monde, glossaire typographique
et linguistique, francophonie, (b) un secteur internet et multilinguisme, avec
deux sections: développer votre site web multilingue, et codage des écritures du
monde. Babel propose aussi la page "Palmarès des langues de la toile", qui est
la première à donner la répartition réelle des langues sur le réseau.
Bill Dunlap est le fondateur de Euro-Marketing Associates, une société de
conseil en marketing qu'il lance en 1985 à Paris et San Francisco. En 1995, il
restructure cette société en service de conseil en ligne dénommé Global Reach,
qui regroupe des consultants internationaux de premier plan, le but étant de
promouvoir les sites web des entreprises dans d'autres pays, afin d'attirer plus
de visiteurs, et donc d'augmenter les ventes. Cette méthode comprend la
traduction du site web dans plusieurs langues, la promotion active du site, et
enfin l'accroissement de la fréquentation locale au moyen de bandeaux
publicitaires ciblés.
Bill Dunlap explique en décembre 1998: "Il y a très peu de gens aux États-Unis
qui sont intéressés de communiquer dans plusieurs langues. Pour la plupart, ils
pensent encore que le monde entier parle anglais. Par contre, ici en Europe
(j'écris de France), les pays sont petits, si bien que, depuis des siècles, une
perspective internationale est nécessaire. Depuis 1981, début de mon activité
professionnelle, j'ai été impliqué dans la venue de sociétés américaines en
Europe. Ceci est pour beaucoup un problème de langue, puisque leurs informations
commerciales doivent être disponibles dans les langues européennes pour être
prises en compte ici, en Europe. Comme le web est devenu populaire en 1995, j'ai
donné à ces activités une dimension 'en ligne', et j'en suis venu à promouvoir
le cybercommerce européen auprès de mes compatriotes américains. Récemment, lors
de la conférence Internet World à New York, j'ai parlé du cybercommerce européen
et de la manière d'utiliser un site web pour toucher les différents marchés
d'Europe. (...)
Promouvoir un site est aussi important que de le créer, sinon plus. On doit être
préparé à utiliser au moins autant de temps et d'argent à promouvoir son site
qu'on en a passé à l'origine à le créer. Le programme Global Reach permet de
promouvoir un site dans des pays non anglophones, afin d'atteindre une clientèle
plus large... et davantage de ventes. Une société a de nombreuses bonnes raisons
de considérer sérieusement le marché international. Global Reach est pour elle
le moyen d'étendre son site web à de nombreux pays, de le présenter à des
visiteurs en ligne dans leur propre langue, et de pénétrer le réseau de commerce
en ligne présent dans ces pays."
Il ajoute en juillet 1999: "Une fois que la page d'accueil d'un site est
disponible en plusieurs langues, l'étape suivante est le développement du
contenu dans chaque langue. Un webmestre notera quelles langues attirent plus de
visiteurs (et donc plus de ventes) que d'autres. Ce seront donc dans ces langues
que débutera une campagne de promotion multilingue sur le web. Parallèlement, il
est toujours bon de continuer à augmenter le nombre de langues dans lesquelles
un site web est disponible. Au début, seule la page d'accueil traduite en
plusieurs langues suffit, mais ensuite il est souhaitable de développer un
véritable secteur pour chaque langue."
Le World Wide Web Consortium (W3C) est un consortium industriel international
fondé en 1994 pour développer les protocoles communs du web. Le site du W3C
propose notamment une section Internationalization/Localization, qui donne une
définition des protocoles utilisés: HTML (hypertext markup language), jeux (de
base) de caractères, nouveaux attributs, HTTP (hypertext transfer protocol),
négociation de la langue, URL (uniform resource locator) et autres
identificateurs incluant des caractères non ASCII (American standard code for
information interchange). Le site propose aussi des conseils pour créer un site
multilingue.
L'association LISA (Localisation Industry Standards Association - Association de
normalisation de l'industrie de la localisation) regroupe 130 membres (fin 1998)
qui comprennent des éditeurs de logiciels, des fabricants de matériel, des
vendeurs de services de localisation, et un nombre croissant de sociétés
appartenant aux secteurs voisins des technologies de l'information. La mission
de LISA est de promouvoir l'industrie de la localisation et de
l'internationalisation, et de procurer des services permettant aux sociétés
d'échanger et de partager les informations dans ce domaine: développement du
processus, outils, technologies et modèles. Le site de LISA est hébergé par
l'Université de Genève (Suisse).
TRADUCTION ASSISTEE PAR ORDINATEUR
= [Citation]
L'internet étant une source d'information à vocation mondiale, il semble
indispensable d'augmenter fortement les activités de traduction. Auteur des
Chroniques de Cybérie, une chronique hebdomadaire en ligne des actualités du
réseau, Jean-Pierre Cloutier déplore en août 1999 "qu’il se fasse très peu de
traductions des textes et essais importants qui sont publiés sur le web, tant de
l’anglais vers d’autres langues que l’inverse. (...) La nouveauté d’internet
dans les régions où il se déploie présentement y suscite des réflexions qu’il
nous serait utile de lire. À quand la traduction des penseurs hispanophones et
autres de la communication?"
= [Texte]
Créé à Amsterdam (Pays-Bas) par la firme Vorontsoff, Wesseling & Partners,
Aquarius est le premier répertoire non commercial de traducteurs et interprètes.
Il comprend 6.100 traducteurs, 800 sociétés de traduction, 91 domaines
d'expertise et 369 combinaisons de langues en novembre 1998. Le site permet de
localiser particuliers et sociétés et de les contacter directement, sans
intermédiaire. La recherche est possible par lieu, par combinaison de langues et
par spécialité.
De plus, depuis décembre 1997, des logiciels de traduction automatique sont en
accès libre sur le web - par exemple ceux de SYSTRAN, Softissimo ou Google - et
permettent de traduire en quelques secondes une page web ou un texte court, avec
plusieurs combinaisons de langues possibles. Il va sans dire que la traduction
automatique n’offre pas la qualité de travail des professionnels de la
traduction, et qu’il est préférable de faire appel à ces derniers lorsqu'on a le
temps et l’argent nécessaires. Ces logiciels sont toutefois très pratiques pour
obtenir une traduction approximative en quelques secondes.
De plus en plus utilisée, la traduction assistée par ordinateur permet de
coupler traduction automatique et travail du traducteur professionnel. Elle est
une branche de l'ingénierie du langage, tout comme le traitement de la langue
naturelle et la traduction automatique (traités dans le chapitre suivant).
Le site HLTCentral (HLT: Human Languages Technologies - Technologies des langues
humaines), lancé en janvier 1999 par la Commission européenne, propose une
courte définition de l'ingénierie du langage: "L'ingénierie du langage permet de
vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre
connaissance du langage pour développer des systèmes capables de reconnaître à
la fois la parole et l'écrit, de comprendre un texte suffisamment en profondeur
pour être capable de sélectionner des informations, de le traduire dans
différentes langues et de générer aussi bien un discours oral qu'un texte
imprimé. L'application de ces technologies nous permet de repousser les limites
actuelles de notre utilisation du langage. Les systèmes à commande vocale sont
appelés à jouer un rôle prépondérant et à faire partie intégrante de notre vie
quotidienne."
Contrairement à la traduction automatique (TA) qui analyse le texte dans la
langue-source et génère automatiquement le texte correspondant dans la
langue-cible, sans intervention humaine pendant ce processus, la traduction
assistée par ordinateur (TAO) est basée sur l'interaction entre l'homme et la
machine pendant le processus de traduction.
La TAO est par exemple adoptée dès le milieu des années 1990 par le Bureau des
services linguistiques de l'Organisation mondiale de la santé (OMS) à Genève
(Suisse). Ce bureau travaille dans les six langues officielles de
l'organisation: anglais, arabe, chinois, espagnol, français et russe. Des
expériences de traduction automatique sont également tentées, à plusieurs
reprises, mais les traductions obtenues demandent un travail de révision trop
important, si bien que, au stade actuel de son développement et compte-tenu du
type de documents à traduire, cette technologie n'est pas jugée suffisamment
rentable.
Au sein de l'OMS, l'Unité de traduction assistée par ordinateur et de
terminologie (CTT) explore les possibilités techniques offertes par les systèmes
les plus récents de TAO, qui reposent sur la notion de "mémoire de traduction".
Comme expliqué sur le site web, "ces systèmes permettent au traducteur d'avoir
immédiatement accès au patrimoine du 'déjà traduit' dans lequel il peut puiser,
quitte à rejeter ou modifier les solutions retenues par ses prédécesseurs, son
choix définitif venant ensuite enrichir la mémoire. Ainsi, en archivant la
production quotidienne, le traducteur aurait vite à sa disposition une 'mémoire'
colossale de solutions toutes faites à un nombre important de problèmes de
traduction."
En complément, le CTT utilise aussi plusieurs applications pour l'archivage
électronique et la recherche en texte intégral, l'alignement de textes bilingues
et multilingues, la gestion de mémoires de traduction et de bases de données
terminologiques, et la reconnaissance vocale.
Basé à Washington, D.C. au sein de l'Organisation panaméricaine de la santé
(OPS), le Bureau régional de l'OMS pour les Amériques utilise un système de
traduction automatique développé par les linguistes computationnels, traducteurs
et programmeurs de l'OPS. Le service de traduction utilise SPANAM (de l'espagnol
vers l'anglais) depuis 1980 et ENGSPAN (de l'anglais vers l'espagnol) depuis
1985, ce qui lui a permis de traiter plus de 25 millions de mots entre 1980 et
1998 dans les deux langues officielles de l'OPS. Le personnel et les traducteurs
extérieurs post-éditent ensuite l'information brute avec un gain de productivité
de 30 à 50%. Le système est installé sur le réseau local du siège de
l'organisation et dans plusieurs bureaux régionaux pour pouvoir être utilisé par
le personnel des services techniques et administratifs. Il est également diffusé
auprès d'organismes publics et d'organismes à but non lucratif aux États-Unis,
en Amérique latine et en Espagne. Le système est plus tard renommé PAHOMTS, avec
l'introduction de nouvelles paires de langues pour le portugais.
Autre expérience, celle de Wordfast. En juin 2001, les sociétés Logos et Y.A.
Champollion s’associent pour créer Champollion Wordfast, une société de services
d’ingénierie en traduction et localisation et en gestion de contenu multilingue.
Wordfast est un logiciel de traduction avec terminologie disponible en temps
réel et contrôle typographique. Il est compatible avec d'autres logiciels très
utilisés comme le WebSphere Translation Server d’IBM et les logiciels de TMX ou
de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement,
avec un manuel d’utilisation disponible en seize langues. Wordfast devient au
fil des ans le pemier logiciel mondial utilisable sous toute plateforme, et le
deuxième logiciel mondial en nombre de ventes (après SDL Trados), avec 20.000
clients dans le monde, dont les Nations Unies, Nomura Securities, la NASA
(National Aeronautics and Space Administration) et McGraw-Hill.
TRADUCTION AUTOMATIQUE
= [Citation]
Tim McKenna, écrivain, s'interroge sur la notion complexe de "vérité" dans un
monde en mutation constante. Il écrit en octobre 2000: "Quand la qualité des
logiciels sera suffisante pour que les gens puissent converser sur le web par
écrit ou par oral en temps réel dans différentes langues, nous verrons tout un
monde s'ouvrir à nous. Les scientifiques, les hommes politiques, les hommes
d'affaires et bien d'autres groupes seront à même de communiquer immédiatement
entre eux sans l'intermédiaire de médiateurs ou traducteurs."
= Définition
Un logiciel de traduction automatique (TA) analyse le texte dans la langue à
traduire (langue source) et génère automatiquement le texte dans la langue
désirée (langue cible), en utilisant des règles précises pour le transfert de la
structure grammaticale. L'être humain n'intervient pas au cours du processus,
contrairement à la traduction assistée par ordinateur, qui implique une
interaction entre l'homme et la machine.
Si la traduction automatique reste très approximative, les logiciels de
traduction sont très pratiques pour fournir un résultat immédiat et à moindres
frais, sinon gratuit. Ils n'ont cessé de s'améliorer au fil des ans, sans
toutefois avoir la prétention d'égaler le travail du cerveau humain. De plus,
depuis décembre 1997, des logiciels en accès libre sur le web permettent de
traduire en quelques secondes une page web ou un texte court, avec plusieurs
combinaisons de langues possibles.
SYSTRAN, société franco-américaine pionnière dans le traitement automatique des
langues, explique sur son site web: "Un logiciel de traduction automatique
traduit une langue naturelle dans une autre langue naturelle. La traduction
automatique prend en compte la structure grammaticale de chaque langue et elle
utilise des règles pour transférer la structure grammaticale de la langue-source
(texte à traduire) vers la langue-cible (texte traduit). La traduction
automatique ne remplace pas et n'est pas destinée à remplacer le traducteur
humain."
L'EAMT (European Association for Machine Translation - Association européenne
pour la traduction automatique) donne la définition suivante: "La traduction
automatique (TA) est l'utilisation de l'ordinateur pour la traduction de textes
d'une langue naturelle à une autre. Elle fut un des premiers domaines de
recherche en informatique. Il s'est avéré que cet objectif était difficile à
atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes
produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante
pour être utile dans certaines applications spécifiques, en général dans le
domaine de la documentation technique. De plus, les logiciels de traduction, qui
sont essentiellement destinés à aider le traducteur humain à produire des
traductions, jouissent d'une popularité croissante auprès d'organisations de
traduction professionnelles."
L'intéressant historique donné sur le site de Globalink, une société spécialisée
dans les logiciels et services de traduction (disparue depuis), est résumé dans
les deux paragraphes suivants.
Dès leurs débuts, la traduction automatique et le traitement de la langue
naturelle progressent de pair avec l'évolution de l'informatique quantitative.
Le développement des premiers ordinateurs programmables pendant la Seconde
guerre mondiale est accéléré par les premiers efforts cryptographiques pour
tenter de fissurer les codes secrets allemands et autres codes de guerre. Suite
à la guerre, la traduction et l'analyse du texte en langue naturelle procurent
une base de travail au secteur émergent de la théorie de l'information. Pendant
les années 1950, la recherche sur la traduction automatique prend forme au sens
de traduction littérale (mot à mot) sans utiliser de règles linguistiques. Le
projet russe débuté à l'Université de Georgetown au début des années 1950
représente la première tentative systématique pour créer un système de
traduction automatique utilisable. Jusqu'au milieu des années 1960, un certain
nombre de recherches universitaires et recherches financées par les
gouvernements sont menées aux États-Unis et en Europe. Au même moment, les
progrès rapides dans le domaine de la linguistique théorique culminent en 1965
avec la publication du livre "Aspects de la théorie syntaxique" de Noam Chomsky,
et transforment radicalement la structure permettant de comprendre la
phonologie, la morphologie, la syntaxe et la sémantique du langage humain.
En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committee -
Comité consultatif sur le traitement automatique du langage) du gouvernement des
États-Unis fait une estimation prématurément négative de la valeur des systèmes
de traduction automatique et des perspectives sur leurs applications pratiques,
mettant ainsi fin au financement et à l'expérimentation dans ce domaine pour la
décennie suivante. Il faut attendre la fin des années 1970 pour que des
expériences sérieuses soient à nouveau entreprises, parallèlement aux progrès de
l’informatique et des technologies des langues. Cette période voit le
développement de systèmes de transfert d’une langue à l’autre et le lancement
des premières tentatives commerciales. Des sociétés comme SYSTRAN et METAL sont
persuadées de la viabilité et de l’utilité d’un tel marché. Elles mettent sur
pied des produits et services de traduction automatique reliés à un serveur
central. Mais les problèmes restent nombreux, par exemple des coûts élevés de
développement, un énorme travail lexicographique, la difficulté de proposer de
nouvelles combinaisons de langues, l’inaccessibilité de tels systèmes pour
l’utilisateur moyen, et enfin la difficulté de passer à de nouveaux stades de
développement.
= Commentaires
# Article de ZDNN
Dans "Web embraces language translation" (Le web adopte la traduction des
langues), un article de ZDNN (ZDNetwork News) paru le 21 juillet 1998, Martha
Stone explique: "Parmi les nouveaux produits d'un secteur de traduction
représentant 10 milliards de dollars US, on trouve les traducteurs instantanés
de sites web, groupes de discussion, courriels et intranets d'entreprise. Les
principales sociétés de traduction se mobilisent pour saisir les opportunités du
marché. Voici quelques exemples. SYSTRAN s'est associé avec AltaVista pour
produire babelfish.altavista.digital.com, avec 500 à 600 mille visiteurs
quotidiens et environ un million de traductions par jour, traductions qui vont
des recettes de cuisine à des pages web complètes. 15.000 sites environ ont un
lien vers babelfish, qui peut traduire [de l'anglais] vers le français,
l'italien, l'allemand, l'espagnol et le portugais, et vice versa. Le japonais
est prévu pour bientôt.
'Cette popularité est simple. Avec l'internet, on peut maintenant utiliser
l'information provenant des États-Unis. Tout ceci contribue à une demande en
hausse', déclare de chez lui à Paris Dimitros Sabatakakis, directeur général de
SYSTRAN. Alis a mis au point le système de traduction du Los Angeles Times qui
doit bientôt être lancé sur le site et qui proposera des traductions [de
l'anglais] vers l'espagnol et le français, et plus tard le japonais. D'un clic
de souris, une page web complète peut être traduite dans la langue désirée.
Globalink propose des logiciels, des systèmes de traduction de pages web, un
service de messagerie électronique gratuit et des logiciels permettant de
traduire le texte de groupes de discussion.
Cependant, alors que ces systèmes de traduction automatique deviennent
populaires dans le monde entier, les directeurs des sociétés qui les développent
admettent qu'ils ne peuvent répondre à toutes les situations. Les porte-parole
de Globalink, Alis et SYSTRAN utilisent des expressions comme 'pas parfait' et
'approximatif' quand ils décrivent la qualité des traductions, et précisent bien
que les phrases soumises à la traduction doivent être simples, grammaticalement
correctes et sans tournures idiomatiques. 'Les progrès réalisés en traduction
automatique répondent à la loi de Moore: la qualité double tous les dix-huit
mois', déclare Vin Crosbie, un analyste de l'industrie du web basé à Greenwich,
dans le Connecticut (États-Unis). 'Ce n'est pas parfait, mais certains de mes
correspondants ne se rendent même pas compte que j'utilise un logiciel de
traduction.' Ces traductions font souffrir la syntaxe et n'utilisent pas
toujours les mots à bon escient, parce que les bases de données-dictionnaires ne
peuvent déchiffrer la différence entre les homonymes. (...) Sabatakis, directeur
de SYSTRAN, explique que la traduction humaine coûterait entre 50 et 60 dollars
par page web, ou environ 20 cents par mot. Alors que cette dernière solution
peut convenir pour les pages 'statiques' d'information sur l'entreprise, la
traduction automatique, elle, est gratuite sur le web, et le logiciel coûte
souvent moins de 100 dollars, selon le nombre de langues disponibles pour la
traduction et les caractéristiques propres au logiciel."
# Équipe du laboratoire RALI
Contrairement aux prévisions optimistes des années 1950 annonçant l'apparition
imminente de la machine à traduire universelle, les systèmes de traduction
automatique ne produisent pas encore de traductions de bonne qualité. Pourquoi?
Pierre Isabelle et Patrick Andries, du laboratoire RALI (Laboratoire de
recherche appliquée en linguistique informatique) à Montréal (Québec),
expliquent ce échec dans "La traduction automatique, 50 ans après", un article
publié dans les dossiers du magazine en ligne Multimédium: "L'objectif ultime de
construire une machine capable de rivaliser avec le traducteur humain n'a cessé
de fuir par devant les lentes avancées de la recherche. Les approches
traditionnelles à base de règles ont conduit à des systèmes qui tendent à
s'effondrer sous leur propre poids bien avant de s'élever au-dessus des nuages
de l'ambiguïté sémantique. Les approches récentes à base de gros ensembles de
textes, appelés corpus - qu'elles soient fondées sur les méthodes statistiques
ou les méthodes analogiques - promettent bien de réduire la quantité de travail
manuel requise pour construire un système de TA [traduction automatique], mais
il est moins sûr qu'elles promettent des améliorations substantielles de la
qualité des traductions machine."
Reprenant les idées de Yehochua Bar-Hillel exprimées dans "The State of Machine
Translation" (L'état de la traduction automatique), article publié en 1951,
Pierre Isabelle et Patrick Andries définissent trois stratégies d'application de
la traduction automatique: (a) une aide pour "balayer" la production écrite et
fournir des traductions approximatives; (b) des situations de "sous-langues
naturelles simples", comme l'implantation réussie en 1977 du système METEO qui
traduit les prévisions météorologiques du ministère de l'Environnement canadien;
(c) pour de bonnes traductions de textes complexes, le couplage de l'humain et
de la machine avant, pendant et après le processus de traduction automatique,
couplage qui n'est pas forcément économique comparé à la traduction
traditionnelle.
Les auteurs penchent plus pour "un poste de travail pour le traducteur humain"
que pour un "traducteur robot". Ils expliquent: "Les recherches récentes sur les
méthodes probabilistes ont permis de démontrer qu'il était possible de modéliser
d'une manière extrêmement efficace certains aspects simples du rapport
traductionnel entre deux textes. Par exemple, on a mis au point des méthodes qui
permettent de calculer le bon 'appariement' entre les phrases d'un texte et de
sa traduction, c'est-à-dire d'identifier à quelle(s) phrase(s) du texte
d'origine correspond chaque phrase de la traduction. Appliquées à grande
échelle, ces techniques permettent de constituer, à partir des archives d'un
service de traduction, un mémoire de traduction qui permettra souvent de
recycler des fragments de traductions antérieures. Des systèmes de ce genre ont
déjà commencé à apparaître sur le marché (Translation Manager II de IBM,
Translator's Workbench de Trados, TransSearch du RALI, etc.). Les recherches les
plus récentes se concentrent sur des modèles capables d'établir automatiquement
les correspondances à un niveau plus fin que celui de la phrase: syntagmes et
mots. Les résultats obtenus laissent entrevoir toute une famille de nouveaux
outils pour le traducteur humain, dont les aides au dépouillement
terminologique, les aides à la dictée et à la frappe des traductions ainsi que
les détecteurs de fautes de traduction."
# Le futur vu par Randy Hobler
En septembre 1998, Randy Hobler est consultant en marketing internet auprès de
Globalink, une société de produits et services de traduction. Il explique lors
d'un entretien par courriel: "Nous arriverons rapidement au point où une
traduction très fidèle du texte et de la parole sera si commune qu'elle pourra
faire partie des plateformes ou même des puces. A ce stade, lorsque le
développement de l'internet aura atteint sa vitesse de croisière, lorsque la
fidélité de la traduction atteindra plus de 98% et lorsque les différentes
combinaisons de langues possibles auront couvert la grande majorité du marché,
la transparence de la langue - à savoir toute communication d'une langue à une
autre - sera une vision trop restrictive pour ceux qui vendent cette
technologie. Le développement suivant sera la 'transparence transculturelle et
transnationale' dans laquelle les autres aspects de la communication humaine, du
commerce et des transactions au-delà du seul langage entreront en scène. Par
exemple, les gestes ont un sens, les mouvements faciaux ont un sens, et ceci
varie en fonction des normes sociales d'un pays à l'autre. La lettre O réalisée
avec le pouce et l'index signifie "OK" aux États-Unis alors qu'en Argentine
c'est un geste obscène.
Quand se produira l'inévitable développement de la vidéoconférence multilingue
multimédia, il sera nécessaire de corriger visuellement les gestes. Le Media Lab
du MIT (Massachussets Institute of Technology), Microsoft et bien d'autres
travaillent à la reconnaissance informatique des expressions faciales,
l'identification des caractéristiques biométriques par le biais du visage, etc.
Il ne servira à rien à un homme d'affaires américain de faire une excellente
présentation à un Argentin lors d'une vidéoconférence multilingue sur le web,
avec son discours traduit dans un espagnol argentin parfait, s'il fait en même
temps le geste O avec le pouce et l'index. Les ordinateurs pourront intercepter
ces gestes et les corriger visuellement. Les cultures diffèrent de milliers de
façons, et la plupart d'entre elles peuvent être modifiées par voie informatique
lorsqu'on passe de l'une à l'autre. Ceci inclut les lois, les coutumes, les
habitudes de travail, l'éthique, le change monétaire, les différences de taille
dans les vêtements, les différences entre le système métrique et le système de
mesures anglophone, etc. Les firmes dynamiques répertorieront et programmeront
ces différences, et elles vendront des produits et services afin d'aider les
habitants de la planète à mieux communiquer entre eux. Une fois que ces produits
et services seront largement répandus, ils contribueront réellement à une
meilleure compréhension à l'échelle internationale."
= Expériences
François Vadrot, directeur de FTPress (French Touch Press), société de presse en
ligne, écrit en mai 2000: "Peut-on réellement penser que toute la population du
monde va communiquer dans tous les sens? Peut-être? Via des systèmes de
traduction instantanée, par écrit ou par oral? J'ai du mal à imaginer qu'on
verra de sitôt des outils capables de translater les subtilités des modes de
pensée propres à un pays: il faudrait pour lors traduire, non plus du langage,
mais établir des passerelles de sensibilité. A moins que la mondialisation
n'uniformise tout cela?"
Alex Andrachmes, producteur audiovisuel, écrivain et explorateur d'hypertexte,
est tout aussi dubitatif. Il écrit en décembre 2000: "J'attends les fameuses
traductions simultanées en direct-live... On nous les annonce avec les nouveaux
processeurs ultra-puissants, mais on nous les annonçait déjà pour cette
génération-ci de processeurs. Alors, le genre: vous/réservé/avion/de le/november
17-2000... Non merci. Plus tard peut-être."
En 2000, la généralisation de l’internet et du commerce électronique entraîne
toutefois le développement d’un véritable marché avec les produits et services
des sociétés SYSTRAN, Alis Technologies, Lernout & Hauspie, Globalink et
Softissimo, entre autres, à destination du grand public, des professionnels et
des industriels.
SYSTRAN (acronyme de "System Translation"), pionnier dans le traitement
automatique des langues, est l’auteur du premier logiciel de traduction gratuit
du web, lancé en décembre 1997. AltaVista Translation, appelé aussi Babel Fish,
est un service de traduction automatique de pages web de l'anglais vers les
langues suivantes : allemand, français, espagnol, italien et portugais, et vice
versa. Ce service est proposé à la demande d'AltaVista, moteur de recherche
utilisé par douze millions d'internautes, suite au problème des langues devenu
sensible sur l'internet. Le siège de SYSTRAN est situé à Soisy-sous-Montmorency
(France). Sa succursale, située à La Jolla (Californie), assure les ventes et le
marketing, ainsi qu'une partie de la R&D (recherche et développement).
Basée à Montréal (Québec), Alis Technologies développe et commercialise des
solutions et services de traitement linguistique au moyen de logiciels de
traduction qui transforment des systèmes informatiques unilingues en outils
multilingues.
Basé à Ypres (Belgique) et Burlington (Massachusetts, États-Unis), Lernout &
Hauspie (racheté ensuite par ScanSoft) propose des produits et services en
dictée, traduction, compression vocale, synthèse vocale et documentation
industrielle. Les technologies couvertes incluent la reconnaissance automatique
de la langue, la compression numérique de la parole, le passage du texte à la
parole, et la traduction. Les produits émanant des trois premières technologies
sont vendus aux grandes sociétés des industries suivantes: télécommunications,
informatique, multimédia, électronique grand public et électronique automotrice.
Les services de traduction (passage du texte au texte) sont à destination des
sociétés en technologies de l'information, des marchés verticaux et des marchés
d'automatisation. De plus, le Machine Translation Group (Groupe de traduction
automatique) formé par Lernout & Hauspie comprend des entreprises qui
développent, produisent et vendent des systèmes de traduction: L&H Language
Technology, AppTek, AILogic, NeocorTech et Globalink.
Fondé en 1990, Globalink est une société spécialisée dans les logiciels et
services de traduction. Elle offre des solutions sur mesure à partir d'une gamme
de logiciels, options en ligne et services de traduction professionnelle. La
société diffuse ses logiciels de traduction en allemand, anglais, espagnol,
français, italien et portugais, et propose des solutions aux problèmes de
traduction des particuliers, petites sociétés, multinationales et gouvernements,
que ce soit pour un produit individuel donnant une traduction préliminaire
rapide ou un système complet permettant de gérer des traductions de documents
professionnels.
Le site web donne les informations suivantes en 1998: "Avec les logiciels
d'application de Globalink, l'ordinateur utilise trois ensembles de données: le
texte à traiter, le programme de traduction et un dictionnaire de mots et
d'expressions dans la langue-source, ainsi que des informations sur les concepts
évoqués par le dictionnaire et les règles applicables à la phrase: règles de
syntaxe et de grammaire, y compris des algorithmes gouvernant la conjugaison des
verbes, l'adaptation de la syntaxe, les accords de genre et de nombre et la mise
en ordre des mots. Une fois que l'utilisateur a sélectionné le texte et lancé le
processus de traduction, le programme commence à comparer les mots du texte à
traiter avec ceux qui sont stockés dans le dictionnaire. Une fois l'adéquation
trouvée, l'application prépare une notice complète qui inclut des informations
sur les significations possibles du mot et, d'après le contexte, ses relations
avec les autres mots dans la même phrase. Le temps requis pour la traduction
dépend de la longueur du texte. Un document de trois pages et 750 mots demande
un traitement de trois minutes environ pour une première traduction."
Softissimo commercialise la série de logiciels de traduction Reverso, à côté de
produits d’écriture multilingue, de dictionnaires électroniques et de méthodes
de langues. Reverso est utilisé par exemple par Voilà, le moteur de recherche de
France Télécom. Softissimo diffuse aussi des logiciels d'apprentissage des
langues, ainsi que des dictionnaires, notamment l'"Eurodico", le "Grand Collins
bilingue" et le "Collins English Dictionary".
En mars 2001, IBM se lance dans un marché en pleine expansion avec un produit
professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel
traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen,
espagnol, français, italien, japonais) les pages web, courriels et chats
(dialogues en direct). Il interprète 500 mots à la seconde et permet l’ajout de
vocabulaires spécifiques.
= R&D en traduction automatique
Voici une présentation rapide des travaux de quatre organismes, parmi tant
d'autres, au Québec (Laboratoire RALI), en Californie (Natural Language Group),
en Suisse (ISCCO) et au Japon (UNDL Foundation).
# Laboratoire RALI
Basé à Montréal (Québec), le laboratoire RALI (Laboratoire de recherche
appliquée en linguistique informatique) a les domaines de compétence suivants:
outils d'aide à la traduction, appariement automatique de textes, génération
automatique de texte, réaccentuation automatique, recherche d'information aidée
par des outils linguistiques, extraction d'information, identification de la
langue et du codage, transducteurs à états finis, et corpus de texte enrichis.
Dans le cadre du Projet TransX, le laboratoire RALI élabore une nouvelle
génération d'outils d'aide aux traducteurs (TransType, TransTalk, TransCheck et
TransSearch). Ces outils sont tous fondés sur des modèles de traduction
probabilistes qui calculent automatiquement les correspondances entre le texte
produit par le traducteur et le texte en langue de départ.
Comme expliqué sur le site web en 1998, "(a) TransType accélère la saisie de la
traduction en anticipant les choix du traducteur et, au besoin, en les
critiquant. L'outil propose ses choix en tenant compte à la fois du texte en
langue de départ et de la traduction partielle déjà produite par le traducteur.
(b) TransTalk effectue la transcription automatique d'une traduction dictée. Cet
outil se sert d'un modèle de traduction probabiliste pour améliorer la
performance du module de reconnaissance vocale. (c) TransCheck détecte
automatiquement certaines erreurs de traduction en vérifiant que les
correspondances entre les segments d'une ébauche de traduction et les segments
du texte en langue de départ respectent les propriétés souhaitées d'une bonne
traduction. (d) TransSearch permet au traducteur d'effectuer des recherches dans
des bases de données de traductions pré-existantes pour y retrouver des
solutions toutes faites à ses problèmes de traduction. Les bases de données
requises nécessitent un appariement entre la traduction et le texte en langue de
départ."
# Natural Language Group de l'USC/ISI
Rattaché à l'USC/ISI (University of Southern California/Information Sciences
Institute - Université de Californie du Sud/Institut des sciences de
l'information), le Natural Language Group (Groupe de la langue naturelle) traite
de plusieurs aspects du traitement de la langue naturelle: traduction
automatique, résumé automatique de texte, gestion multilingue des verbes,
développement de taxinomies de concepts (ontologies), discours et génération de
texte, élaboration de gros lexiques multilingues et communication multimédia.
Eduard Hovy, directeur du Natural Language Group, explique en août 1998: "Les
gens écrivent dans leur propre langue pour diverses raisons: commodité,
discrétion, communication locale, mais ceci ne signifie pas que d'autres
personnes ne soient pas intéressées de lire ce qu'ils ont à dire! Ceci est
particulièrement vrai pour les sociétés impliquées dans la veille technologique
(disons, une société informatique qui souhaite connaître tous les articles de
journaux et périodiques japonais relatifs à son activité) et des services de
renseignements gouvernementaux (ceux qui procurent l'information la plus récente
qui sera ensuite utilisée par les fonctionnaires pour décider de la politique,
etc.). Un des principaux problèmes auxquels ces services doivent faire face est
la très grande quantité d'informations. Ils recrutent donc du personnel bilingue
'passif' qui peut scanner rapidement les textes afin de supprimer ce qui est
sans intérêt avant de donner les documents significatifs à des traducteurs
professionnels. Manifestement, une combinaison de résumé automatique de texte et
de traduction automatique sera très utile dans ce cas; comme la traduction
automatique est longue, on peut d'abord résumer le texte dans la langue
étrangère, puis faire une traduction automatique rapide à partir du résultat
obtenu, laissant à un être humain ou un classificateur de texte (type recherche
documentaire) le soin de décider si on doit garder l'article ou le rejeter.
Pour ces raisons, durant ces cinq dernières années, le gouvernement des
États-Unis a financé des recherches en traduction automatique, en résumé
automatique de texte et en recherche documentaire, et il s'intéresse au
lancement d'un nouveau programme de recherche en informatique documentaire
multilingue. On sera ainsi capable d'ouvrir un navigateur tel que Netscape ou
Explorer, entrer une demande en anglais, et obtenir la liste des textes dans
toutes les langues. Ces textes seront regroupés par sous-catégorie avec un
résumé pour chacun et une traduction pour les résumés étrangers, toutes choses
qui seraient très utiles."
Il ajoute en août 1999: "Durant les douze derniers mois, j'ai été contacté par
un nombre surprenant de nouvelles sociétés et start-up en technologies de
l'information. La plupart d'entre elles ont l'intention d'offrir des services
liés au commerce électronique (vente en ligne, échange, collecte d'information,
etc.). Étant donné les faibles résultats des technologies actuelles du
traitement de la langue naturelle - ailleurs que dans les centres de recherche -
c'est assez surprenant. Quand avez-vous pour la dernière fois trouvé rapidement
une réponse correcte à une question posée sur le web, sans avoir eu à passer en
revue pendant un certain temps des informations n'ayant rien à voir avec votre
question? Cependant, à mon avis, tout le monde sent que les nouveaux
développements en résumé automatique de texte, analyse des questions, etc.,
vont, je l'espère, permettre des progrès significatifs. Mais nous ne sommes pas
encore arrivés à ce stade.
Il me semble qu'il ne s'agira pas d'un changement considérable, mais que nous
arriverons à des résultats acceptables, et que l'amélioration se fera ensuite
lentement et sûrement. Ceci s'explique par le fait qu'il est très difficile de
faire en sorte que votre ordinateur 'comprenne' réellement ce que vous voulez
dire - ce qui nécessite de notre part la construction informatique d'un réseau
de 'concepts' et des relations de ces concepts entre eux - réseau qui, jusqu'à
un certain stade au moins, reflèterait celui de l'esprit humain, au moins dans
les domaines d'intérêt pouvant être regroupés par sujets. Le mot pris à la
'surface' n'est pas suffisant - par exemple quand vous tapez: 'capitale de la
Suisse', les systèmes actuels n'ont aucun moyen de savoir si vous songez à
'capitale administrative' ou 'capitale financière'. Dans leur grande majorité,
les gens préféreraient pourtant un type de recherche basé sur une expression
donnée, ou sur une question donnée formulée en langage courant.
Plusieurs programmes de recherche sont en train d'élaborer de vastes réseaux de
'concepts', ou d'en proposer l'élaboration. Ceci ne peut se faire en deux ans,
et ne peut amener rapidement un résultat satisfaisant. Nous devons développer à
la fois le réseau et les techniques pour construire ces réseaux de manière
semi-automatique, avec un système d'auto-adaptation. Nous sommes face à un défi
majeur."
Il complète en septembre 2000: "Je vois de plus en plus de petites sociétés
utiliser d'une manière ou d'une autre les technologies liées aux langues, pour
des recherches, traductions, rapports ou autres services permettant de
communiquer. Le nombre de créneaux dans lesquels ces technologies peuvent être
utilisées continue de me surprendre, et cela va des rapports financiers et leurs
mises à jour aux communications d'une société vers d'autres sociétés, en passant
par le marketing.
En ce qui concerne la recherche, la principale avancée que je vois est due à
Kevin Knight, un collègue de l'ISI, ce dont je suis très honoré. L'été dernier,
une équipe de chercheurs et d'étudiants de l'Université Johns Hopkins, dans le
Maryland, a développé une version à la fois meilleure et plus rapide d'une
méthode développée à l'origine par IBM (et dont IBM reste propriétaire) il y a
douze ans environ. Cette méthode permet de créer automatiquement un système de
traduction automatique, dans la mesure où on lui fournit un volume suffisant de
texte bilingue. Tout d'abord la méthode trouve toutes les correspondances entre
les mots et la position des mots d'une langue à l'autre, et ensuite elle
construit des tableaux très complets de règles entre le texte et sa traduction,
et les expressions correspondantes.
Bien que la qualité du résultat soit encore loin d'être satisfaisante - personne
ne pourrait considérer qu'il s'agit d'un produit fini, et personne ne pourrait
utiliser le résultat tel quel - l'équipe a créé en vingt-quatre heures un
système (élémentaire) de traduction automatique du chinois vers l'anglais. Ceci
constitue un exploit phénoménal, qui n'avait jamais été réalisé auparavant. Les
détracteurs du projet peuvent bien sûr dire qu'on a besoin dans ce cas de trois
millions de phrases disponibles dans chaque langue, et qu'on ne peut se procurer
une quantité pareille que dans les parlements du Canada, de Hong-Kong ou
d'autres pays bilingues. Ils peuvent bien sûr arguer également la faible qualité
du résultat. Mais le fait est que, tous les jours, on met en ligne des textes
bilingues au contenu à peu près équivalent, et que la qualité de cette méthode
va continuer de s'améliorer pour atteindre au moins celle des logiciels de
traduction automatique actuels, qui sont conçus manuellement. J'en suis
absolument certain.
D'autres développements sont moins spectaculaires. On observe une amélioration
constante des résultats dans les systèmes pouvant décider de la traduction
opportune d'un terme (homonyme) qui a des significations différentes [par
exemple père, pair et père en français, ndlr]. On travaille beaucoup aussi sur
la recherche d'informations par recoupement de langues (qui vous permettront
bientôt de trouver sur le web des documents en chinois ou en français même si
vous tapez vos questions en anglais). On voit également un développement rapide
des systèmes qui répondent automatiquement à des questions simples (un peu comme
le populaire AskJeeves utilisé sur le web, mais avec une gestion par ordinateur
et non par des êtres humains). Ces systèmes renvoient à un grand volume de texte
permettant de trouver des 'factiodes' (et non des opinions ou des motifs ou des
chaînes d'événements) en réponse à des questions telles que: 'Quelle est la
capitale de l'Ouganda?', ou bien: 'Quel âge a le président Clinton?', ou bien:
'Qui a inventé le procédé Xerox?', et leurs résultats obtenus sont plutôt
meilleurs que ce à quoi je m'attendais."
# ISSCO
Rattaché à l'Université de Genève (Suisse), l'Institut Dalle Molle pour les
études sémantiques et cognitives (ISSCO) mène des recherches théoriques et
appliquées en linguistique computationnelle et en intelligence artificielle.
Créé en 1972 par la Fondation Dalle Molle pour mener des recherches en cognition
et en sémantique, l'institut en est venu à se spécialiser dans le traitement de
la langue naturelle et, en particulier, dans le traitement multilingue des
langues pour la traduction automatique, l'environnement linguistique, la
génération multilingue, le traitement du discours, la collection de données,
etc. Si l'université de Genève procure un soutien administratif et une
infrastructure à l'ISSCO, la recherche est financée par des subventions et des
contrats avec des organismes publics et privés. L'institut est
multidisciplinaire et multinational, avec un petit groupe de permanents complété
par un certain nombre de personnes sous contrat (spécialistes en informatique,
linguistique, mathématiques, psychologie ou philosophie) restant de six mois à
deux ans, ce qui permet une grande flexibilité et un échange continuel d'idées.
# UNDL Foundation
Développé sous l'égide de l'UNU/IAS (United Nations University/Institute of
Advanced Studies - Université des Nations Unies/ Institut des études avancées) à
Tokyo (Japon), l'UNL (universal networking language - langage d'interconnexion
universel) est un projet de métalangage numérique pour l'encodage, le stockage,
la recherche et la communication d'informations multilingues indépendamment
d'une langue-source donnée, et donc d'un système de pensée donné. Ce métalangage
est développé à partir de janvier 1997 au sein de l'UNL Program, un programme
international impliquant de nombreux partenaires dans toutes les communautés
linguistiques. En 1998, 120 chercheurs de par le monde travaillent sur un projet
multilingue comportant 17 langues (allemand, anglais, arabe, brésilien, chinois,
espagnol, français, hindou, indonésien, italien, japonais, letton, mongolien,
russe, swahili et thaï). Ce programme se poursuit ensuite sous l'égide de l'UNDL
Foundation (UNDL: Universal Networking Digital Language - Langage numérique
d'interconnexion universel), fondée en janvier 2001.
Christian Boitet, directeur du Groupe d'étude pour la traduction automatique
(GETA) à Grenoble, un des nombreux participants de l'UNL Program, explique en
septembre 1998 en quoi consiste le projet: "Il s'agit non de TAO [traduction
assistée par ordinateur] habituelle, mais de communication et recherche
d'information multilingue. 14 groupes ont commencé le travail sur 12 langues
(plus 2 annexes) depuis début 1997. L'idée est de développer un standard, dit
UNL [universal networking language], qui serait le HTML du contenu linguistique,
et pour chaque langue, de développer un générateur (dit 'déconvertisseur')
accessible sur un ou plusieurs serveurs, et un 'enconvertisseur'. L'UNU
[Université des Nations Unies] finance 50% du coût. D'après notre évaluation sur
la première année, c'est plutôt 30 à 35%, car le travail (linguistique et
informatique) est énorme, et le projet passionnant: les permanents des
laboratoires s'y investissent plus que prévu. (...)
La déconversion tourne pour le japonais, le chinois, l'anglais, le portugais,
l'indonésien, et commence à tourner pour le français, l'allemand, le russe,
l'italien, l'espagnol, l'hindi, l'arabe et le mongol. Chaque langue a une base
lexicale de 30.000 à 120.000 liens UW [universal word]--lexème. L'enconversion
n'est pas (si on veut de la qualité pour du tout venant) une analyse classique.
C'est une méthode de fabrication de graphes UNL [universal networking language]
qui suppose une bonne part d'interaction, avec plusieurs possibilités: (a)
analyse classique multiple suivie d'une désambiguïsation interactive en langue
source, (b) entrée sous langage contrôlé, (c) encore plus séduisant (et encore
pas clair, au niveau recherche pour l'instant), entrée directe via une interface
graphique reliée à la base lexicale et à la base de connaissances. Les
applications possibles sont le courriel multilingue, les informations
multilingues, les dictionnaires actifs pour la lecture de langues étrangères sur
le web, et bien sûr la TA [traduction automatique] de mauvaise qualité (ce qu'on
trouve actuellement, mais pour tous les couples à cause de l'architecture à
pivot) pour le surf web et la veille. On travaille actuellement sur les
informations sportives sur le web, surtout sur le foot. On construit une base de
documents, où chaque fichier est structuré (à la HTML) et contient, pour chaque
énoncé, l'énoncé original, sa structure UNL, et autant de traductions qu'on en a
obtenu. Un tel document peut être recherché dans une base en traduisant la
question en UNL, puis affiché (le UNL viewer existe depuis un an) dans autant de
fenêtres d'un brauser web que de langues sélectionnées."
En ce qui concerne les perspectives, "le projet a un problème de volume: grande
surface, pas assez d'épaisseur. Il faudrait trois à cinq fois plus de monde
partout pour que ça avance assez vite (pour que Microsoft et d'autres ne
finissent pas par tout reprendre et revendre, alors qu'on vise une utilisation
ouverte, du type de ce qu'on fait avec les serveurs et clients web). Les
subventions des sociétés japonaises à l'UNU pour ce projet (et d'autres) se
tarissent à cause de la crise japonaise. Le groupe central est beaucoup trop
petit (quatre personnes qui font le logiciel, le japonais, l'anglais,
l'administration, c'est peu même avec de la sous-traitance). De plus, le plan
général est d'ouvrir aux autres langues de l'ONU en 2000. Il faudrait arriver à
un état satisfaisant pour les treize autres avant. Du point de vue politique et
culturel, ce projet est très important, en ce qu'il montre pour la première fois
une voie possible pour construire divers outils soutenant l'usage de toutes les
langues sur internet, qu'elles soient majoritaires ou minoritaires. En
particulier, ce devrait être un projet majeur pour la francophonie. Dans l'état
actuel des choses, je pense que l'élan initial a été donné, mais que la première
phase (d'ici 2000) risque de retomber comme un soufflé si on ne consolide pas
très vite le projet, dans chaque pays participant. Donc l'UNU cherche comment
monter un soutien puissant à la mesure de cette ambition. Je pense que, pour la
francophonie par exemple, il faudrait un groupe d'une dizaine de personnes ne se
consacrant qu'à ce projet pendant au moins dix ans, plus des stagiaires et des
collaborateurs sur le réseau, bénévoles ou intéressés par la mise à disposition
gratuite de ressources et d'outils."
CHRONOLOGIE
[Chaque ligne débute par l'année ou bien l'année/mois. Par exemple, 1971/07
signifie juillet 1971.]
1968: Le code ASCII est le premier système d'encodage informatique.
1971/07: Le Projet Gutenberg est la première bibliothèque numérique.
1974: L'internet fait ses débuts.
1990: Le web est inventé par Tim Berners-Lee.
1991/01: L'Unicode est un système d'encodage pour toutes les langues.
1993/11: Mosaic est le premier logiciel de navigation sur le web.
1994/04: La Human-Languages Page est un catalogue des ressources linguistiques
sur le web.
1994/10: Le World Wide Web Consortium offrira des outils pour un web
multilingue.
1994: Travlang est un site consacré aux languages et aux voyages.
1995/12: La Kotoba Home Page explique comment utiliser son clavier dans
plusieurs langues.
1995: L'Internet Dictionary Project veut créer des dictionnaires de traduction
gratuits.
1995: NetGlos est un glossaire multilingue pour la terminologie de l'internet.
1995: Global Reach est une société de conseil émanant de Euro-Marketing
Associates.
1995: L'association LISA développe des standards pour l'industrie de la
localisation.
1995: L'Ethnologue, encyclopédie des langues, est disponible gratuitement sur le
web.
1996/04: OneLook Dictionaries offre un point commun pour de nombreux
dictionnaires en ligne.
1997/01: L'UNL (universal networking language) est un projet de métalangage
numérique.
1997/12: AltaVista lance AltaVista Translation, appelé aussi Babel Fish.
1997: Le Logos Dictionary est mis en ligne gratuitement.
1999/12: WebEncyclo est la première encyclopédie francophone en accès libre.
1999/12: Britannica.com est la première encyclopédie anglophone en accès libre.
1999: WordReference.com propose des dictionnaires bilingues gratuits en ligne.
2000/02: yourDictionary.com est un portail pour les langues.
2000/07: La moitié des usagers de l'internet est non anglophone.
2000/09: Le Grand dictionnaire terminologique (GDT) est bilingue
français-anglais.
2001/01: Wikipédia est la première grande encyclopédie collaborative
multilingue.
2001/01: L'UNL est désormais développé au sein de l'UNDL Foundation.
2001/04: La Human-Languages Page devient le portail iLoveLanguages.
2004/01: Le Projet Gutenberg Europe est lancé en tant que projet multilingue.
2007/03: IATE (Inter-Active Terminology for Europe) est la nouvelle base
terminologique européenne.
2009: L'Ethnologue sort une nouvelle édition (16e éd.), qui recense 6.909
langues.
SITES WEB
Alis Technologies: http://www.alis.com/
Aquarius.net: Directory of Localization Experts: http://www.aquarius.net/
ASCII Table: http://www.asciitable.com/
Asia-Pacific Association for Machine Translation (AAMT): http://www.aamt.info/
Association for Computational Linguistics (ACL): http://www.aclweb.org/
Association for Machine Translation in the Americas (AMTA):
http://www.amtaweb.org/
CALL@Hull: http://www.fredriley.org.uk/call/
ELRA (European Language Resources Association): http://www.elra.info/
ELSNET (European Network of Excellence in Human Language Technologies):
http://www.elsnet.org/
Encyclopaedia Britannica Online: http://www.britannica.com/
Encyclopaedia Universalis: http://www.universalis-edu.com/
Ethnologue: http://www.ethnologue.com/
Ethnologue: Endangered Languages: http://www.ethnologue.com/nearly_extinct.asp
EUROCALL (European Association for Computer-Assisted Language Learning):
http://www.eurocall-languages.org/
European Association for Machine Translation (EAMT): http://www.eamt.org/
European Bureau for Lesser-Used Languages (EBLUL): http://www.eblul.org/
European Commission: Languages of Europe:
http://ec.europa.eu/education/languages/languages-of-europe/
European Minority Languages (liste de l'Institut Sabhal Mòr Ostaig):
http://www.smo.uhi.ac.uk/saoghal/mion-chanain/en/
Google Translate: http://translate.google.com/
Grand dictionnaire terminologique (GDT): http://www.granddictionnaire.com/
IATE: InterActive Terminology for Europe: http://iate.europa.eu/
ILOTERM (ILO: International Labor Organization): http://www.ilo.org/iloterm/
iLoveLanguages: http://www.ilovelanguages.com/
International Committe on Computational Linguistics (ICCL):
http://nlp.shef.ac.uk/iccl/
Internet Dictionary Project (IDP): http://www.june29.com/IDP/
Internet Society (ISOC): http://www.isoc.org/
Laboratoire CLIPS (Communication langagière et interaction personne-système):
http://www-clips.imag.fr/
Laboratoire CLIPS: GETA (Groupe d'étude pour la traduction automatique):
http://www-clips.imag.fr/geta/
LINGUIST List (The): http://linguistlist.org/
Localization Industry Standards Association (LISA): http://www.lisa.org/
Logos: Multilingual Translation Portal: http://www.logos.it/
MAITS (Multilingual Application Interface for Telematic Services):
http://wwwold.dkuug.dk/maits/
Merriam-Webster Online: http://www.merriam-webster.com/
Natural Language Group (NLG) at USC/ISI: http://www.isi.edu/natural-language/
Nuance: http://www.nuance.com/
OneLook Dictionary Search: http://www.onelook.com/
Oxford English Dictionary (OED): http://www.oed.com/
Oxford Reference Online (ORO): http://www.oxfordreference.com/
PAHOMTS (PAHO: Pan American Health Organization):
http://www.paho.org/english/am/gsp/tr/machine_trans.htm
Palo Alto Research Center (PARC): http://www.parc.com/
Palo Alto Research Center (PARC): Natural Language Processing:
http://www.parc.com/work/focus-area/NLP/
RALI (Recherche appliquée en linguistique informatique):
http://www-rali.iro.umontreal.ca/
Reverso: Free Online Translator: http://www.reverso.net/
SDL: http://www.sdl.com/
SDL: FreeTranslation.com: http://www.freetranslation.com/
SDL Trados: http://www.trados.com/
Softissimo: http://www.softissimo.com/
SYSTRAN: http://www.systranlinks.com/
SYSTRANet: Free Online Translator: http://www.systranet.com/
TEI: Text Encoding Initiative: http://www.tei-c.org/index.xml
TERMITE (Terminology of Telecommunications):
http://www.itu.int/terminology/index.html
*tmx Vokabeltrainer: http://www.tmx.de/
Transparent Language: http://www.transparent.com/
TransPerfect: http://www.transperfect.com/
Travlang: http://www.travlang.com/
Travlang's Translating Dictionaries: http://dictionaries.travlang.com/
UNDL (Universal Networking Digital Language) Foundation: http://www.undl.org/
Unicode: http://www.unicode.org/
Yahoo! Babel Fish: http://babelfish.yahoo.com/
YourDictionary.com: http://www.yourdictionary.com/
YourDictionary.com: Endangered Languages:
http://www.yourdictionary.com/elr/index.html
W3C: World Wide Web Consortium: http://www.w3.org/
W3C Internationalization Activity: http://www.w3.org/International/
WELL (Web Enhanced Language Learning): http://www.well.ac.uk/
Wordfast: http://www.wordfast.org/
Xerox XRCE (Xerox Research Centre Europe): http://www.xrce.xerox.com/
Xerox XRCE: Cross-Language Technologies:
http://www.xrce.xerox.com/competencies/cross-language/
Copyright © 2009 Marie Lebert. Tous droits réservés.