Huit siècles plus tard, Descartes proposait un langage universel élaboré à partir de similitudes entre différentes langues. D’autres tentatives, notamment basées sur l’espéranto, leur ont emboîté le pas. Mais les étapes les plus concrètes du développement de la traduction automatique ont été franchies pendant la Seconde Guerre mondiale, avec le déchiffrement de codes secrets. Pendant la guerre froide, ces méthodes ont été perfectionnées pour traduire, du mieux possible, le russe en anglais. Rétrospectivement, nous pouvons considérer ces dernières comme les premières versions rudimentaires de traduction automatique à base de règles, ou rule-based. La première véritable traduction automatique a donc servi à des fins d’espionnage.

Septante ans plus tard : l’évolution générale dans les domaines de l’informatique et du computing provoque une véritable révolution. La traduction automatique neuronale et le deep learning en sont aujourd’hui les principaux descripteurs, bien qu’il existe également d’autres formes de traduction automatique.

Types de traduction automatique

Nous avons brièvement mentionné la TABR (traduction automatique à base de règles) ci-dessus. Il existe également la TAS ou traduction automatique statistique. Et enfin, la forme la plus récente : la TAN, ou traduction automatique neuronale. Ces trois types fonctionnent selon des principes complètement différents.

01

Traduction automatique à base de règles : codage de la langue source

La TABR requiert trois ingrédients : un dictionnaire reliant chaque mot de la langue source à un mot dans la langue cible, et les règles linguistiques qui régissent les structures de phrases dans la langue source et dans la langue cible. Plus les informations sont complètes, plus la qualité du résultat s’améliore. Dans un premier temps, lorsque vous saisissez une phrase dans la langue source, le moteur de traduction analyse la structure grammaticale. Il traduit ensuite les mots en fonction des informations contenues dans les dictionnaires, puis agence ces mots en respectant la structure grammaticale de la langue cible. Deviner pourquoi ce type de traduction automatique produit si souvent de mauvais résultats n’a rien de compliqué. Les dictionnaires ne proposent généralement pas qu’une seule traduction pour un même terme ou ne tiennent pas compte du contexte dans le choix des termes. Ou la structure grammaticale est mal analysée. Enfin, la TABR est généralement incapable de traduire correctement les structures idiomatiques telles que les expressions et le langage parlé.

02

Traduction automatique statistique : comparaison de corpus

La TAS, ou traduction automatique statistique, fonctionne selon un principe totalement différent. La TAS n’implique aucun dictionnaire ni aucune règle grammaticale. Euh, pardon ? La TAS utilise des corpus, ou grands recueils de textes portant sur un sujet défini, dans la langue source et dans la langue cible. La TAS relie ces corpus entre eux. Autrement dit, chaque phrase d’une langue est liée à une phrase de l’autre langue. En comparant les corpus les uns aux autres, le moteur de traduction apprend le rapport qui existe entre les deux langues. Il applique ensuite ces informations pour traduire d’autres textes. Malheureusement, la création de corpus pour ce type de traduction automatique nécessite d’énormes quantités de texte, et certaines langues sont tout simplement trop différentes. Concrètement : si cette méthode fonctionne relativement bien pour certaines combinaisons de langues, elle est à peine exploitable pour d’autres.

03

Traduction automatique neuronale : deep learning

Jamais deux sans trois : la TAN, ou traduction automatique neuronale, est le plus jeune membre de la famille, mais aussi le plus performant. Depuis 2013, cette nouvelle forme de traduction automatique est en plein essor. Contrairement à la TABR et à la TAS, elle repose sur des réseaux neuronaux et le deep learning, ou apprentissage profond. Elle a donc recours à des structures comparables à celles du cerveau humain. Dans la TAN, le moteur de traduction apprend lui-même à traduire en comparant des corpus. Ah, donc un peu comme la TAS ? Oui, à la différence près que la TAN est capable d’accomplir cette tâche avec beaucoup moins de données. Grâce au deep learning, qui fait toute la différence. Ses résultats sont donc plus prometteurs que ceux de la TAS ou de la TABR. Présente-t-elle également des inconvénients ? Le développement de modèles d’apprentissage profond coûte extrêmement cher. Et il faut toujours prendre ce deep learning avec des pincettes.

Traduction automatique hybride : la combinaison

Il existe également la TAH, ou traduction automatique hybride. Mais celle-ci n’est autre qu’une combinaison de différents types de traduction automatique. Même si elle génère de meilleurs résultats. La combinaison de mémoires de traduction soigneusement élaborées à la traduction automatique améliore considérablement la qualité.

Google NMT

Un autre type de traduction automatique mérite également d’être cité : GNMT, avec un G pour Google. En 2017, Google Translate a fait un bond quantique en créant ses propres réseaux de traduction neuronale pour certaines combinaisons linguistiques, améliorant ainsi considérablement ses traductions. Aujourd’hui, le géant technologique américain a donc la haute main sur le domaine. Mais quelle que soit l’ampleur des progrès, la traduction automatique doit toujours être considérée comme un outil permettant de réaliser d’énormes gains de production. Les volumes gigantesques nécessitent aujourd’hui un support de traduction automatique. Mais il ne faut pas pour autant négliger le post-éditeur (un traducteur humain). Sans post-édition, vous obtiendrez immanquablement une moindre qualité, voire des résultats qui chatouillent les zygomatiques. Il suffit de lire n’importe quel manuel traduit automatiquement pour se rendre compte qu’il reste un long chemin à parcourir.

Et qu’en est-il du « véritable » langage ?

La traduction automatique, même dans sa forme la plus avancée, reste insuffisante pour se comparer à une « belle copie ». La rédaction de textes fluides, littéraires et commerciaux ne se prête tout simplement pas à la traduction automatique. Dès qu’il est question de véritable langage — et pas seulement de structure et de mots — la qualité de la traduction automatique sombre immédiatement. Tout simplement parce qu’une langue ne peut être intégralement codée. Nuances, dialecte, termes aux multiples significations, concepts contextuels, double sens et émotions : tout le caractère humain du langage se perd irrémédiablement. Même des pionniers de la traduction automatique tels que Weaver et Bar-Hillel ne pensaient pas que la traduction automatique se rapprocherait un jour de la traduction humaine. Et jusqu’à présent, ils ont raison : les limites d’alors existent encore aujourd’hui.

Conclusion

La traduction automatique est un excellent outil de productivité, tant que l’on garde à l’esprit qu’elle génère encore une qualité inférieure à celle d’un traducteur humain. Un bon post-éditeur est indispensable pour élever le résultat à un niveau acceptable. Même Google a déclaré en 2019 que Google Translate ne faisait nullement concurrence au traducteur humain. La traduction automatique est déjà largement exploitée, mais principalement comme outil de traitement de gros volumes. Retenez donc ceci : le post-éditeur est le garant de la qualité. Sans post-édition, la qualité n’est tout simplement pas au rendez-vous.

Rien d’étonnant donc à ce que les boutades suivantes soient encore très populaires auprès des partisans de la qualité du monde de la traduction :
« Les traducteurs remplaçables par des machines méritent d’être remplacés » et
« Les machines traduisent des mots, les hommes traduisent le langage ».

Envie de recevoir plus de trucs, astuces et autres informations ?