Les langues qui échappent à la traduction automatique

comm breakdown

Dans une époque où la mondialisation progresse chaque jour plus rapidement, il ne fait aucun doute que la traduction automatique n’est pas près de disparaître. Au contraire, malgré tout le ridicule des traductions automatiques, les applications linguistiques construites sur des réseaux neuronaux (systèmes informatiques interconnectés qui imitent les processus de la pensée humaine) restent imbattables en termes de vitesse (résultats instantanés) et de coût (gratuit).

Pourtant, aucun algorithme n’a pu remplacer le cerveau humain, encore moins la sensibilité au contexte et aux expressions idiomatiques (il pleut des seaux d’eau) des traducteurs professionnels.

Rapide, gratuite, imparfaite — mais en train de s’améliorer

Grâce à l’influence des organisations internationales (telles que Nations Unies) et des institutions multilingues (telles que le Parlement européen), des bases de données immenses accumulent depuis plus de cinquante ans d’énormes quantités de données parallèles. Cependant, ce n’est qu’au cours de la deuxième décennie du 21e siècle, avec l’avènement des réseaux neuronaux profonds (DNN), que toute cette documentation traduite par des humains a pu être mise à profit de manière plus pratique.

À l’aide de ces ressources linguistiques, plusieurs acteurs majeurs de la technologie ont développé des plateformes de traduction gratuites, telles que les suivantes.

  • Google Translate fonctionne avec 133 langues et est consulté par plus de 500 millions d’utilisateurs chaque jour, étant l’anglais, l’espagnol, l’arabe, le russe, le portugais et l’indonésien les plus utilisés, tandis que le bengali, le créole haïtien et le tadjik sont parmi les moins utilisés.
  • Microsoft Bing Translator compte 103 langues et est un service dans le cloud qui fait partie de Microsoft Cognitive Services et est intégré à plusieurs produits, notamment Bing, Office, Edge, Skype et Windows, ainsi qu’aux appareils Apple et aux appareils avec Android.
  • DeepL compte 28 langues et s’étend actuellement au-delà de sa base européenne pour inclure des langues du monde entier. Il est construit sur un gigantesque corpus de phrases, locutions idiomatiques et autres syntagmes traduits par des traducteurs humains qui se trouvent dans le dictionnaire en ligne Linguee.

Élargir le point de vue

Alors que la traduction automatique atteint des langues européennes comme le finnois, il y a des langues comme l’oromo, qui compte 48 millions de locuteurs, qui sont laissées de côté. Cela peut être dû au fait que de nombreux moteurs de traduction dépendent des bases de données parallèles développées en Europe. Parmi les autres langues qui errent dans les limbes technologiques, il y a le bhojpouri (51 millions de locuteurs), le peul (24 millions de locuteurs), le sylheti (11 millions de locuteurs) et le kirundi (9 millions de locuteurs).

Cependant, cette situation est en train de changer grâce à l’inclusion de nouvelles langues qui élargissent les horizons de la traduction automatique. Comme l’a fait remarquer Carl Rubino, responsable du programme IARPA (US Intelligence Services Research Center) : « Un bon nombre des défis auxquels nous sommes confrontés aujourd’hui, tels que l’instabilité économique et politique, la pandémie de COVID-19 et le changement climatique, transcendent notre planète et sont donc de nature multilingue. »

Sauver des vies grâce aux langues

Ces défis pèsent souvent lourdement sur les communautés défavorisées, celles qui ont le moins de ressources pour s’y occuper. Et c’est là où les communications instantanées mais précises deviennent rapidement une question de vie ou de mort. Alors que le travail des traducteurs humains est limité par des contraintes physiques, les ordinateurs peuvent fonctionner 24 h sur 24 et 7 j sur 7 à des vitesses surhumaines. Ceux-ci peuvent être utilisés pour générer des flux ininterrompus d’analyses, de rapports et de directives qui, bien que grammaticalement imparfaits, sont la meilleure option pour faire face aux délais serrés des urgences.

Ça, c’est la véritable valeur de l’expansion de la traduction automatique. En facilitant la communication instantanée à travers les barrières linguistiques et culturelles lorsque des vies et des moyens de subsistance sont en jeu, ces algorithmes invisibles jettent une bouée de sauvetage aux communautés qui luttent pour survivre à des conditions défavorables et qui normalement ne profitent pas de cette technologie.

Langues avec peu de ressources

Bien que parlées par des millions de personnes, de nombreuses langues offrent des ressources écrites limitées (et souvent monolingues), malgré leurs riches traditions orales. Pour les réseaux neuronaux profonds, ces langages à faibles ressources, comme on les appelle dans l’industrie, ont été difficiles à aborder. En ce moment, les locuteurs de ces langues s’affairent à mettre en ligne des publications et des blogs qui pourraient assurer la survie de leurs sociétés, malgré leur manque traditionnel de registres et de livres.

Historiquement, les sources multilingues de certaines de ces cultures se sont limitées à des ensembles de données tirés de textes sacrés largement traduits, telles que le Coran et la Bible. À une époque plus moderne, la presse écrite, les médias audiovisuels et les réseaux sociaux accumulent des inventaires de données monolingues robustes qui peuvent être analysés et traduits à l’aide de réseaux neuronaux profonds.

Les réseaux sociaux créent des filets de sécurité communautaires

Les modèles de réseaux neuronaux modernes peuvent être pré-entraînés avec des sources monolingues parlées et écrites. La théorie est que les modèles neuronaux ont appris certaines caractéristiques et structures du langage humain, établies grâce à des paramètres qui sont appliqués aux tâches de traduction.

Avec des utilisateurs du monde entier qui publient du contenu assez répétitif à travers les frontières culturelles et dans leur langue maternelle, les modèles neuronaux peuvent désormais résumer les textes pour les utilisateurs. Pour faire cela, ces applications semblent nécessiter très peu de formation bilingue avec des données parallèles. Quelques centaines de milliers de mots (à peu près une demi-douzaine de romans) suffisent.

Conclusion: Avec approximativement 7 000 langues parlées dans le monde, mais seulement environ 4 000 d’entre elles écrites, les applications de traduction automatique ont un grand potentiel d’expansion. De la santé à l’agriculture, faire tomber les barrières linguistiques et culturelles avec la traduction automatique est clairement la voie vers un avenir meilleur pour l’humanité. Mais cela dépendra toujours de l’aide de traducteurs professionnels, qui sont non seulement experts dans plusieurs langues, mais connaissent également plusieurs cultures.

Image de Yatheesh Gowda sur Pixabay