Le paradigme de facto de la traduction automatique repose toujours sur une structure rudimentaire connu sous le nom de traduction automatique statistique basée sur les phrases. Il s’agit d’une méthode de traitement du langage dans laquelle divers corpus de données textuelles sont organisés en phrases pour faciliter l’extraction des éléments d’une phrase. En conséquence, alors que la traduction automatique a lentement amélioré sa précision grammaticale, elle n’a pas été en mesure de maîtriser les complexités des systèmes de référence liés au genre dans le langage naturel.
Le sexisme dans la représentation du langage
L’impact de la traduction automatique sur la langue et sur la société grandit chaque jour. Des services comme Google Translate permettent aux utilisateurs de communiquer entre eux dans des douzaines de langues différentes. Cependant, le biais linguistique potentiel qui peut être contenu dans le résultat traduit rend particulièrement difficile l’évaluation de la qualité de ces traductions. Par conséquent, il devient de plus en plus évident que, pour corriger le sexisme dans le processus de traduction automatique, les structures de traduction traditionnelles doivent être modifiées.
Dans sa forme la plus élémentaire, le sexisme dans la traduction peut affecter la façon dont une phrase est traduite et interprétée. Cela peut se produire à un niveau micro ou macro (en référence à la façon dont un mot est traduit et interprété dans différentes langues) et peut se produire à différentes étapes tout au long d’un processus de traduction.
Lorsque le phénomène des significations liées au genre est combiné à une structure de traduction automatique neuronale (NMT) qui ne tient pas compte du contexte humain ou de l’intention des éléments linguistiques qui existent dans le texte source, une tendance androcentriste est susceptible de s’infiltrer et d’avoir un impact à la fois sur la précision et sur l’exactitude. Le type de biais linguistique qui se produit dans les NMT provient d’un écart entre les données d’entrée et une représentation interne statistiquement conséquente, et du résultat incorrect que cela produit. Autrement dit, le sexisme dans les NMT affecte leur capacité à comprendre les concepts liés au genre et à fournir des représentations précises et non problématiques du texte source.
Le genre dans la traduction
Différentes normes culturelles et même des communautés linguistiques peuvent mettre l’accent sur certaines phrases, dans une tentative de compenser la rareté des phrases courantes et génériques qui incarnent le concept en question. Dans de nombreux cas, cela peut conduire à une utilisation inopportune des stéréotypes de genre et renforcer d’autres normes culturelles antiféministes de manière involontairement sexiste. Par exemple, Google Translate a historiquement traduit l’expression “he/she is a doctor,” au masculin, mais uniquement lors de la traduction du turc vers l’anglais. Et, au contraire, Google Translate a toujours traduit “he/she is a nurse” au féminin. La critique de Google Translate et le problème qu’il a avec les phrases liées au genre sont compréhensibles.
Cette tendance à utiliser un langage sexiste découle du besoin historique (de la plupart des langues) d’utiliser le genre grammatical pour transmettre des concepts généraux et par défaut. Ce phénomène est un domaine de recherche active, et il nous enseigne que si nous entraînons nos modèles sur des données biaisés, les modèles risquent également d’être sexistes.
Le problème est compliqué par le fait que les traductions impliquant le genre (comme l’utilisation du pronom correct et la concordance en genre) sont particulièrement sensibles, car elles peuvent faire directement référence aux personnes et à la manière dont elles s’identifient. Et, bien que ces problèmes puissent sembler abstraits, ils ne sont pas seulement théoriques. Pour l’anecdote, de nombreux groupes ont soulevé des inquiétudes quant à l’exactitude de Google Translate et ont même publié des études documentant à quel point les NMT ont tendance à commettre des erreurs à l’heure de produire une rédaction épicène.
Dans le cadre de ses efforts pour promouvoir la sensibilisation aux biais linguistiques dans la traduction automatique et pour résoudre le problème, Google a publié l’ensemble de données Translated Wikipedia Biographies (Biographies de Wikipédia Traduites) en 2021. Son objectif de est de fournir un cadre pour les avancées à long terme dans le domaine de la traduction automatique en établissant une base de données cohérente pour l’auto-évaluation et pour l’amélioration des systèmes d’apprentissage axés sur le genre dans la traduction.
Solutions
Dans un monde parfait, une structure de traduction automatique neuronale représenterait le texte source comme une représentation exacte d’un langage humaine, sans aucun type de divergence.
Les progrès récents dans la traduction automatique (MT) et dans le traitement du langage naturel (NLP) sont en train de produire de nouveaux résultats de pointe, y compris des performances proches du niveau humain sur certaines paires de langues. Cependant, alors que des progrès impressionnants ont été réalisés, la traduction automatique de haute qualité s’est avérée insaisissable pour de nombreuses raisons. Les systèmes linguistiques ont tendance à refléter les valeurs de leurs créateurs. Entraîner ces systèmes avec des données qui représentent systématiquement un langage sexiste produira inévitablement des résultats biaisés, car ce biais linguistique affecte l’apprentissage des systèmes de MT et s’incorpore aux processus d’entré.
Étant donné le pouvoir de la MT et du NPL de façonner le contexte culturel, la recherche de la prochaine décennie mettra probablement en évidence les façons dont la langue et la traduction peuvent influencer la société en général, les décisions et les politiques de la société, ou même la culture. En attendant, cependant, si tu souhaites garantir des traductions précises et non sexistes, même quand des MT peuvent y être impliquées, tu peux faire appel à des prestataires de services linguistiques professionnels. Renseigne-toi sur notre touche humaine pour repérer et corriger tout instance de langage sexiste, ce qui fait partie intégrante de nos services de post-édition de traduction automatique qui visent à transformer n’importe quel MT en l’équivalent d’une traduction humaine.
Photo par Dainis Graveris chez Unsplash