El paradigma de facto en la traducción automática todavía depende de una estructura rudimentaria conocida como traducción automática estadística basada en frases. Esto se refiere a un método para procesar el lenguaje en el que varios corpus de datos de texto se organizan en frases para facilitar la extracción de los elementos de un enunciado. Como consecuencia, mientras que la traducción automática ha mejorado de a poco su precisión en el terreno de la gramática, no ha podido dominar las complejidades de sistemas de referencia relacionados con el género en el lenguaje natural.
El sexismo en la representación del lenguaje
El impacto de la traducción automática en el lenguaje y en la sociedad crece cada día. Servicios como Google Traductor hacen que los usuarios se puedan comunicar entre ellos en docenas de lenguas distintas. Sin embargo, el potencial sesgo del resultado traducido hace que sea particularmente difícil evaluar la calidad de estas traducciones. Por eso, se vuelve cada vez más obvio que, para contrarrestar el sexismo en el proceso de traducción automática, hay que modificar las estructuras de traducción tradicionales.
En su forma más básica, el sexismo en la traducción puede afectar la manera en que una oración es traducida e interpretada. Esto puede suceder tanto en un nivel micro como en un nivel macro (en relación a la manera en que una palabra es traducida e interpretada en distintas lenguas) y puede suceder en varias etapas del proceso de traducción.
Cuando el fenómeno de los significados relacionados con el género se combinan con una estructura de traducción automática neuronal (NMT) que no logra tener en cuenta el contexto humano y la intención de los elementos lingüísticos que existen dentro del texto fuente, es posible que se produzcan sesgos que impacten la precisión y la corrección. El tipo de sesgo que ocurre en las NMT nace de una discordancia entre los datos de ingreso y una representación interna deducida estadísticamente, y del resultado incorrecto que esta produce. Es decir, el sexismo en la NMT afecta su habilidad de comprender conceptos relacionados con el género y producir representaciones precisas y no problemáticas del texto fuente.
El género en la traducción
Distintas normas culturales e incluso comunidades lingüísticas pueden poner énfasis en ciertas frases, en un intento de compensar la escasez de frases comunes y genéricas que encarnan el concepto en cuestión. En muchos casos, esto puede conducir a estereotipos de género desafortunados y reforzar otras normas culturales antifeministas de una manera involuntariamente sexista. Por ejemplo, Google Translate históricamente ha traducido la frase «he/she is a doctor» en la forma masculina, pero solo cuando traduce del turco al inglés. Y, en cambio, Google Translate siempre ha traducido «he/she is a nurse» en forma femenina. Las críticas de Google Translate y el problema que tiene con sintagmas relacionados con el género es entendible.
Esta tendencia a utilizar un lenguaje sexista nace de la necesidad histórica de la mayoría de las lenguas de usar el género gramatical para transmitir conceptos generales y por defecto. Tales sesgos en el lenguaje son un área de investigación activa y nos enseñan que si entrenamos nuestros modelos con datos sesgados, es probable que los modelos también estén sesgados.
Para complicar el problema, las traducciones que involucran el género (como usar el pronombre correcto y tener concordancia de género) son particularmente sensibles, ya que estas pueden referirse directamente a las personas y a cómo se autoidentifican. Y, si bien estos problemas pueden parecer abstractos, no son solo teóricos. Como anécdota, muchos grupos han expresado su preocupación por la precisión de Google Translate e incluso han publicado estudios que documentan cómo les cuesta a los NMT evitar el uso de un lenguaje sexista.
Como parte de sus esfuerzos para promover la conciencia del lenguaje sexista en la traducción automática y para abordar el problema, Google ha publicado el conjunto de datos Translated Wikipedia Biographies (Biografías de Wikipedia Traducidas) en 2021. El objetivo de este conjunto de datos es proporcionar una estructura para los avances a largo plazo en el área de la traducción automática mediante el establecimiento de un conjunto consistente de datos para la autoevaluación y mejora de los sistemas de aprendizaje centrados en el género en la traducción.
Soluciones
En un mundo perfecto, una estructura de traducción automática neuronal representaría el texto fuente como una representación exacta del lenguaje natural, sin ninguna desviación.
Los avances recientes en la traducción automática (MT) y el procesamiento del lenguaje natural (NLP) están produciendo nuevos resultados de vanguardia, incluido un rendimiento cercano al nivel humano en algunos pares de idiomas. Sin embargo, mientras que se han logrado avances impresionantes, la traducción automática de alta calidad ha resultado difícil de lograr por muchas razones: los sistemas lingüísticos tienden a reflejar los valores de sus creadores. Entrenar estos sistemas con datos que representan sistemáticamente el lenguaje sexista inevitablemente producirá resultados sesgados, porque este sesgo afecta el aprendizaje de los sistemas de MT y se asimila en los procesos de entrada.
Dado el poder de la MT y del NLP de dar forma al contexto cultural, la investigación en la década venidera probablemente resaltará las formas en que el lenguaje y la traducción pueden influir en la sociedad en general, en las decisiones y políticas de la sociedad, o incluso en la cultura. Mientras tanto, sin embargo, si deseas garantizar traducciones precisas y no sexistas, incluso cuando puede haber algún MT involucrado, puedes contratar prestadores de servicios lingüísticos profesionales. Consulta por nuestro toque humano para detectar y corregir cualquier instancia de lenguaje sexista, lo que representa una parte integral de nuestros servicios de posedición de traducciones automáticas, ya que apuntan a convertir la MT en algo equivalente a las traducciones humanas.
Foto de Dainis Graveris de Unsplash