Os idiomas que não serão traduzidos automaticamente

comm breakdown

Em um mundo que se globaliza de maneira constante que gira mais rápido a cada dia que passa, quase não há dúvidas de que a tradução automática chegou pra ficar. Apesar das piadas feitas sobre as traduções automáticas, os aplicativos de idiomas com base em redes neurais (sistemas interconectados de computação que imitam os processos do pensamento humano) ainda são imbatíveis em termos de velocidade (instantâneos) e custos (gratuitos).

Contudo, nenhuma quantidade de algoritmos pode substituir o cérebro humano, muito menos possuir a sensibilidade ao contexto e expressões idiomáticas (está chovendo a cântaros) dos tradutores profissionais.

Rápida, gratuita e imperfeita―mas melhorando gradualmente

Graças à influência de organizações internacionais (como as Nações Unidas) e de instituições multilíngues (como o Parlamento Europeu), imensos bancos de dados vêm acumulando enormes quantidades de dados paralelos há mais de cinquenta anos. Porém, foi apenas durante a segunda década do século 21―com o advento das redes neurais profundas (DNNs)―que toda essa documentação traduzida por humanos pode ter um uso mais prático.

Usando esses tesouros linguísticos, vários e importantes players de tecnologia desenvolveram plataformas gratuitas de tradução, como:

  • Google Translate: (133 idiomas) Acessado por mais de 500 milhões de usuários diariamente, sendo inglês, espanhol, árabe, russo, português e indonésio os idiomas mais usados, com bengali, crioulo haitiano e tajique ficando na rabeira;
  • Bing Translator da Microsoft: (103 idiomas) Um serviço na nuvem, que faz parte dos Serviços Cognitivos da Microsoft, integrado em múltiplos produtos, incluindo Bing, MS Office, Edge, Skype e Windows, bem como em dispositivos Apple e Android;
  • DeepL: (28 idiomas) Este motor está se expandindo a partir de sua base europeia para incluir idiomas do mundo todo; ele se baseia em um gigantesco corpus de frases, expressões idiomáticas e fragmentos traduzidos por humanos, que fazem parte do dicionário online Linguee.

Expandindo o foco

Essa dependência inicial dessas minas de ouro digitais de dados paralelos talvez explique o porquê da tradução automática atualmente incluir idiomas europeus como o finlandês (cinco milhões de falantes) e ignorar 48 milhões de etíopes que falam oromo. Outras línguas nativas ainda no limbo tecnológico incluem boiapuri (51 milhões), fula (24 milhões), sylheti (11 milhões) e kirundi (9 milhões).

Contudo, essa situação está mudando, com mais idiomas de tradução expandindo o alcance da tradução automática. Conforme mencionado por Carl Rubino, um gerente de programas na IARPA (o Centro de Pesquisas do Serviço de Inteligência dos EUA), “Muitos dos desafios que enfrentamos hoje, como instabilidade econômica e política, a pandemia de Covid-19 e as mudanças climáticas, transcendem nosso planeta―e são, dessa forma, multilíngues por natureza.”

Salvando vidas através dos idiomas

Como esses desafios normalmente pesam mais sobre comunidades desfavorecidas, que são as menos preparadas para lidar com eles, comunicações instantâneas, mas precisas, estão rapidamente se tornando uma questão de vida ou morte. Enquanto a produção dos tradutores humanos seja limitada por restrições físicas, os computadores podem rodar 24/7 em velocidades super-humanas. Eles podem produzir, sem parar, fluxos de análises, relatórios e diretrizes que podem ser gramaticalmente imperfeitos, mas são adequados ao fim a que se destinam em prazos apertados e de urgência.

Esse é o verdadeiro valor em se estender o escopo da tradução automática. Ao facilitar a comunicação instantânea através de barreiras linguísticas e culturais, quando vidas e meios de subsistência estão em risco, esses algoritmos sem rosto oferecem salvação para comunidades com poucos recursos, batalhando para sobreviver em condições adversas.

Idiomas com poucos recursos

Embora falados por milhões de pessoas, muitos idiomas oferecem recursos escritos limitados (e normalmente monolíngues), apesar de suas ricas tradições orais. Para as redes neurais profundas, esses idiomas com poucos recursos―como eles são chamados no setor―são difíceis de abordar. Enquanto isso, falantes dessas línguas fazem uploads de postagens e blogs que podem garantir a sobrevivência de suas sociedades, apesar de sua tradicional falta de registros e livros.

Em termos históricos, fontes multilíngues entre algumas dessas culturas se limitavam a pequenos conjuntos de dados fornecidos por literatura religiosa, particularmente livros sagrados que foram amplamente traduzidos, como o Alcorão e a Bíblia. Em tempos mais modernos, mídias impressas e audiovisuais, além das redes sociais, estão consolidando sólidos inventários de dados de um único idioma, que podem ser analisados e traduzidos por redes neurais profundas.

As redes sociais constroem redes de segurança comunitárias

Modelos modernos de redes neurais podem, agora, ser pré-treinados com fontes monolíngues faladas e escritas. A teoria é que os modelos neurais aprenderam certas características e estruturas da linguagem humana, estabelecidas através de parâmetros que agora estão sendo aplicados em atividades de tradução.

Com usuários ao redor do mundo postando conteúdos que são geralmente repetitivos através das fronteiras culturais e em suas línguas nativas, os modelos neurais agora podem resumir textos para os usuários. Para tal, esses aplicativos parecem precisar de muito pouco treinamento bilíngue dos dados paralelos, com algumas centenas de milhares de palavras (talvez meia dúzia de romances) sendo mais que suficientes.

Conclusão: Com cerca de 7.000 idiomas falados no mundo todo (mas apenas cerca de 4.000 deles escritos), os aplicativos de tradução virtual têm muitos campos abertos para expansão. Variando de assistência médica até agricultura, eliminar as lacunas linguísticas e culturais através da tradução automática é claramente o caminho para um melhor futuro para a humanidade―mas sempre com a importante ajuda dos tradutores profissionais, que são não apenas experientes em mais de um idioma, mas também em mais de uma cultura.

Imagem de Yatheesh Gowda da Pixabay