Os robôs podem não sonhar, mas têm alucinações. Com a inteligência artificial no centro dos holofotes da mídia ultimamente, a tendência da tecnologia baseada em algoritmos de “alucinar” materiais tornou-se uma preocupação primária em relação ao uso da IA, e isso não é diferente no campo da tradução automática.
Nesta postagem, examinamos o que são alucinações da tradução automática, porque elas ocorrem e como evitar que esse sério problema afete seus possíveis projetos de tradução.
O que são alucinações da tradução automática?
A tradução automática utiliza software de computador – geralmente inteligência artificial ou soluções de aprendizado de máquina – para traduzir textos de um idioma para outro, em contraste com a tradução humana. Embora a tradução automática possa ajudar a economizar tempo e dinheiro, essas máquinas infelizmente também podem produzir alucinações: resultados de tradução que não têm nenhuma relação com o texto de origem (e que muitas vezes são bizarros).
Por exemplo, um experimento com tradução automática descobriu que o modelo usou histórias enlouquecidas e completamente novas. A frase original era um testemunho sobre uma greve que acontecia na Colômbia; depois de passá-la para o marati usando o Google Translate e, em seguida, ser traduzida de volta para o inglês pelo tradutor automático, a frase tornou-se um testemunho totalmente equivocado sobre crianças norte-americanas prestando serviço para as Testemunhas de Jeová. Como esse exemplo ilustra, as alucinações podem acontecer com especial frequência ao traduzir do inglês para idiomas menos utilizados, sobre os quais a máquina pode não ter tantos dados confiáveis.
Por que ocorrem as alucinações?
Algumas alucinações da tradução automática neural (NMT) são causadas por “perturbações no texto de origem” ou um elemento inesperado no texto de origem que, consequentemente, contamina o resultado. O texto de origem pode conter um erro de digitação, um estilo peculiar, uma palavra incomum ou uma palavra que simplesmente não foi considerada no modelo.
Outras alucinações decorrem de problemas estruturais nos dados usados para treinar o modelo. Os pesquisadores descobriram, por exemplo, que alguns modelos têm problemas com a memorização excessiva de frases, ou seja, frases que são tão memorizadas pela máquina que ela deseja repeti-las exatamente da mesma maneira todas as vezes, sem reconhecer o contexto ou a expressão. Uma grande quantidade de “ruído” no corpo dos dados de treinamento – muitos pares incorretos ou desalinhados entre as sentenças de origem e de destino – também pode resultar em alucinações.
E quando se trata de modelos baseados no LLM, como o ChatGPT, o quadro é igualmente preocupante. Além de traduções erradas e falhas ou panes na tradução, os dados de treinamento também podem conter material tóxico que se infiltra no resultado da tradução.
Como evitar alucinações na tradução
Como você pode imaginar, as alucinações da tradução automática podem ser desastrosas para uma empresa, minando a confiança do usuário e causando graves problemas de segurança. Embora existam maneiras de tentar aperfeiçoar as máquinas em si, a única maneira testada e comprovada de corrigir as alucinações, sem sombra de dúvida, é com o toque humano – um tradutor humano real e profissional.
Usar a tradução humana não significa que você não possa usar a tradução automática como a primeira etapa de um grande projeto. Pelo contrário, você pode contratar um tradutor humano para fazer uma limpeza no “primeiro rascunho” da tradução automática, em um processo conhecido como pós-edição. Os pós-editores não apenas revisam e corrigem suas traduções automáticas, deixando-as com um alto padrão, mas suas retraduções também podem ser incorporadas à memória da própria máquina, melhorando seu “treinamento” para projetos futuros.
Para obter os melhores resultados, você deve procurar linguistas profissionais treinados especificamente em pós-edição de tradução automática, como nossos pós-editores especializados aqui na Trusted Translations, que seguem um processo rigoroso para garantir a qualidade de cada tradução.
Imagem de Enrique da Pixabay