Robots dromen misschien niet, maar hallucineren wel. Nu kunstmatige intelligentie de laatste tijd in het middelpunt de belangstelling van de media staat, is de neiging van op algoritmen gebaseerde technologie om materiaal te ‘hallucineren’, een primaire zorg geworden met betrekking tot het gebruik van AI, en dit is niet anders op het gebied van automatische vertaling.
In dit bericht onderzoeken we wat hallucinaties bij automatische vertaling zijn, waarom ze optreden en hoe u kunt voorkomen dat dit ernstige probleem uw potentiële vertaalprojecten beïnvloedt.
Wat zijn automatische vertalingshallucinaties?
Automatische vertaling maakt gebruik van computersoftware (meestal kunstmatige intelligentie of oplossingen voor automatisch leren) om tekst van de ene taal naar de andere te vertalen, in tegenstelling tot menselijke vertalingen. Hoewel automatische vertalingen kunnen helpen tijd en geld te besparen, kunnen deze machines helaas ook hallucinaties veroorzaken: vertaalresultaten die totaal geen verband houden met de oorspronkelijke invoer (en die vaak bizar zijn).
Uit een experiment met automatische vertaling bleek bijvoorbeeld dat het gebruikte model compleet nieuwe verhalen hallucineerde. De oorspronkelijke zin was een verklaring over een aanhoudende staking in Colombia; Nadat deze eerst Google Translate naar het Marathi had doorlopen en vervolgens door de automatische vertaler weer naar het Engels was vertaald, werd de zin een zeer afwijkende verklaring over Amerikaanse kinderen die bij de Jehovah’s Getuigen dienden. Zoals dit voorbeeld illustreert, kunnen hallucinaties vooral vaak voorkomen bij het vertalen vanuit het Engels naar minder vaak gebruikte talen, waarover het systeem mogelijk niet zoveel betrouwbare gegevens heeft.
Waarom komen hallucinaties voor?
Sommige neurale automatische vertalingshallucinaties (NMT) worden veroorzaakt door ‘inputverstoring’, of door een onverwacht element van de input die daardoor de output aantast. De invoer kan een typefout, een eigenzinnige stijl, een ongewoon woord of een woord bevatten dat gewoonweg niet wordt meegenomen in het model.
Andere hallucinaties komen voort uit onderliggende problemen met de gegevens die worden gebruikt om het model te trainen. Onderzoekers hebben bijvoorbeeld ontdekt dat sommige modellen problemen hebben met het met over-memoriseren van zinnen, dat wil zeggen zinnen die op zodanige wijze door het systeem worden onthouden dat het deze zinnen elke keer op precies dezelfde manier wil herhalen, zonder de context of het idioom te herkennen. Een grote hoeveelheid “ruis” in de trainingsgegevens, te veel foutieve of verkeerd uitgelijnde paren tussen bron- en doelzinnen, kan ook leiden tot hallucinaties.
En als het gaat om op LLM gebaseerde modellen zoals ChatGPT, is het beeld net zo verontrustend. Naast niet-doelgerichte vertalingen en vertaalproblemen of -fouten, kunnen trainingsgegevens ook schadelijk materiaal bevatten dat in de vertaaluitvoer sluipt.
Hoe vertalingshallucinaties te voorkomen
Zoals u zich kunt voorstellen, kunnen hallucinaties van automatische vertalingen rampzalig zijn voor een bedrijf, waardoor het vertrouwen van de gebruiker wordt ondermijnd en er ernstige veiligheidsrisico’s ontstaan. Hoewel er manieren zijn om de systemen zelf te verfijnen, is de enige beproefde manier om hallucinaties zonder enige twijfel op te lossen, de menselijke inbreng: een echte, professionele menselijke vertaler.
Het gebruik van menselijke vertaling betekent niet dat u automatische vertaling niet kunt gebruiken als eerste stap in een groot project. In plaats daarvan kunt u een menselijke vertaler inhuren om de “eerste versie” van de automatische vertaling op te schonen in een proces dat post-editing wordt genoemd. Post-editors zullen niet alleen uw automatische vertalingen beoordelen en corrigeren en ze naar een hoog niveau brengen, maar hun nieuwe vertalingen kunnen ook worden opgenomen in het geheugen van het systeem zelf, waardoor de “training” voor toekomstige projecten wordt verbeterd.
Voor de beste resultaten moet u professionele taalkundigen zoeken die specifiek zijn opgeleid in de nabewerking van automatische vertalingen, zoals onze deskundige postredacteuren bij Trusted Translations, die een rigoureus proces volgen om de kwaliteit van elke vertaling te garanderen.
Afbeelding door Enrique van Pixabay