In een wereld die gestaag globaliseert en elke dag sneller draait, lijdt het weinig twijfel dat automatische vertaling niet meer weg te denken is. Ondanks alle hoongelach over automatische vertalingen zijn taal-apps op basis van neurale netwerken (onderling verbonden computersystemen die menselijke denkprocessen nabootsen) nog steeds onverslaanbaar qua snelheid (onmiddellijk) en kosten (gratis).
Geen enkel algoritme kan echter nog het menselijk brein vervangen, laat staan de gevoeligheid voor context en idiomatische uitdrukkingen (“it’s raining cats and dogs”)(“het regent katten en honden”) van professionele vertalers.
Snel, gratis, en gebrekkig-maar het groeit
Dankzij de invloed van internationale organisaties (zoals de Verenigde Naties) en meertalige instellingen (zoals het Europees Parlement) worden al meer dan vijftig jaar enorme hoeveelheden parallelle gegevens opgebouwd in enorme databanken. Het was echter pas in het tweede decennium van de 21 e eeuw―met de komst van diepe neurale netwerken (DNNS)―dat al deze door mensen vertaalde documentatie meer praktisch kunnen worden gebruikt.
Gebruikmakend van deze taalkundige schatkamers, hebben een aantal grote technologische spelers gratis vertaalplatforms ontwikkeld, zoals:
- Google Translate: (133 talen) Geraadpleegd door meer dan 500 miljoen dagelijkse gebruikers, waarbij Engels, Spaans, Arabisch, Russisch, Portugees en Indonesisch het meest gebruikt worden, terwijl Bengaals, Haïtiaans Creools en Tadzjiek achteraan blijven hangen;
- Microsoft’s Bing Translator: (103 talen) Een cloud-service die deel uitmaakt van Microsoft Cognitive Services, en geïntegreerd is in meerdere producten, waaronder Bing, MS Office, Edge, Skype, en Windows, maar ook Apple- en Android-apparaten;
- DeepL: (28 talen) Deze zoekmachine breidt zich nu vanuit zijn Europese basis uit tot het toevoegen van talen van over de hele wereld; het is gebaseerd op een gigantisch corpus van door mensen vertaalde zinnen, idiomen en fragmenten in het Linguee online woordenboek.
Het verbreden van de focus
Die in eerste instantie afhankelijkheid van deze digitale goudmijnen van parallelle data verklaart misschien waarom automatische vertaling momenteel Europese talen als Fins omvat (vijf miljoen sprekers), terwijl 48 miljoen Ethiopiërs die Oromo spreken worden genegeerd. Andere moedertalen die nog steeds in technologisch ongewisse verkeren zijn Bhojpuri (51 miljoen), Fula (24 miljoen), Sylheti (11 miljoen), en Kirundi (9 miljoen).
Deze situatie is echter aan het veranderen, met toegevoegde vertalingen die het bereik van machinevertaling uitbreiden. Zoals Carl Rubino, programmamanager bij IARPA (US Intelligence Services Research Center), opmerkt: “Veel van de uitdagingen waarmee wij vandaag worden geconfronteerd, zoals economische en politieke instabiliteit, de Covid-19 pandemie en klimaatverandering, overstijgen onze planeet en zijn dus meertalig van aard.”
Levens redden via talen
Aangezien deze uitdagingen vaak het zwaarst wegen voor kansarme gemeenschappen die het minst zijn toegerust om ze het hoofd te bieden, wordt onmiddellijke maar nauwkeurige communicatie snel een zaak van leven of dood. Terwijl de output van menselijke vertalers belemmerd wordt door fysieke beperkingen, kunnen computers 24/7 draaien op bovenmenselijke snelheden. Zij kunnen non-stop analyses, verslagen en richtsnoeren uitdraaien die misschien grammaticaal niet perfect zijn, maar wel geschikt zijn voor dringende gevallen.
Dit is de echte waarde van het uitbreiden van het bereik van automatische vertalingen. Door onmiddellijke communicatie over taal- en cultuurgrenzen heen mogelijk te maken wanneer levens en bestaansmiddelen op het spel staan, bieden deze gezichtsloze algoritmen reddingslijnen aan voor low-tech gemeenschappen die vechten om te overleven in ongunstige omstandigheden.
Talen met weinig informatiebronnen
Hoewel ze door miljoenen mensen worden gesproken, zijn er in veel talen maar weinig (en vaak eentalige) schriftelijke bronnen, ondanks hun rijke mondelinge tradities. Voor diepe neurale netwerken zijn deze lage-resource talen――zoals ze bekend staan in de industrie moeilijk aan te pakken. Ondertussen uploaden sprekers van deze tongen vol druk berichten en blogs die het voortbestaan van hun samenlevingen kunnen garanderen, ondanks hun traditionele gebrek aan records en boeken.
In historische termen waren meertalige bronnen onder sommige van deze culturen vaak beperkt tot beperkte datasets die werden geleverd door op geloof gebaseerde literatuur, met name heilige boeken die breed werden vertaald, zoals de Koran en de Bijbel. In modernere tijden bouwen geprinte media, audiovisuele media en sociale netwerken solide voorraden op van eentalige gegevens die kunnen worden geanalyseerd en vertaald door grondige neurale netwerken.
Sociale netwerken die communautaire veiligheidsnetten inbouwen
Moderne neurale netwerkmodellen kunnen nu vooraf worden getraind met gesproken en geschreven eentalige bronnen. De theorie is dat neurale modellen bepaalde kenmerken en structuren van de menselijke taal hebben geleerd, die tot stand zijn gekomen door parameters die nu worden toegepast op vertaalopdrachten.
Nu gebruikers over de hele wereld content plaatsen die vaak redelijk repetitief is over culturele grenzen heen en in hun moedertaal, kunnen neurale modellen nu teksten voor gebruikers samenvatten. Om dit te doen lijken deze apps zeer weinig tweetalige training van parallelle data nodig te hebben, waarbij een paar honderdduizend woorden (misschien ongeveer een half dozijn romans) genoeg zijn.
Kortom: Met zo’n 7.000 talen die wereldwijd gesproken worden (waarvan slechts ongeveer 4.000 geschreven), hebben virtuele vertaalapps nog enorme ruimtes open voor uitbreiding. Van gezondheidszorg tot landbouw, het overbruggen van taalkundige en culturele kloven door automatische vertaling is duidelijk de weg naar een betere toekomst voor de mensheid – maar altijd met de helpende hand van professionele vertalers, die niet alleen deskundig zijn in meer dan één taal, maar ook in meer dan één cultuur.
Afbeelding door Yatheesh Gowda from Pixabay