De ontstaansgeschiedenis van machinevertaling in 't kort

Acht eeuwen later stelde Descartes een universele taal voor die vertrekt vanuit de parallellen tussen verschillende talen. Er volgden daarna nog aanzetten, steunend op onder andere Esperanto. Maar de meest concrete stappen in de ontwikkeling van machinevertaling werden tijdens de Tweede Wereldoorlog gezet, bij het ontcijferen van geheime code. Die methodes werden tijdens de Koude Oorlog verfijnd om Russisch in de mate van het mogelijke naar het Engels te vertalen. Achteraf kunnen we dat als de eerste, rudimentaire versie van rule-based machinevertaling beschouwen. De eerste echte machinevertaling werd dus voor spionagedoeleinden gebruikt.

Timehop zeventig jaar verder: de algemene evolutie binnen IT en computing heeft voor een ware revolutie gezorgd. Neural machine translation en deep learning zijn vandaag de voornaamste keywords, al bestaan er ook nog andere vormen van machinevertaling.

Soorten machinevertaling

RBMT (rule-based machine translation) haalden we hierboven al kort aan. Daarnaast heb je SMT of statistical machine translation. Tot slot is er nog de meest recente vorm: NMT or neural machine translation. Alle drie werken ze volgens volledig verschillende principes.

Rule-based machine translation: de brontaal coderen

Voor RBMT heb je drie ingrediënten nodig: een woordenboek van de brontaal waarin elk woord gelinkt wordt aan een woord in de doeltaal en de taalkundige regels voor zinsstructuren in de brontaal en in de doeltaal. Hoe uitgebreider de informatie, hoe hoger de kwaliteit van de output. Voer je een zin in de brontaal in, dan gaat de vertaalmachine eerst de grammaticale structuur analyseren, vervolgens de woorden vertalen op basis van de info in de woordenboeken en daarna die woorden in de grammaticale structuur van de doeltaal gieten. Het is dan ook makkelijk te raden waarom het toch nog zo vaak misgaat. Woordenboeken kennen meestal geen één-op-éénvertaling voor bepaalde woorden of houden bij de woordkeuze geen rekening met de context. Of de grammaticale structuur wordt fout geanalyseerd. Ook idiomatische zaken zoals uitdrukkingen en spreektaal worden bij RMBT meestal niet correct vertaald.

Statistische machinevertaling: corpora vergelijken

SMT of statistische machinevertaling tapt uit een heel ander vaatje. Bij SMT komen er geen woordenboeken of grammaticale regels aan te pas. Euh, wablief? SMT gebruikt corpora, zowel voor de brontaal als voor de doeltaal. Een corpus is een grote verzameling teksten over een afgelijnd onderwerp. SMT koppelt die corpora aan elkaar. Simpel gesteld, wordt elke zin in de ene taal gelinkt aan een zin in de andere taal. Door corpora met elkaar te vergelijken, leert de vertaalmachine hoe de twee talen zich ten opzichte van elkaar verhouden. Die informatie past hij vervolgens toe om andere teksten te vertalen. Helaas heb je gigantische hoeveelheden tekst nodig om corpora op te bouwen en verschillen sommige talen eenvoudigweg te sterk. Concreet: voor bepaalde talencombinaties werkt deze methode redelijk goed, voor andere is ze nauwelijks inzetbaar.

Neurale machinevertaling: deep learning

Na twee komt drie: NMT of neurale machinevertaling is de jongste en meest succesvolle telg van de familie. Sinds 2013 komt deze nieuwe vorm van machinevertaling sterk opzetten. Anders dan RMBT en SMT beroept het zich op neurale netwerken en deep learning. Er worden dus structuren gebruikt die je nog het best kan vergelijken met het menselijke brein. Bij NMT leert de vertaalmachine zichzelf vertalen door corpora te vergelijken. Ah, dus toch een beetje als SMT? Ja, maar met het verschil dat NMT de klus met veel minder data weet te klaren. Deep learning maakt hier het verschil. De resultaten zijn daardoor veelbelovender dan bij SMT en RMBT. Zijn er ook nadelen? De ontwikkeling van deep learningmodellen is peperduur. En die deep learning moet je nog steeds met een korrel zout nemen.

Hybride machinevertaling: de combinatie

Er is ook nog HMT of hybride machinevertaling, maar dat is niet meer dan een combinatie van verschillende soorten machinevertaling. Al levert het wel betere resultaten op. Als je zorgvuldig opgebouwde vertaalgeheugens koppelt aan machinevertaling, gaat de kwaliteit er sterk op vooruit.

Google NMT

Ook het vermelden waard: GNMT, waarbij de G voor Google staat. In 2017 maakte Google Translate een kwantumsprong door voor bepaalde talencombinaties eigen neurale vertaalnetwerken in het leven te roepen. Dat zorgde voor aanzienlijk betere vertalingen. Vandaag zijn het dus de Amerikaanse techgiganten die de scepter zwaaien. Maar hoe groot de vorderingen ook zijn, machinevertaling moet je nog steeds zien als een tool die je toelaat om enorme productiewinsten te boeken. Gigantische volumes vragen tegenwoordig om ondersteuning door machinevertaling. Maar je mag de post-editor (een menselijke vertaler) daarbij zeker niet over het hoofd zien. Zonder post-editing krijg je nog altijd minderwaardige kwaliteit en output die regelrecht op de lachspieren werkt. Lees een willekeurige machinevertaalde handleiding en je zal meteen merken dat er nog een lange weg af te leggen valt.

Maar wat met ‘echte’ taal?

Machinevertaling, zelfs in haar meest geavanceerde vorm, schiet nog altijd te kort bij ‘mooie copy’. Vlotte teksten, literatuur en commerciële copy lenen zich gewoonweg niet tot machinevertaling. Zodra taal echt taal wordt – en dus niet louter structuur en woorden – gaat de kwaliteit van machinevertaling regelrecht de dieperik in. Simpelweg omdat taal niet volledig in code te vatten valt. Nuances, streektaal, woorden met meerdere betekenissen, contextgevoelige begrippen, dubbele bodems en gevoel: alles wat taal menselijk maakt, gaat reddeloos verloren. Sommige pioniers in machinevertaling (Weaver, Bar-Hillel) geloofden er zelf niet in dat machinevertaling ooit in de buurt van menselijke vertaling zou komen. Voorlopig krijgen ze ook gelijk: de beperkingen van toen zijn nog steeds die van vandaag.

Conclusie

Machinevertaling is een geweldige productiviteitstool, zolang je maar weet dat de kwaliteit nog altijd een pak lager uitvalt dan bij een menselijke vertaler. Een goede post-editor is absoluut noodzakelijk om de output naar een aanvaardbaar niveau te tillen. Zelfs Google verklaarde in 2019 dat Google Translate geen concurrentie vormt voor de menselijke vertaler. Machinevertaling wordt al op grote schaal toegepast, maar dan vooral als hulpmiddel om grote volumes te verwerken. Onthou dus dat het de post-editor is die de kwaliteit garandeert. Zonder post-editing is er gewoon geen kwaliteit.

De volgende boutades zijn dan ook nog altijd populair bij de kwaliteitsspelers in de vertaalwereld:
‘Vertalers die vervangen kunnen worden door machines verdienen het om vervangen te worden’ en
‘Machines vertalen woorden, mensen vertalen taal’.

Machinevertaling: van Al-Kindi tot de Koude Oorlog