Verliezen vertalers hun baan aan universele vertaalmachines?


In de verre scifi-toekomst heeft iedereen een mobiel apparaat dat je stem binnen no-time kan omzetten in een taal die iedereen overal kan verstaan. Vandaag de dag is het helaas nog erg moeilijk om zoiets werkend te krijgen. Toch zijn zowel Microsoft als Google druk bezig om van real-time vertaling een realiteit te maken.

Microsoft heeft bijvoorbeeld een nieuwe functie getest, Skype Translator, waarbij Spaans in real-time wordt omgezet naar een gesproken Engelse zin (en vice-versa) tijdens een spraak-video-oproep. Google, dat natuurlijk niet achter kan blijven, zal binnenkort zijn Google Translate-app updaten met de mogelijkheid om te detecteren of iemand aan het praten is een populaire vreemde taal, om dit vervolgens in real time in tekst te vertalen.

Heel interessant allemaal, maar het snel en accuraat vertalen door een computer staat nog in de kinderschoenen. “De reden dat real-time vertalen zo moeilijk is, is omdat er zoveel verschillende mogelijkheden zijn,” zegt Gerald Penn, medevoorzitter bij de faculteit voor computerwetenschap aan de Universiteit van Toronto en specialist in natuurlijke taalverwerking. In een modern spraakherkenningssysteem is een computer meestal getraind op een specifiek taalmodel – in principe een database van wat mensen waarschijnlijk het meest zeggen en in welke volgorde. Met behulp van dit model verzamelt de computer de ingesproken data uit de microfoon en probeert te raden wat er werd gezegd.

“Dit systeem is er niet op gebouwd dat het direct een gok waagt,” legt Penn uit, “maar om eerst bewijsmateriaal te verzamelen, dit te rangschikken en het van een bepaalde score te voorzien.” De uitdaging zit ‘m in het feit dat dit proces zo snel en nauwkeurig mogelijk moet verlopen en het de illusie wekt dat er een echt gesprek wordt gevoerd, waardoor het lijkt alsof de vertaling in real-time gebeurt.

Eén van de reden dat huidige spraakherkenningsoftware – zoals Google’s Voice Search of Apple’s Siri – zo snel spraak kunnen herkennen en omzetten in tekst is dat de zoekruimte beperkt is, volgens Penn. Met andere woorden: mensen zijn erg geneigd om een beperkt aantal woorden te gebruiken wanneer ze iets zoeken. Google’s taalmodel is daarom ook hier op toegespitst.

Er zitten niet alleen minder woorden die herkend moeten worden in het systeem– wat betekent dat het systeem sneller een keuze kan maken – maar de spraakinput is vaak ook van hoge kwaliteit. Mensen spreken langzamer en articuleren beter wanneer ze tegen een machine praten.

In een taalscenario is het verwerken en herkennen van spraak echter veel complexer. Het meest voor de hand liggende verschil is dat de computer getraind moet worden op een grotere woordenschat en model van normale spraak, in plaats van een beperkt taalmodel dat alleen zoektermen bevat. Het gevolg hiervan is dat het zoekgebied erg groot kan worden en het aantal mogelijkheden dat bekeken moeten worden enorm. Volgens Penn is de uitdaging om uit te zoeken hoe groot dit zoekgebied kan zijn – de hoeveelheid voorspellingen die het systeem in één keer kan verwerken en hoeveel gerangschikte oplossingen deze in zijn geheugen kan opslaan. Er zal in dat geval een balans moeten worden gevonden tussen snelheid en accuraatheid.

Dan is de audiokwaliteit ook nog een probleem, omdat gesprekken tussen twee mensen niet vaak op een stille plek worden gehouden. Er kunnen achtergrondgeluiden zoals een schreeuwend kind of een sirene zijn. Misschien bevindt een van de gesprekspartners zich te ver van de microfoon, of is zijn of haar uitspraak van een woord niet helemaal perfect. Over het algemeen spreken mensen met elkaar veel sneller dan wanneer ze tegen een computer praten. “Al deze dingen kunnen zorgen voor fouten in wat gedetecteerd wordt,” zegt Penn.

Daarnaast is de vertaling zelf ook nog een grote uitdaging. Vertalingen zijn nu al redelijk goed wanneer je een volledige zin of paragraaf uit een tekst invoert. Maar bij real-time vertalen is dat natuurlijk niet het geval, en je kunt de vertaalmachine niet woord voor woord laten vertalen. Binnen taal is namelijk de context het belangrijkste sleutelelement. Hoe sneller een spraakherkenningssysteem series van woorden kan herkennen en deze accuraat kan vertalen, hoe sneller de vertaling kan plaats vinden.

Ondanks dit alles is de prestatie van Google en Microsoft niet gering. Ook al is de ervaring, zoals Quentin Hard van de Times beschreef, “een beetje alsof twee telemarketeers over een walkietalkie aan het praten zijn”, het is een glimp van wat er nog komen gaat. Of zoals Google Translate zou zeggen, “es una tentadora idea de lo que está por venir.”

Door Matthew Braga, Motherboard