• A
  • A
  • Een computer die taal echt snapt

    - “Woorden die we het meest gebruiken, hebben de meeste betekenissen.” Spinoza-winnaar Piek Vossen (VU) ontwikkelt een computer die de betekenis van taal begrijpt. “Constateren, interpreteren en uiteindelijk communiceren, dat is waar de software naar toe moet.”

    Hij was eigenlijk een bèta, maar het werd toch een alfastudie, alwaar hij de fascinatie voor bèta terugvond in het vakgebied ‘computational lexicology’. Geen hele gebruikelijke combinatie en dus treedt Vossen regelmatig op als verbinder tussen informatici en taalwetenschappers. “Het duurt vaak wel even voor die partijen elkaars taal spreken. Wij zijn daarin zowel een technische als een conceptuele intermediair.”

    Twee miljoen berichten per dag

    Het doorgronden van taal is een proces waarin big data een grote rol speelt. Niet alleen wil Vossen de taal als geheel doorgronden, tegelijkertijd is hij voor de EU bezig met het indexeren van financieel nieuws in het Spaans, Italiaans, Engels en Nederlands om daaruit een ‘geschiedenisrecorder’ te ontwikkelen. “We willen een systematiek ontdekken in hoe bronnen over bepaalde dingen schrijven. Welke opinies er in teksten zitten, wat bewust wel of niet wordt weggelaten in teksten.”

    “We werken samen met de nieuwsdatabase LexisNexis. Volgens hen komen er per werkdag twee miljoen nieuwe berichten bij,” legt Vossen uit. De VU-hoogleraar en zijn team hebben daarom forse computerkracht nodig om dat te verwerken. “We zijn nu bezig met een aanvraag bij SARA en het eScience Center. We willen graag alles ‘what it takes’ om zo’n infrastructuur op te tuigen. Wat ons betreft gebruiken we daarbij alle mogelijke uren, denkkracht en snelheid die er voorhanden is.”

    Computermodel om tekst te begrijpen

    Een geschiedenisrecorder is een onderdeel, maar uiteindelijk wil Vossen toe naar “een computermodel dat teksten zeer minutieus bestudeert en interpretatie-gestuurd bekijkt vanuit welk oogpunt die teksten worden opgeschreven.” Gekoppeld aan meer perceptuele interpretatie moet dit uiteindelijk leiden tot een veel meer “holistische benadering,” zegt Vossen. “Constateren, interpreteren en uiteindelijk communiceren, dat is waar de software naar toe moet. Het is moeilijk die ambiguïteit in kaart te brengen. We zitten nu op 60/70%. Dat moet minimaal naar tachtig.”

    Vossen die zelf jarenlang in het bedrijfsleven werkte aan het optimaliseren van zoekmachines, kent nadrukkelijk ook de bètakant van zijn werk. “Daar heb ik ook echt leren programmeren.” Vossen vertrok uit de academische wereld na een hoop gedoe rond aanstellingen en onzekerheden. “Het kwam er op neer dat ik mezelf vaak moest aanstellen en aan het eind van een project weer moest ontslaan. Daar had ik op een gegeven moment genoeg van.”

    Nieuwe toepassingen bedenken

    Werkend voor een start-up in de wereld van zoekmachines leerde Vossen anders naar zijn werk kijken. “In de academische wereld worden kunstmatige experimentele opstellingen heel nauwgezet gevolgd. Nu werkte ik met echte data en hoefde ik opeens bepaalde dingen helemaal niet meer eerst op te lossen, ik kon het gewoon uitstellen. Het is ook gewoon heel leuk om nieuwe toepassingen te mogen bedenken.”

    In 2006 keerde Piek Vossen terug als hoogleraar aan de VU. “Met een Spinoza-premie heb ik nu een perspectief van vijf jaar. Het is belangrijk dat we op een fundamentele manier kijken hoe we verder vooruit kunnen komen.” Want die blik vooruit én reflecterend achteruit daar wil het in de academische wereld nog wel eens aan schorten, ziet Vossen.

    Ruimte voor theorievorming

    “Bij subsidieaanvragen moet tegenwoordig altijd een maatschappelijke component zitten, anders krijg je geen geld. Ikzelf heb het niet zo nodig om steeds met m’n neus op de maatschappij gedrukt te worden, maar ik zie wel dat dit soms nodig is. Overigens zie ik dat het bij jonge onderzoekers helemaal niet meer zo nodig is om dit af te dwingen, die hebben dat vaak zelf wel.”

    Tegelijkertijd benadrukt Vossen dat er op universiteiten wel ruimte moet blijven voor een bredere blik. “Eigenlijk zou er ook subsidie moeten zijn voor theorievorming. Het is niet slecht dat mensen uit hun hokjes worden gehaald, maar je moet ze ook op andere manieren zien te prikkelen.”

    “Juist de reflectie op waar we de laatste vijf jaar mee bezig zijn geweest, is belangrijk. Het dwingt je om even stil te staan bij een vraag als ‘komen we zo eigenlijk wel verder?’ Dat is tegenwoordig een moeilijk punt. Jonge onderzoekers moeten veel publiceren en ondertussen een nieuwe baan zoeken voor na hun promoveren, waar ze ook nog hun ideeën in kwijt kunnen.”

    Die ruimte krijgt Vossen zelf wel, nu hij de hoogste Nederlandse wetenschappelijk onderscheiding heeft gekregen. “Ik heb nu meer de tijd dieper in te gaan op de hedendaagse informatie in taal. De soorten taalgebruik die we hebben zijn veel diverser dan we zelf eigenlijk denken. Echte taalherkenning door computers. Ik hoop dat we daar in vijf jaar naar toe kunnen.” 

    Piek Vossen is één van de sprekers op het eScience Symposium op 7 november in Amsterdam. Meer informatie hier