Onder de motorkap van de taal

Nieuws | de redactie
7 november 2012 | “Veel wetenschap draait om tekst. Veel tekst. Onderzoekers zitten met de vraag: hoe doorzoek je die snel en goed?” RU-hoogleraar Antal van den Bosch ontwikkelt taaltechnologie voor slimme zoeksystemen. Zo helpt hij bijvoorbeeld het ANP om het nieuws te voorspellen op basis van Twitter.

Theoretische taalwetenschappers zoeken de betekenisdragende eenheden van taal in een systeem dat uitgaat van woorden en een grammaticaal regelsysteem. Taal is echter ook uit andere elementen opgebouwd. Bij zijn oratie ‘Taal in uitvoering’ op 9 november gaat Antal van de Bosch in op deze elementen.

Betekenis zit in woordgroepen

“Als je onder de motorkap van zo’n programma kijkt, vallen veelvoorkomende woordcombinaties op die samen een specifieke betekenis hebben. Zoals ‘een eigen huis’, waarmee een koophuis bedoeld wordt. Dat staat er niet, maar dat betekent het wel. Die betekenis is niet af te leiden uit losse woorden of grammaticale regels. Taaltechnologie toont hier aan dat de betekenis van taal voor een belangrijk deel in woordgroepen zit verpakt.”

Volgens Van den Bosch wordt taaltechnologie regelmatig verweten een datagedreven wetenschapsgebied te zijn. Je hebt een berg data waar je wat vragen op loslaat en kijkt wat daar uitkomt. Die tegenstelling tussen theoretici en datagedreven onderzoekers is heel sterk aanwezig.

Praktische eScience toepassingen

“De ene onderzoeker die wil bewijzen dat zijn theorie klopt en de andere die onbevooroordeeld naar de data wil kijken, dagen elkaar uit en stimuleren,” stelt Van den Bosch. Zelf promoveerde de taalwetenschapper op een onderzoek over woorduitspraak: hij ‘trainde’ de computer om nieuwe woorden uit te spreken op grond van verschillende theorieën en concludeerde dat de computer met minder theorie tot betere resultaten kwam.

Het onderzoek van Van den Bosch leidt tot zeer praktische eScience toepassingen, dankzij integraties van alfa en bigdata-bèta-achtig onderzoek. Zo onderzoekt hij welke gezondheidsbevorderende communicatie goed, beter of juist helemaal niet overkomt en werkt hij samen met het Internationaal Instituut voor Sociale Geschiedenis aan een zoekfilter waarmee historici onderzoek doen binnen bronnen uit her verleden op zoek naar informatie over stakingen en arbeidsconflicten.

Dreigtweets en Rembrandt

Samen met onder andere de afdeling Kunstgeschiedenis van de Radboud Universiteit werkten Van den Bosch en zijn collega´s afgelopen jaar samen aan RemDoc, een digitale omgeving waarin onderzoekers elke snipper tekst over Rembrandt kunnen raadplegen. Gesprekken over een vergelijkbaar systeem voor teksten over Jheronimus Bosch worden momenteel gevoerd.

Ook het ANP en het Korps Landelijke Politiediensten (KLPD) maken gebruik van de expertise van Van den Bosch. Een zoeksysteem moet de persdienst helpen met het voorspellen van het nieuws op basis van Twitter en voor de politiediensten wordt een zoeksysteem naar dreigtweets ontwikkeld. 


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK