“We denken na over Nederlandstalig ChatGPT”

Interview | door Michiel Bakker
6 maart 2023 | Minder dan één procent van de data die ChatGPT gebruikt is Nederlandstalig. Daarnaast is het moeilijk om bij Microsoft achter de voordeur te kijken en te weten hoe het zit met de borging van publieke waarden. Moet het Nederlands hoger onderwijs dan niet zelf een taalmodel ontwikkelen? Dat is geen gek idee, zeggen Bertine van Deyzen en Thomas van Osch van SURF. Voor inspiratie kan men naar Frankrijk kijken.
SURF-experts Duuk Baten, Thomas van Osch en Bertine van Deyzen.

Bijna iedereen in het hoger onderwijs werd overvallen door de plotselinge komst van ChatGPT. Niet onbegrijpelijk, want de meesten houden zich niet dagelijks bezig met kunstmatige intelligentie. Hoe ging dat echter bij SURF, de ICT-coöperatie voor onderwijs en onderzoek? ScienceGuide sprak met Bertine van Deyzen (projectmanager AI in Educatie) en Thomas van Osch (adviseur high performance machine learning) over hun kijk op ChatGPT in het bijzonder en taalmodellen in het algemeen.  

Vooral gebruiksvriendelijkheid ChatGPT is bijzonder 

“Toevallig heeft een programmamanager bij ons afgelopen zomer al gezegd dat hij meer en formeler naar taalmodellen wil gaan kijken. Toen was nog niet iedereen overtuigd van de urgentie daarachter, maar de komst van ChatGPT heeft dat flink veranderd”, vertelt Van Deyzen. “Het stond dus al wel op onze radar, maar ChatGPT is vooral bijzonder omdat het zo’n toegankelijk voorbeeld van kunstmatige intelligentie is.” 

Het model achter ChatGPT is dan ook niet nieuw. “Een voorloper ervan is al in 2019 gepubliceerd”, vertelt Van Osch. “We wisten dus al wel waarmee we te maken hadden, hoewel het huidige model honderd keer meer parameters heeft dan het model van toen. Dat betekent, kortom, dat het honderd keer zo krachtig is.”  

Bij inschrijving ga je akkoord met onze privacy-voorwaarden. Deze voorwaarden zijn hier te lezen.

De wekelijkse nieuwsbrief is nog korte tijd gratis te ontvangen. De voorwaarden vindt u hier.

De grootste prestatie zit echter niet in de toegenomen kracht maar in de natuurlijke interactie met de gebruiker. “Google, bijvoorbeeld, had ook al een taalmodel. Dat is zelfs groter dan het model onder ChatGPT, maar Google’s model was niet bedoeld voor communicatie. ChatGPT is daarentegen heel uitgebreid getraind door mensen die steeds hebben teruggekoppeld of iets goed was of niet. Dat wil Google nu ook kunnen.” 

De vrij plotselinge en niet geheel soepel lopende introductie van Bard, Google’s wapen in de taalmodellenstrijd, toont wellicht dat ook Google de slagkracht van ChatGPT niet vermoedde. Bard is daarnaast binnen Google zelf ontwikkeld, en niet, zoals ChatGPT, door een start-up. De kans op directe imagoschade was voor Google dus veel groter dan voor een extern bedrijf waarin Microsoft investeert, duidt Van Osch. Bard wordt dan ook alleen intern getraind. “Daar zijn mensen gesommeerd om nú al hun projecten te laten liggen en nu alléén maar met Bard bezig te zijn.” 

Taalmodel draait om voorspelling 

Taalmodellen waren in eerste instantie bedoeld voor makkelijkere taken zoals het samenvatten of vertalen van een tekst, vertelt Van Osch. “In essentie draait ChatGPT puur om, gegeven een zin, het volgende woord te voorspellen. Hoewel er nu kanttekeningen worden geplaatst bij de originaliteit en het programma soms vulgaire teksten genereert, was het doel van dit soort modellen basaler, zonder kwaadwillende bedoelingen.”  

Een toepassing die een tekst samenvat is immers hartstikke handig, aldus Van Osch, maar inmiddels zijn sommige taalmodellen veel uitgebreider. “Ze worden daarnaast groter en beter door het gebruik van internetdata, oftewel data die wij zelf genereren. De output van bijvoorbeeld ChatGPT komt voort uit ónze input. Die is dus te manipuleren. Bij het trainen van de data is wel een zorgvuldig filter voor bijvoorbeeld vulgaire uitingen gebruikt, maar misinformatie is een stuk lastiger op te sporen.” 

Zowel Google als OpenAI houdt wel heel bewust een ‘human in the loop’ van de ontwikkeling, zegt Van Deyzen. Zo proberen ze te voorkomen dat het algoritme wordt gevoed door bijvoorbeeld een internettrol die onwaarheden geeft. “Niettemin is het heel moeilijk te ondervangen. Zo’n model weet zelf niet wat het zegt of hoort, dus soms kun je het wel iets verkeerds laten zeggen als je het in bijvoorbeeld een liedtekst vraagt.” 

Onduidelijk wat bij Microsoft achter voordeur gebeurt 

Vanuit het onderwijs heeft Van Deyzen zowel de schrik als het voorzichtige enthousiasme meegekregen. “Natuurlijk zaten docenten in over de validiteit van hun toetsen, maar er waren ook docenten die vooral kansen zagen. ChatGPT werd bijvoorbeeld vergeleken met een rekenmachine; die heeft destijds ook veel discussie teweeggebracht”, vertelt ze. 

Ook de verhouding van zo’n AI-toepassing tot publieke waarden roept veel vragen op. Dat bleek al uit opmerkingen van SURF-adviseur Duuk Baten tijdens een debat over ChatGPT bij Saxion. “Willen we dit eigenlijk wel in het publieke onderwijs? Om ons heen zien we landen die het gebruik van Google of Microsoft binnen scholen verbieden. Moeten we dan misschien zelf iets maken?” 

Het is heel lastig om erachter te komen wat Microsoft precies doet

Zo is voor velen onduidelijk hoe het zit met de transparantie en de dataverzameling bij Microsoft en OpenAI. Van Deyzen en Van Osch hebben alvast een antwoord. “Het is heel lastig om erachter te komen wat Microsoft precies doet, en zelfs als ze wel wat informatie geven is het heel moeilijk om te achterhalen wat er echt gebeurt. Bijvoorbeeld dat concept van ‘human in the loop’, dat kun je moeilijk reproduceren om te controleren of het ook echt werkt. Dat geldt overigens niet alleen voor Microsoft, hoor, maar daarover hebben we het nu.” 

Model achter ChatGPT kan taal en beeld combineren 

Wat de toekomst van ChatGPT betreft, hangt er nog veel mist voor de verte. “Er zijn geruchten dat het volgende GPT-model nog tig keer groter zal zijn. Er zijn echter ook geruchten die zeggen dat het kleiner maar wel beter zal zijn. Het is vooral de vraag hoeveel beter ze nog kúnnen worden. Ik denk dat ze voornamelijk bezig zijn met het implementeren van andere talen. Nu is negentig procent van de gebruikte data Engelstalig. De Nederlandstalige data beslaat minder dan één procent.” 

Tot nu toe waren de modellen voor taal en beeld nog heel verschillend, maar de nieuw ontwikkelde architectuur lijkt het mogelijk te maken om die twee te combineren

Echte verandering lijkt vooral uit het koppelen van verschillende modaliteiten voort te zullen komen. “Wat kunstmatige intelligentie in ChatGPT doet met tekst, kan ook met beeld. Je kunt een beeld laten genereren op basis van een stukje tekst. Tot nu toe waren de modellen voor taal en beeld nog heel verschillend, maar de nieuw ontwikkelde architectuur lijkt het mogelijk te maken om die twee te combineren”, aldus Van Osch. 

Vul je in de toekomst een titel in bij PowerPoint, dan maakt het algoritme daar meteen een plaatje bij, geeft Van Deyzen als voorbeeld. “Aan alle slides kan dan tekst en beeld, zowel stilstaand als bewegend, worden toegevoegd.” 

Vraag naar Nederlandstalig model 

De term ‘publieke waarden’ is al gevallen, de relatief kleine hoeveelheid Nederlandstalige data in grote taalmodellen is al genoemd. Moet het hoger onderwijs misschien zelf aan de slag met een taalmodel? Dat is een reële optie, denkt Van Deyzen. “We kunnen met huidige partners rond de tafel zitten en uitleggen dat onze publieke waarden echt geborgd moeten zijn, we kunnen ook kijken of we onze achterban alternatieven moeten aanbieden – bijvoorbeeld door samen met een start-up of intern iets te maken. Dat zal echter nogal wat kosten”, glimlacht ze. “Voor SURF ligt er in ieder geval een taak om dat te onderzoeken en neutraal advies te geven.” 

In Nederland is in ieder geval vraag naar een Nederlandstalig model, weet Van Osch. “We kunnen niet tegen Microsoft op, dus zó goed zal een Nederlandstalig taalmodel niet worden, maar er zijn zeker plannen om zoiets op nationaal niveau te ontwikkelen. Er wordt momenteel al actief onderzoek gedaan, niet alleen bij SURF; er zijn zelfs al zulke modellen, maar die zijn nog niet geavanceerd genoeg en zijn ontwikkeld door individuele partijen.” 

Frankrijk heeft al eigen taalmodel 

Een goed Nederlandstalig taalmodel vraagt om een bundeling van de krachten. Dat gebeurde ook rond de twintig miljoen euro kostende supercomputer Snellius, die SURF met grote hulp van het ministerie van OCW aanschafte. Zou twintig miljoen euro genoeg zijn voor zo’n Nederlands taalmodel? “Dat hangt af van de toepassingen waarvoor je het wilt gebruiken,” zegt Van Osch na enige aarzeling. “Tijd is echter zeker zo belangrijk als geld wanneer je een Nederlandstalig taalmodel wil maken dat met Nederlandstalige data is getraind. Die ‘humans in the loop’ hebben tijd nodig.” 

Tijd is zeker zo belangrijk als geld wanneer je een Nederlandstalig taalmodel wil maken dat met Nederlandstalige data is getraind

Als de concurrentiestrijd met grote tech-bedrijven op voorhand verloren lijkt, rijst de vraag of de ontwikkeling van een specifiek Nederlandstalig taalmodel zinvol is. Toch wel, denken Van Deyzen en Van Osch. “Het kan op heel veel manieren worden ingezet. Denk aan een student die professionele rollen moet oefenen en daarvoor een AI-toepassing in plaats van een docent of trainingsacteur kan gebruiken”, geeft Van Deyzen als voorbeeld.  

“Ook buiten het onderwijs kan het worden gebruikt, bijvoorbeeld om een vergadering op te nemen en alles om te zetten naar tekst, of om ingesproken opmerkingen van een verpleegkundige te verwerken in een patiëntdossier. Een specifiek Nederlandstalig model zal ook veel makkelijker bepaalde accenten of dialecten herkennen dan een model dat eigenlijk in een andere taal is getraind.” 

Een bredere inzetbaarheid biedt wellicht mogelijkheden om een bredere coalitie aan financiers te vinden. In Frankrijk heeft zo’n brede samenwerking al geleid tot de ontwikkeling van een taalmodel dat vergelijkbaar is met ChatGPT, weet Van Osch. “Dat is gigantisch, en het werkt goed. Misschien kunnen wij op nationaal niveau iets soortgelijks doen.” 

Michiel Bakker : 


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK