‘Naïef gebruik kunstmatige intelligentie bedreigt hoger onderwijs’

Nieuws | door Janneke Adema
5 oktober 2022 | Wetenschappelijke papers worden in de toekomst misschien wel automatisch gegenereerd aan de hand van een aantal kernwoorden. Met big data en een slim algoritme bepaalt een computerprogramma of een scriptie goed is of niet. De vraag naar wat ‘echt’ en wat ‘nep’ is dient zich aan voor de wetenschappelijke praktijk en het onderwijs.
Beeld: gegenereerd door NightCafe creator met de tekst ‘Volvo crashing on highway’

De Dag van Praktijkgericht Onderzoek, georganiseerd door de Hogeschool Rotterdam, stond dit jaar in het teken van kunstmatige intelligentie (KI). Deze veelbelovende techniek brengt grote risico’s met zich mee, waarschuwen verschillende lectoren in het galmende Hulstkamp Gebouw. Naïef gebruik, algorithmic bias, privacyproblemen en programma’s gestuurd door menselijk oordelen bedreigen het onderwijs en de integriteit van de wetenschap. 

De opmars van digitalisering en KI vraagt om een ethische opheldering, betogen Florian Cramer en Jelle van Baardewijk, beide lector aan de Hogeschool Rotterdam. Volgens communicatiewetenschapper Marshall McLuhan beïnvloedt het communicatiemiddel namelijk op een essentiële manier de inhoud van de boodschap. “Een bekende frase van hem is: the medium is the message,” legt Van Baardewijk uit. Zo betoogde communicatiewetenschapper Neil Postman, een leerling van McLuhan, dat de opkomst van de televisie een culturele verandering zou inluiden omdat het medium ’televisie’ als zodanig de boodschap vormt die iemand via beeld wil overbrengen – sneller, appellerend aan het zicht en in essentie gericht op vermaak. 

Tijdschriften 

Dit gaat ook op voor de mogelijke invloed van kunstmatige intelligentie op de wetenschap. “We hebben verschillende technologische revoluties gehad die niet alleen maar instrumenteel waren, maar die de inhoud van het onderzoek zélf veranderden. De bekendste is de uitvinding van de boekdrukkunst.” Kunstmatige intelligentie zal volgens Van Baardewijk dan ook grote gevolgen hebben voor de manier waarop wetenschap gedaan zal worden. Een voorbeeld is de citatiegemeenschap van een onderzoeker. “Nu heeft dat te maken met waar je hebt gestudeerd, bij wie je bent gepromoveerd, wie je collega’s zijn en in welke tijdschriften je schrijft. Straks zullen we zien dat algoritmische keuzes jou in een hoek zetten en suggereren ‘zou je dat paper niet ook eens citeren?’”  

Bij inschrijving ga je akkoord met onze privacy-voorwaarden. Deze voorwaarden zijn hier te lezen.

De nieuwsbrief is exclusief toegankelijk voor medewerkers van onze partners.

Onderzoekers van de Universiteit Leiden en de Radboud Universiteit waarschuwden eerder in ScienceGuide al voor dubieuze onderzoekspraktijken. Van Baardewijk waarschuwt er daarnaast voor dat praktijkgericht onderzoek vanwege algorithmic bias benadeeld kan worden als algoritmes meer invloed krijgen in de citatiepraktijken van onderzoekers. “Er is een risico dat bijvoorbeeld vooral theoretische tijdschriften steeds worden gepusht door die algoritmes, terwijl de praktijk-georiënteerde tijdschriften buiten het algoritme vallen.” 

Mensen identificeren 

Cramer wijst erop dat voorbeelden van beïnvloeding door algoritmes ook nu al makkelijk te vinden zijn. “Als ik ‘Algorithmic Bias’ google, dan krijg ik andere resultaten dan Jelle. Als we op basis hiervan ons onderzoek zouden doen, krijgen we andere resultaten.” Volgens de lectoren is er nog erg veel naïviteit op dit gebied, ook onder studenten. 

Deze naïviteit heeft mogelijk al gevolgen voor het hedendaagse onderzoek. Onderzoekers die verbale getuigenissen verzamelen maken vaak gebruik van transcriptieprogramma’s zoals HappyScribe of Simon Says. “Die transcriptie is heel handig”, geeft Cramer toe. “Maar ze geven veel privacyproblemen omdat de opnames en teksten op de servers van die bedrijven worden geüpload en opgeslagen.” 

Als deze opnames in de kwaadwillende handen vallen zouden de consequenties groot kunnen zijn. “Het is mogelijk om doormiddel van spraakherkenning en gezichtsherkenning mensen te identificeren. Dat is een probleem voor de onderzoekspraktijk”, waarschuwt Cramer. “Volgens de privacyregels mogen we eigenlijk geen gebruik maken van deze diensten.” 

Bias in de dataset 

Recente ontwikkelingen op het gebied van kunstmatige intelligentie dwingen ons na te denken over wat echt is en wat nep. Generatoren die gebruik maken van kunstmatige intelligentie om beelden te maken krijgen nu veel aandacht, vertelt Cramer. Programma’s als DALL E 2 en Stable Diffusion maken nieuwe beelden van een ingevoerde tekst door afbeeldingen van het internet te combineren. Echter, het gebruik van deze beelden is juridisch gezien dubieus omdat er ook gebruik wordt gemaakt van beelden zonder licentie.  

Een ander probleem is opnieuw algorithmic bias. “Als ik ‘twee meisjes’ intoets, krijg je alleen witte meisjes. Dat is een goed voorbeeld van hoe zo’n algoritmische machine vertekeningen hebben door de vertekeningen en de bias die in hun dataset zit”, aldus Cramer. 

Wat is de deductie? 

Het is mogelijk, en in de toekomst misschien zelfs gebruikelijk, om wetenschappelijke papers automatisch te genereren met een dataset en een aantal kernwoorden. “Deze generatoren zijn aantrekkelijk als je grote hoeveelheden data wilt analyseren”, zegt Cramer. “Maar het probleem is dat deze toepassingen black boxes zijn.” 

“Dan is de vraag wie de auteur is en wat academische kennis is”, voegt Van Baardewijk toe. “Goed onderzoek bestaat uit feitelijk onderzoek waarin een robuuste methode theoretisch geïnterpreteerd wordt. Als iets een patroonherkenning heeft, dan is dat nog geen systematische analyse. Bovendien is patroonherkenning niet per se transparant over de basering van het patroon.” 

Handmatig tentamen doen 

Overmatig gebruik van dit soort black boxes brengt het risico met zich mee dat de wetenschappelijke praktijk nog minder transparant wordt dan die al is. Journal Rankings zijn hier een goed voorbeeld van. “Dat zal nog duisterder worden, nog technischer. De vraag is hoe wij dat een antislag kunnen geven.”  

Dat geldt ook op het gebied van onderwijs. Van Baardewijk voorziet een toekomst waar studenten weer handmatig tentamen moeten doen. “Zodra het met de computer is, komt die nep-factor weer binnen. Je kunt makkelijk een paper laten schrijven dat aan de kwaliteitseisen zal voldoen. Dat is een dystopie en daar moeten we mee omgaan, daar moeten we ons vakmanschap opnieuw op loslaten om te voorkomen dat het zich te veel aanpast aan een platte technologie.” 

De haken en ogen van KI 

Ook Erik van Schooten, lector Taalverwerving en Taalontwikkeling bij Hogeschool Rotterdam, waarschuwt voor de black box van KI. “Als een onderzoeker een regressiemodel bouwt, dan weten we welke variabelen we erin stoppen en kunnen we zien hoe zwaar die variabelen gewogen worden om de voorspelling te optimaliseren. Dat is bij KI totaal anders.” 

Van Schooten legt uit dat een algoritme wordt getraind aan de hand van een criterium en een dataset. Die dataset bestaat uit voorbeelden die wel of niet aan het criterium voldoen en uiteindelijk kan het programma oordelen over nieuwe data. Dit kan bijvoorbeeld ingezet worden om te voorspellen hoe hoog de kans is dat een vrijgelaten gevangene opnieuw stafbare feiten zal plegen. “Je kijkt naar het criterium: of er recidive gepleegd wordt en het programma gaat vertellen of we deze gevangene vervroegd vrij moeten laten of niet. Daar zitten heel veel haken en ogen aan.” 

Discriminatie 

De gevolgen van een te groot vertrouwen in een dergelijk programma werden duidelijk in Washington in 2007. Om het onderwijssysteem te optimaliseren werden docenten beoordeeld naar aanleiding van de resultaten van hun leerlingen; docenten die het niet goed deden werden ontslagen. “Toen bleek later dat heel veel docenten in het basisonderwijs frauderen omdat zij ook werden afgeschreven op de prestaties van hun leerlingen”, zegt Van Schooten. “Die leerlingen gingen met verkeerde scores het vo in.” 

Het risico van KI zit niet alleen in fraudegevoeligheid. “Het risico zit vooral in het naïef gebruik van de technische mogelijkheden die we hebben”, vertelt de lector. Het programma dat oordeelde over gevangenen bleek harder te oordelen over zwarte gevangenen. “De data waarmee het programma werd getraind waren beslissingen van mensen. De oordelen waren, ‘deze persoon is terecht vrijgelaten’ en ‘deze is onterecht vrijgelaten’. Toen bleek dat dat programma mensen van kleur discrimineerde.” 

Theorieloos 

Van Schoten licht het probleem toe met een voorbeeld van een programma dat moet voorspellen welke verkeersdeelnemers te hard zullen rijden. “Stel je kijkt alleen naar mensen in een Volvo. Dan zul je meer mensen met een Volvo zien die een bekeuring krijgen. Ook als ze helemaal niet vaker te hard rijden zullen toch die mensen vaker een bekeuring krijgen omdat het systeem hen screent. Als je het systeem vervolgens opnieuw traint met de data waarin dat criterium zit, dan zal dat effect van die Volvo alleen maar erger worden.” 

“Zo’n black box is theorieloos. Omdat het variabelen pakt die niks te maken hebben met hetgeen we voorspellen maar toevallig wel daarmee samenhangen. Een mooi voorbeeld is schoenmaat en intelligentie. Je voeten groeien als je ouder wordt en je intelligentie groeit ook. Toch is het idee dat je slim wordt van grote schoenen een raar idee. Maar een KI-programma denkt niet, die kijkt gewoon, volkomen theorieloos, hoe kan ik optimaal voorspellen. En dat gaat heel ver.” 

Neutraal oordelen 

De risico’s van een verkeerde implementatie van KI zijn groot omdat de techniek op een grote schaal wordt ingezet. “Als het over een hele populatie een bepaalde groep ook maar een klein beetje bevoordeelt of benadeelt, dan is het door de schaal van de implementatie nog problematischer”, luidt een opmerking uit het publiek. In het geval van onderwijs klinkt er ook veel vertwijfeling of een programma wel in staat is om het werk van leerlingen en studenten goed te beoordelen. Wat nou als een scriptie duidelijk heel goed is, maar buiten de kaders van het programma valt?  

Maaike Harbers, lector bij Kenniscentrum Creating 010 van de HR, zet de discussie op scherp door hardop af te vragen of een algoritme überhaupt wel een neutraal oordeel kan geven. “Stel je hebt het over een scriptie en je vraagt ‘is die geslaagd of niet?’ Om zo’n algoritme te trainen moet er data in waarmee we een algoritme laten zien wat volgens ons een voorbeeld van een goede scriptie is en wat een voorbeeld is van een scriptie die niet goed is. Dat oordeel komt al van mensen. Een mens kan nooit objectief zijn, dus een algoritme ook niet.”