Digitale toetsen leveren veel data, maar wat is betekenisvol?

Nieuws | door Janneke Adema
20 april 2022 | Dankzij digitale toetsmethodes is het mogelijk om steeds meer over het gedrag en het denkproces van studenten tijdens tentamens te zeggen. Toch is niet altijd duidelijk welk gedrag aanduidt dat een student de stof echt goed beheerst, blijkt tijdens de Toetsconferentie van de HAN.
Foto: Laurensvanheerde

Tijdens de jaarlijkse Toetsconferentie van de HAN spraken Romy Noordhof en Marica Balk van Cito over dataverzameling bij toetsen. Aangezien digitale toetsmethodes steeds vaker worden ingezet, is het mogelijk om meer data over studenten te verzamelen dan alleen hun uiteindelijke toetsresultaat. Dit is niet alleen handig voor het opsporen van fraude, maar kan de docent ook iets vertellen over het denkproces achter een antwoord. Echter, studenten die de stof beheersen kunnen op veel verschillende manieren tot hun antwoord komen, aldus Noordhof en Balk.  

Plotseling duizend tekens in het antwoordveld 

“Studenten zijn eigenlijk een black box”, legt Balk uit. “We kunnen niet aan hun gezichten aflezen hoe vaardig ze zijn. We kunnen niet onder de motorkap kijken. Daarom hebben we een instrument nodig om die informatie te achterhalen.” Een docent kan diens studenten toetsen om te bepalen hoe vaardig ze zijn, maar het uiteindelijke resultaat bij een tentamen is ook afhankelijk van hoe de student zich op dat moment voelt en een al dan niet duidelijke formulering van de tentamenvragen. Daarnaast moet een docent zeker zijn dat er geen (grootschalige) fraude is gepleegd. “Wij willen kijken of we die black box doorzichtiger kunnen maken. Wat voor data verzamelen we nu en welke data kunnen we toevoegen?” 

Een manier om data toe te voegen is het vergelijken van tentamenresultaten van studenten. Als studenten die de toets goed maken een makkelijkere vraag toch vaak fout beantwoorden, kan dit aanduiden dat de vraag zelf niet goed is. Andersom kan een moeilijke vraag die goed beantwoord wordt door een minder vaardige student een aanduiding zijn van fraude. Zo kan de betrouwbaarheid van een toets worden bepaald. Toch is het lastig om direct conclusies te trekken uit een dergelijke vergelijking. “Soms wordt er direct gezegd, ‘er zit ergens een mismatch, de toets moet opnieuw.’ Maar de vraag is of je dat wel moet doen”, aldus Balk. 



Sinds digitale toetsing de norm is geworden, is er ook steeds meer data over het proces van de student beschikbaar – bijvoorbeeld hoe lang een student over verschillende vragen doet, hoe snel ze typt, hoe de muis beweegt of zelfs waar de student naar kijkt. Ook hier kan afwijkende data op fraude duiden, bijvoorbeeld wanneer veel studenten tegelijkertijd bij dezelfde vraag hun antwoord veranderen of als er plotseling duizend tekens in het antwoordveld verschijnen.  

Welke data zijn betekenisvol? 

Naast fraudedetectie kunnen deze data gebruikt worden om het denkproces van de student te achterhalen, aldus Balk en Noordhof. Een leeg antwoordveld kan erop duiden dat een student in tijdnood was of de vraag niet begreep; als de student wel even bij de vraag stilstond, heeft die de vraag waarschijnlijk wel gelezen en daarna besloten geen antwoord te geven. Er zijn zelfs toetssystemen die per student kunnen bepalen hoe lang ze gemiddeld over een vraag doen, om vervolgens vast te stellen of ze een vraag hebben gelezen of deze direct oversloegen. “Dat vind ik best spannend”, geeft Noordhof toe. “Je kunt van alles doen, maar je wilt heel bewust te werk gaan.” 

Daarom moeten docenten volgens Noordhof voorzichtig zijn met conclusies trekken uit deze data. “We hebben opeens heel veel data waar we verschillende bedoelingen achter kunnen zoeken”, zegt Noordhof. In plaats daarvan zouden we andersom moeten denken; welk proces laat een student al zien en welke data zijn betekenisvol. Toch zit er volgens Noordhof potentie in het verzamelen van data. Informatie over het denkproces van een student kan tijdens de les worden ingezet om de uitleg beter te laten aansluiten bij de behoefte van de student.  

‘Eerste ingeving is vaker juist’ 

“In de literatuur heerst de aanname dat als een leerling ergens heel lang over doet, die de stof waarschijnlijk niet goed beheerst; anders had die niet zo veel tijd nodig”, aldus Noordhof.  Toch leek een onderzoekje met een schakelschema het tegendeel te bewijzen; de leerlingen moesten een circuit kloppend maken door schakels toe te voegen en de leerlingen die het goed deden, bleken vaker even te pauzeren. “Eigenlijk is een korte pauze of een reflectiemoment een goede indicator voor de vaardigheid die een leerling heeft. Dus het is misschien helemaal niet zo dat iemand die ergens lang over doet niet vaardig is.” 

Volgens een andere aanname is het beter als een student bij twijfel diens antwoord niet verbetert. De eerste ingeving zou vaker juist zijn. Toch bleek uit een onderzoek bij de Citotoets in groep 8 dat zestig procent van alle verbeteringen voordelig was en leerlingen in maar een paar gevallen hun antwoord veranderden naar een verkeerde optie. “Wij bouwen zelf nieuwe toetsen en we krijgen vaak van ontwikkelaars te horen dat het ingewikkeld is om de leerlingen heen en weer te laten navigeren”, zegt Noordhof. “Dan zeg ik: heroverwegen loont, dus ze moeten terug kunnen.” 

Onderzoek op ‘Spacebook’ 

“Het is monnikenwerk om per vraag uit te zoeken wat de data precies zegt”, geeft Noordhof toe. Bovendien leiden meerdere wegen naar Rome; individuele processen van vaardige studenten kunnen per taak sterk verschillen. Als voorbeeld noemt Noordhof een schrijfopdracht waar studenten met een hoge score heel verschillende processen laten zien. De één schrijft in een regelmatig tempo een heleboel woorden, terwijl iemand anders lang nadenkt en een beknopter antwoord geeft en weer iemand anders eerst veel schrijft en aan het eind de tijd neemt om stukken te schrappen.  

In een lopend peilingonderzoek, uitgevoerd in samenwerking met Universiteit Twente en KBA Nijmegen, bekijken Noordhof en Balk de procesdata van leerlingen uit groep acht. Om hun digitale vaardigheden in een natuurlijke omgeving te testen, bouwden de onderzoekers een neppe sociale media-website genaamd ‘Spacebook’ waarin de leerlingen een ‘vriendinnetje’ met verschillende problemen en vragen moesten helpen, zoals met een zoekmachine achterhalen hoe een bepaalde vogel heet. “We hebben straks een score – of ze de juiste vogel hebben gevonden – maar we zien ook de patronen van de leerlingen. Zien we dan een vaardigheidsverschil? Wat is nou de beste manier om een vogel te vinden?”   

Tot slot is het om ethische redenen belangrijk om zorgvuldig om te gaan met deze data, waarschuwt Noordhof. De Spacebook-toetsen worden anoniem afgenomen en de velden waarin leerlingen persoonlijke data invoeren worden afgeschermd. Daarnaast gaan leerlingen en studenten ervan uit dat hun antwoorden bepalen wat hun uiteindelijke score wordt en niet de manier waarop ze tot het antwoord zijn gekomen. Als het proces wel wordt meegenomen in de toetsing, moet dat volgens Noordhof op een transparante manier gebeuren. Echter, in hun onderzoek proberen ze eerst uit te zoeken of procesdata überhaupt een verband hebben met de vaardigheid van een student. 


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK