“Ondergemiddeld is niet hetzelfde als onvoldoende”

Interview | door Toske Andreoli
2 oktober 2019 | Kleuters ontwikkelen zich niet lineair maar in sprongen, en daarom mogen toetsen in de kleuterklas vanaf 2021 niet meer. Terecht? Niek Frans (RUG) onderzocht de voorspellende waarde van de toetsen en ontdekte iets dat hem verraste. Wij spraken met hem over toetsing, statistiek en teaching to the test. “Het is een statistisch gegeven dat niet iedereen gemiddeld kan zijn.”

Veel basisscholen houden met het leerlingvolgsysteem periodiek de cognitieve ontwikkeling van kinderen bij. Sinds de eeuwwisseling worden ook kleuters op grote schaal getoetst op reken- en taalvaardigheden, met het doel eventuele ontwikkelingsachterstanden eerder te signaleren. Orthopedagoog Niek Frans promoveerde onlangs aan de Rijksuniversiteit Groningen op de representativiteit van de kleutertoets.

Hij kwam op het onderwerp vanwege een bevriende logopedist: “Zij vertelde dat heel veel kinderen naar haar praktijk werden doorverwezen vanwege een lage citoscore in de kleuterklas. En dat vond ze apart.” Er is veel kritiek op de toets omdat de ontwikkeling van kleuters notoir lastig te meten is. Een veelgehoord bezwaar is dat kleuters op verschillende momenten ‘sprongen’ maken, waardoor een momentopname onbetrouwbaar kan zijn.

Onderzoek ontbrak

In reactie op deze kritiek werd in 2013 al besloten de kleutertoetsen niet meer verplicht te stellen. Vorig jaar besloot minister Van Engelshoven zelfs de kleutertoets vanaf 2021 af te schaffen. Gaat daarmee een nuttig instrument voor vroege signalering verloren, of heeft de minister gelijk en voorspellen de toetsen de ontwikkeling onvoldoende?

Na het verhaal van de logopedist dook Frans in de literatuur en er bleek geen onderzoek te bestaan naar de voorspellende waarde van de toetsen. “Er was wel heel degelijk cross sectioneel onderzoek gedaan naar hoe goed de toets de vaardigheden van een kind op dat moment meet. Maar eigenlijk is er nooit gekeken naar hoe goed die scores nou eigenlijk de verdere ontwikkeling van een kind voorspellen.”

De redenering hierachter bleek even vreemd als het feit dat er geen onderzoek was: “De gedachte was dat die toetsen überhaupt geen voorspellende functie hebben, dus dat die ook niet onderzocht hoeven worden. Dat vonden wij raar: als je zegt dat een toets gebruikt kan worden om een taal- of rekenprobleem te identificeren, dan ga je er impliciet vanuit dat een score iets zegt over de verdere taal- en rekenontwikkeling van een kind.”

Grillige scores

Frans deed een oproep aan scholen die de toets gebruikten om data aan te leveren en kwam zo uiteindelijk aan een dataset met de toetsscores van 1400 kinderen. De kinderen zaten inmiddels in groep zes, dus Frans had het verloop van hun scores vanaf de kleuterklas tot zijn beschikking. Hij vergeleek de scores op de kleutertoetsen taal en rekenen met de rekentoetsen en de toets begrijpend lezen die de kinderen in de jaren daarna hadden gemaakt.

De promovendus en zijn collega’s onderzochten de voorspellende waarde voor het toekomstige niveau en de groei van de kinderen. “Dus als een kind in de kleuterjaren bij de hoogst scorende kinderen hoort, is dat op latere leeftijd dan ook zo? En als een kind tussen groep twee en drie ondergemiddeld groeit ten opzichte van wat je zou mogen verwachten, blijft dat dan zo, en moeten we dan ingrijpen?”

Wat het toekomstige niveau betreft bleken de kleuterscores in enige mate informatief. “Als een leerling in de kleuterjaren bij de laagst scorende groep hoort dan is de kans dat hij op later moment weer onder die groep valt aanzienlijk groter. Voor rekenen was dat ongeveer zes keer groter.” Kinderen die in de kleuterklas laag scoorden op rekenen, hadden ongeveer vijftig procent kans om later weer in die laagste groep te vallen. “Die kans is niet denderend hoog, hetzelfde als bij kop of munt.” Terwijl kinderen die als kleuter hoog scoorden, ongeveer acht procent kans hadden om later bij de laagste groep te horen. “Dat is wel aanzienlijk lager.”

"Zestig procent van de kinderen stagneerde wel eens een keer."

Toch bleven de scores erg grillig. “Die scores wisselden wel ontzettend veel van tijd tot tijd. Je hebt ook een aanzienlijke groep die in de kleuterjaren in de laagst scorende categorie valt, maar die in latere jaren nooit meer in die categorie scoort. Het blijft dus onzeker om te zeggen: dat kind blijft in dat ontwikkelingsniveau.”

Wat nog lastiger bleek, was om de groei van kinderen te voorspellen. “In alle vijf jaren die we hebben onderzocht, is het heel lastig om iets te zeggen over de groei. In de handleiding van de toets staat dat zodra een kind een stagnatie vertoont in zijn score – dus even geen groei laat zien in de scores – dit een indicatie van een risicoleerling is. Maar in de hele periode die wij onderzochten stagneerde zestig procent van de kinderen wel eens een keer.”

De echte afwijking is lastig te vinden

Zo krijgen veel kinderen onterecht het label ‘risicoleerling’. “Heel vaak was er sprake van een tijdelijke dip. Zo’n dip is heel gewoon en kan talloze oorzaken hebben.” Verhuizen, ziekte of zelfs een groeispurt kunnen ervoor zorgen dat leerlingen tijdelijk even ‘stil staan’. “Op het volgende moment groeien ze gewoon weer door volgens de ontwikkeling die je zou mogen verwachten.”

De vraag is dan of de kinderen met echte ontwikkelingsproblemen nog wel kunnen worden geïdentificeerd. Frans: “We hebben een kleine groep, zo’n tien procent, kunnen identificeren die wel structureel afwijkt over die vijf jaar. Dat is de groep die zou je eigenlijk willen ‘vangen’ met zo’n toets.”

Deze tien procent is er met een kleutertoets moeilijk uit te vissen. “Ze zijn heel lastig te identificeren vanwege de sterke schommelingen. Pas na twee en een half jaar toetsen – na vijf toetsafnames – konden we met enige zekerheid zeggen: deze groei wijkt structureel af. Maar als leerkracht wil je op basis van twee toetsen dat eigenlijk al kunnen zeggen. Dat blijkt vrijwel onmogelijk.”

Een verstoorde normaalverdeling

De toetsen bleken dus weinig voorspellende waarde te hebben, maar Frans en zijn collega’s stootten op nog iets anders. “Wij constateerden dat er in de kleuterjaren onverwacht weinig kinderen in de laagste categorie zitten. Kinderen scoren systematisch hoger op de toetsen dan je zou mogen verwachten.” In een normaalverdeling verwacht je een gelijkmatige scoreverdeling per categorie. Cito heeft de toetsen zo genormeerd, dat in alle vijf niveaus ongeveer twintig procent van de leerlingen zit.

Er was dus iets aan de hand met het gebruik van de toetsen. “Hoe gaan leerkrachten om met deze toetsen, wat doen ze nou, hoe denken ze erover?” Om daar achter te komen deden Frans en zijn collega’s een interviewstudie. Daaruit bleek dat leraren hun best doen hun leerlingen hoger te laten scoren.

“Dat gebeurt niet vanuit verkeerde bedoelingen. We spraken bijvoorbeeld een leerkracht die het oneerlijk vond om kinderen naar woorden te vragen die ze nog nooit hadden gehad. Bewust of onbewust staan die leerkrachten in de les vaker stil bij de woorden uit de toets.”

Intolerantie voor laag scoren

Het is een klassiek geval waarin het doel van de toets – detecteren – teniet wordt gedaan door het (te verwachten) effect – repareren. “Je ziet heel vaak bij deze toetsen dat het idee ontwikkelt dat zodra een kind ondergemiddeld scoort, dat het onvoldoende is. Daar wordt dus ook op gehandeld.” Op het moment dat een kind in de laagste categorie scoort, wordt er meer geoefend met het toetsmateriaal.

Het gevolg van deze reparatie-oefening is echter dat de algemene normen worden bijgesteld. Het is immers een statistische aanname dat twintig procent in de laagste groep valt. “Je krijgt norminflatie. Zo wordt de toets steeds moeilijker, omdat Cito de normering aanpast zodat er weer twintig procent in elke categorie valt. En het onderwijs raakt meer gericht op de toets. Dat is volgens mij een schadelijke ontwikkeling voor het onderwijs, die je niet alleen bij kleutertoetsen ziet.”

“Het is een statistisch gegeven dat niet iedereen gemiddeld kan zijn.” Het is een waarheid als een koe die Frans te berde brengt, maar lang niet iedereen lijkt hiervan doordrongen – laat staan dat die geaccepteerd wordt. De weigering te accepteren dat er ook een groep zal zijn die het laagst scoort, zit volgens hem in de kleinste details. “Het idee dat ondergemiddeld onvoldoende is, wordt bijvoorbeeld versterkt door de weergave van toetsscores, lage scores worden in een alarmerende rode kleur weergegeven.

Frans bespeurt in het algemeen een intolerantie voor laag scoren. “Het idee lijkt dat iedereen hogerop moet komen en uiteindelijk naar de universiteit moet. Dat je anders niets voorstelt.” Diezelfde mentaliteit zet vervolgens ook door onder leerlingen en studenten. “Op de universiteit merkte ik dat ook aan mijn medestudenten. Ze raakten meer gefocust op het cijfer dan op de inhoud.”

"Leerkrachten zien het als falen als hun klas ondergemiddeld scoort."

“We merkten dat leerkrachten graag willen dat hun klas gemiddeld of bovengemiddeld scoort en het zien als falen wanneer hun klas onder het gemiddelde scoort. Bij lage scores spannen ze zich extra in, en het voelt voor hen als een afstraffing als dit niet tot hogere scores leidt. Maar niet elke klas is gemiddeld, en dat hoeft ook niet. Toch voelen leerkrachten wel druk van buitenaf om kinderen op gemiddeld niveau te krijgen. Vooral ouders hebben snel het idee dat er iets mis is, als hun kind laag scoort.”

Observaties als toets

Frans pleit daarom voor toetsen die op criteria zijn gebaseerd, in plaats van op normen. “Het idee daarbij is dat kinderen niet in een rangvolgorde worden geplaatst en worden vergeleken met de anderen, maar of ze een bepaald vaststaand criterium halen of niet.”

De kleutertoets mag per 2021 niet meer worden in gezet, in plaats daarvan ontwikkelt Cito op het moment een observatie-instrument genaamd “Kleuter in beeld”. Frans vindt het idee van gestructureerde observaties op zich goed: “De expertise van de leerkracht wordt meegenomen, en observaties kunnen in meer natuurlijke situaties worden gedaan. Zo’n toetssituatie kon onwennig zijn voor kinderen. Maar het is wel belangrijk dat die observaties gestructureerd zijn: dat een leerkracht wordt aangezet tot het letten op bepaalde ontwikkelingsaspecten, op bepaalde momenten, en ook belangrijk: op bepaalde leerlingen. Zo wordt voorkomen dat kinderen die om minder aandacht vragen minder worden opgemerkt.”

Toch is het belangrijk om ook bij het nieuwe observatie-instrument kritisch te blijven, vindt Frans. “Daar blijven dezelfde vragen eigenlijk gelden: worden de kinderen gerangschikt over een statistische verdeling, of getoetst aan een inhoudelijk criterium? Dezelfde mechanismen kunnen weer optreden als je dezelfde principes gebruikt.”


Schrijf je in voor onze nieuwsbrief
«

ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.

Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan

OK