Van competentietoetsen naar assessments

over de teloorgang van competentietoetsing en de lessen hieruit

Opinie | door Henk van Berkel
18 december 2020 | Onder invloed van checklistfetisjisme hebben competentietoetsen in het hoger onderwijs ingeboet aan populariteit. Assessment-toetsing heeft daarvan geleerd, ziet Henk van Berkel, voormalig Universitair Hoofddocent bij de vakgroep Onderwijsontwikkeling & Onderwijsresearch aan de Universiteit Maastricht. De assessment-methode ontwijkt de valkuilen waarin competentietoetsing zich heeft bezeerd, waardoor de kwaliteit van het oordeel prevaleert boven de betrouwbaarheid ervan.
Beeld: stocksnap.io

Het is nog niet zo lang geleden dat in het hoger onderwijs, en in het bijzonder bij hogescholen, de loftrompet werd gestoken over competentietoetsing. Als het zou lukken dergelijke toetsen te ontwikkelen, dan zouden veel toetsproblemen daarmee in één klap zijn opgelost. En die problemen waren er. Er werd in die tijd namelijk erg fragmentarisch getoetst. Dat wil zeggen, er waren toetsen die de kennis van studenten in beeld brachten, de practica werden beoordeeld, en de studenten werden ook nog waarden en normen bijgebracht die bij een beroepsgroep hoorden.  

Dat laatste, de zogenaamde beroepshouding, bleef echter een stiefkindje. Er waren geen goede toetsen voor, en bovendien was men het niet altijd met elkaar eens of ze überhaupt zouden moeten worden getoetst. Immers, onderwijs moest waardevrij zijn, en het aanleren van attituden had haast per definitie iets van indoctrineren. Daar waren velen op tegen.  

In de praktijk waren er dus twee soorten toetsen: kennistoetsen en vaardigheidstoetsen. Het waren twee gescheiden werelden, en dat moet eigenlijk anders. 

Competentietoetsen 

Toetsdeskundigen togen aan het werk en kwamen met een oplossing: competentietoetsen. Dat was in aanzet een schitterende vondst. Het pretendeerde namelijk dat de drie verschillende deskundigheden – kennis, vaardigheden en attituden – onder één noemer zouden kunnen worden getoetst. Daar was alle noodzaak toe. Er zijn nauwelijks opleidingen die niet leiden tot een bepaald beroep, en in een beroep heb je niets aan kennis alleen, net zomin als alleen vaardigheden, laat staan een beroepshouding zonder inhoud. De crux van een goede beroepsuitoefening zit ‘m nu juist in een mix van alle drie de domeinen.   

Een beoordelaar, en in een ideale beoordelingssituatie zullen er meerdere beoordelaars zijn, heeft de taak een waardeoordeel uit te spreken over de professionele handelingen. De beoordelaars moeten daarbij alle aspecten van de handeling, dus de getoonde kennis, vaardigheden en attituden, in samenhang waarderen. Daardoor is het een meervoudige beoordeling. Dergelijke toetssituaties zijn authentieker dan de traditionele toetsen, omdat ze meer lijken op beroepshandelingen. 

De eindbeoordeling van een competentietoets was oorspronkelijk holistisch: het betrof het geheel en niet de afzonderlijke elementen. Zo kon het voorkomen dat beoordelaars hun bedenkingen hadden bij onderdelen van de geuite competenties, maar toch een positief eindoordeel gaven omdat de uiteindelijke beroepshandeling naar hun oordeel aan de maat was. Het tegenovergestelde kwam natuurlijk ook voor, maar dat is echter lastig aan studenten uit te leggen. “Hoe kan het zijn,” zo betogen zij bij navraag, “dat ik op de drie onderdelen een voldoende scoor en op het geheel niet?” De beoordelaar zal in die situatie moeten uitleggen dat professioneel handelen meer is dan de som der delen. Dat raakt precies de essentie van een holistisch oordeel. 

Beoordelaars hadden dus een complexe taak. Zij waardeerden de beroepshandeling op aspecten welke voortkomen uit drie domeinen, zij waardeerden of alle handelingen correct en in de juiste volgorde zijn verricht, en van beoordelaars werd ook verwacht dat zij een eindbeslissing namen door alle elementen uit de competentietoets bij elkaar te beschouwen en af te zetten tegen een criterium. Het is dan ook geen wonder dat beoordelaars om hulp vroegen bij hun beoordelingstaak.  

Toen ging het mis 

En vanaf dat moment is het misgegaan. Toetsdeskundigen trokken van alles uit de kast om de beoordelaars ten dienste te staan.  

Was het te moeilijk om de drie domeinen in één keer te beoordelen? Dan was de oplossing drie beoordelingen: een afzonderlijk af te nemen kennistoets, een vaardigheidstoets, vaak in de vorm van een checklist, en een lijst voor het beoordelen van de beroepshouding. De waarderingen op deze drie toetsen werden al dan niet met een bepaald gewicht tezamen genomen en door drie gedeeld. Dat was dan het eindoordeel.  

Waren de beoordelingen onbetrouwbaar? Dan werden de drie toetsen langer gemaakt. Want in het algemeen geldt: hoe meer vragen in de toets, des te hoger de betrouwbaarheid. De beoordelaars gingen braaf de ellenlange toetsen en de checklists gebruiken. Maar studenten hadden ook recht op een correcte feedback. Zij moesten toch weten wat ze precies fout hadden gedaan en hoe ze zich de volgende keer beter zouden kunnen voorbereiden?  

Toen werden de rubrics uit de kast getrokken. Een rubric maakt het mogelijk relevante (deel)handelingen te beoordelen. Een rubric is eigenlijk een soort modelantwoord voor een open toetsvraag, maar dan in gradaties (meestal vier) in oplopende mate van complexiteit. Hoe meer het antwoord overeenkomt met het ideale antwoord, des te hoger de waardering.  

Checklist-adepten trokken aan het langste eind 

Door de continue aanpassingen van de beoordelingsmethode en het vele extra werk dat beoordelaars daarvoor nodig hadden, kwamen competentietoetsen in het verdomhoekje. De beoordelingsmethode werd, enigszins overdreven gesteld, een gedrocht. De methode was niet alleen bewerkelijk, maar door het niet meer holistisch beoordelen en het maken van een optelsom van drie onderliggende toetsen, verdween juist de grote kracht van de competentietoets: een waardering van het professioneel handelen van de student.  

Een dergelijke beoordeling vereist een integratie van de drie domeinen, terwijl die juist weer uit elkaar werden getrokken. De roep om een hogere betrouwbaarheid had het gewonnen van de validiteit. Anders gesteld, de checklist-adepten trokken aan het langste eind. En zo kwam deze toetsinnovatie, waar toetsdeskundigen zo hun best op hadden gedaan, weer terug bij af. De hogescholen keerden er zich van af. Dat is lastig en misschien wel pijnlijk, maar het was wel de realiteit.  

Assessments 

Zijn competentietoetsen nu van de aardbodem verdwenen? Dat is niet het geval. Op sommige hogescholen gaat men door met het gebruiken van deze toetsvorm. De beoordelingslast is weliswaar hoog, maar die scholen zijn ervan overtuigd dat de kost voor de baat uitgaat. Ook verschijnen er nog steeds publicaties over, bijvoorbeeld Gulikers en Van Benthum (2017). Maar gaandeweg is er een andere invulling, en benaming, voor in de plaats gekomen.  

Onder de benaming ‘assessment’ is een toetsvorm ontwikkeld die grote gelijkenis vertoont met de oorspronkelijk competentietoetsen, maar die niet in de valkuil is getrapt die de teloorgang van de competentietoetsen heeft veroorzaakt. Het is niet zo dat assessments pas door die teloorgang zijn ontstaan, maar aanhangers van competentietoetsen zijn als het ware overgelopen naar een andere kamp: de wereld van assessment-toetsing. Een assessment is nog het beste te vergelijken met een mondelinge toets die zich richt op het waarderen van professionele competenties van studenten. Het gaat dus ook nu over competenties van studenten, maar de beoordeling is anders.  

Een holistisch oordeel 

De ontwikkelaars van de huidige assessments zijn niet in de valkuil getrapt om vanwege een betrouwbaar oordeel uitgebreide beoordelingsvoorschriften voor te schrijven. De assessoren hebben een grote mate van vrijheid bij het geven van hun oordeel. Zij worden niet geringeloord door checklists of andere voorschriften. Zij geven uitsluitend een holistisch oordeel. De professionaliteit van de assessoren als deskundigen staat daarbij voorop. Daarvoor zijn ze immers benoemd, en hun deskundigheid wordt gerespecteerd. 

De assessment-methode is dus gebaseerd op het vertrouwensbeginsel. Studenten leggen als het ware hun lot in de handen van de assessoren. Dat is verdedigbaar, omdat de deskundigheid van de assessoren onbetwist is. 

Validiteit gaat boven betrouwbaarheid 

Is de assessment-methode tijdrovend? Ja. Het is daarom een dure methode voor een opleiding. Een doordachte invoering ervan is noodzakelijk. Waarschijnlijk kunnen studenten in hun studie slechts tweemaal, misschien driemaal, een assessment afleggen. Het is aan de onderwijsontwikkelaars om een juist afnamemoment te bepalen (Zie Van Berkel, 2012). 

Is de methode betrouwbaar? Waarschijnlijk voldoet de methode niet aan de klassieke eis die men stelt aan de hoogte van de interbeoordelaarsbetrouwbaarheid, doorgaans minimaal 0.80. De betrouwbaarheidseis gaat er namelijk van uit dat een oordeel van een andere assessor moet overeenstemmen met het oordeel van een oorspronkelijke assessor.  

Maar moet dat? Assessoren worden juist ‘toegewezen’ aan een student op grond van het feit dat vier ogen meer zien dan twee. Het is juist de bedoeling dat assessoren met twee verschillende brillen naar de verrichtingen van een student kijken. Een identiek oordeel zou vreemd zijn. Bovendien, zou het zo langzamerhand geen tijd worden dat de toetswereld de klassieke betrouwheidstheorie herziet en meer vertrouwen krijgt in oordelen van professionals zonder te letten op het oordeel van anderen? Deze professionals zijn juist door de opleiding in dienst genomen om studenten op te leiden en over hen een oordeel uit te spreken, en verdienen daarom het vertrouwen.  

En is de assessment-methode valide? Ja. Je mag er immers vanuit gaan dat de beroepshandeling die studenten tijdens het assessment moeten gaan verrichten, relevant is. Anders heeft het assessment geen zin. 

Vergelijkend beoordelen: een nieuwe loot? 

Er heeft in 2020 een discussie plaatsgevonden op ScienceGuide over het beoordelen van schrijfproducten. Die discussie begon met een bijdrage van Van der Schoot. Hij ageert tegen de toetscultuur die hem in een keurslijf plaatst. Hij moet steeds voldoen aan de eisen ten aanzien van controleerbaarheid, meetbaarheid, en standaardisatie. De rol van een vakman wordt erdoor teruggedrongen. Om toch tegemoet te komen aan de wens om betrouwbaar te oordelen, stelt hij paarsgewijze vergelijkend beoordelingen voor. Dat wil zeggen: het product van een student vergelijken met dat van een andere student. Als je dat verschillende malen doet, ontstaat er volgens hem een betrouwbare rangorde van de producten en dus van de studenten.  

Een reactie daarop kwam van Alex Steenbreker. Zij plaatst vraagtekens bij de didactische vakbekwaamheid van docenten. Daar zit het probleem. Zij geven slechte feedback. Het ontbeert, aldus Steenbreker, docenten aan onderwijskundige kennis. Docenten wantrouwen alles wat van hogerhand komt, zo stelt Steenbreker, waaronder de onderwijskundige principes, als zij het nut daarvan niet inzien.  

De derde bijdrage in deze discussie kwam van Marion Tillema. Zij betoogt dat het mogelijk is heldere eisen aan de beoordeling van een opdracht te formuleren, zoals Steenbreker wil, zonder in dichtgetimmerde protocollen te vervallen, iets dat een gruwel is voor Van der Schoot. Een complexe handeling is niet goed óf fout. Allerlei tussenuitkomsten zijn mogelijk. De waardering ervan is niet simpel het optellen van de waardering van de onderdelen omdat de verschillende onderdelen op elkaar inwerken. Dat vergt creativiteit van de beoordelaar.  

Tillema stelt voor de beoordelingsmethodiek te beginnen met het maken van een voorbeeldwerk. Vervolgens worden de werken van studenten gerelateerd aan het voorbeeld, en aan elkaar. Dat kunnen de beoordelaars doen, maar ook studenten die daarbij een toelichting moeten geven. Het blijkt, volgens Tillema, dat studenten hier veel van leren.   

De discussie staat hiervoor erg summier weergegeven, maar het is duidelijk dat in deze discussie precies dezelfde elementen de revue passeren als in het betoog in deze bijdrage. Er is een weerzin gaan ontstaan tegen de protocollering van de beoordelingstaak van docenten. Docenten hebben het gevoel dat die niet essentie raakt. Een oordeel is immers meer dan een optelsom van de delen. Bovendien getuigen al die beoordelingsvoorschriften van weinig respect voor hun professionaliteit. 

Assessment-toetsing als antwoord op checklistfetisjisme 

Competentietoetsen is naar de achtergrond verdrongen vanwege wat kan worden genoemd checklistfetisjisme. Door de roep om betrouwbaarheid is de bruikbaarheid van competentietoetsen afgenomen. Assessmentadepten hebben daarvan geleerd. De autoriteit van de assessor daar staat niet ter discussie. Eensgezindheid tussen assessoren is niet per se nodig en misschien wel niet wenselijk. Het is immers juist de bedoeling dat twee assessoren een handeling of product vanuit twee invalshoeken beoordelen. Een perfecte overeenstemming van hun oordelen is daarom niet bereikbaar.  

De roep om betrouwbaarheid heeft niet de overhand gekregen. De inhoudelijke kwaliteit van het oordeel prevaleert boven de betrouwbaarheid. Dat is een grote winst.

Henk van Berkel :  Voormalig Universitair Hoofddocent aan de Universiteit Maastricht

Voormalig Universitair Hoofddocent bij de vakgroep Onderwijsontwikkeling & Onderwijsresearch van de Faculty of Health, Medicine and Life Sciences van de Universiteit Maastricht

Literatuurverwijzingen

Toetsen van competenties

Gulikers, J.& Van Benthum, N. (2017). Toetsen van competenties. In: Henk van Berkel, Anneke Bax & Desirée Joosten-Ten Brinke (red.), Toetsen in het hoger onderwijs, Houten: Bohn, Stafleu, Van Loghum 2017, p. 217-228. 

Kritische reflectie op competentietoetsen in het hbo

Van Berkel, A. (2012). Kritische reflectie op competentietoetsen in het hbo. Onderwijsinnovatie, juni, 17-26.


Schrijf je in voor onze nieuwsbrief
«

ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.

Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan

OK