Een scriptiebeoordeling past niet in een schema

Opinie | door Menno van der Schoot

11 februari 2020 | Digitale schema's zouden de beoordeling van scripties en papers eerlijker en objectiever maken. Ze leveren eerder schijnobjectiviteit, betoogt docent Menno van der Schoot in deze analytische longread. Wat zijn de gevolgen voor student, docent en het onderwijs? "Een scriptie is meer dan de som der delen."

Een voorbeeld van een rubric van een Nederlandse Universiteit. Dit voorbeeld wordt niet genoemd in het artikel.

In het hoger onderwijs heerst in toenemende mate een cultuur waarin begrippen als controleerbaarheid, meetbaarheid, en standaardisatie de toon aangeven. Docenten worden steeds meer in een keurslijf geplaatst om het meten en controleren mogelijk te maken, waardoor zij hun autonomie en vakmanschap bekneld zien raken onder een deken van regels en procedures.

Een goed voorbeeld van die alom aanwezige beheerszucht betreft de onstuitbare opmars van digitale beoordelingsschema’s (ook wel rubrics genoemd), waarbij ‘schema’ onschuldiger klinkt dan het beoordelingsharnas dat het voor veel docenten in werkelijkheid is. In dit artikel verzet ik mij tegen het idee van rubrics als heilige graal van studentbeoordeling. Daarbij baseer ik mij onder andere op mijn eigen ervaringen als docent in het hoger onderwijs en die van collega’s binnen en buiten mijn universiteit.

Ik maak mij zorgen dat de aanvankelijke hoop om studentbeoordeling eerlijker en objectiever te maken verloren gaat in doorgeschoten systeemdenken en te rigide toepassingen in de praktijk. Het gebruik van rubrics dreigt hierdoor vooral schijnzekerheid en schijnobjectiviteit op te leveren. De hoogste tijd dus om naar andere manieren van beoordelen te kijken, met meer vertrouwen in het vakmansoordeel van de docent.

Gedaald vertrouwen leidt tot verantwoordingscultus

Nog niet zo lang geleden werd het oordeel over leerresultaten (scripties, onderzoeksverslagen, thesen, stageverslagen, etc.) overgelaten aan de professionaliteit van docenten. Zij werden op grond van hun opleiding, kennis, kunde en ervaring bekwaam geacht om studentenwerk adequaat te beoordelen. Universiteiten vertrouwden erop dat docenten in staat waren voor elk type leerresultaat een passende wijze van beoordeling te kiezen, en gaven hun de ruimte om hierin, binnen hun vakmanschap, eigen inhoudelijke afwegingen te maken.

Dat vertrouwen is de laatste jaren geslonken. Mede onder druk van de toenemende, niet zelden door hogerhand opgelegde, verantwoordingscultus, is het vertrouwen in studentbeoordeling door de docent geleidelijk aan verschoven naar vertrouwen in studentbeoordeling door ‘het systeem’. In dit geval een systematiek in de vorm van een digitaal beoordelingsschema dat is ingericht op meetbaarheid, controleerbaarheid (transparantie), standaardisatie, en uniformiteit.

Zo’n schema bestaat uit een lange lijst criteria waarop docenten het studentenwerk dienen te evalueren. Zo wordt de bachelor-these, een voorbeeld dat ik hieronder zal aanhouden, op mijn faculteit doorgelicht op niet minder dan 38 criteria. Deze zijn onderverdeeld in categorieën Denk aan een indeling als: samenvatting, inleiding, methoden, resultaten, discussie. en wegen verschillend mee voor het eindcijfer. Elk criterium wordt gescoord van 0 tot 10, en is afzonderlijk omschreven voor de verschillende prestatieniveaus, in dit geval het lage uiteinde (0—4 = ‘onvoldoende’), het middengebied (5—7 = ‘(bijna) voldoende’) en het hoge uiteinde (8—10 = ‘goed’) van de schaal. In elke omschrijving wordt nauwkeurig aangegeven waar de geleverde prestatie aan moet voldoen om tot de betreffende beoordeling te komen. Deze zogeheten prestatie-indicatoren vormen tezamen de basis van het beoordelingsschema.

Weg van de willekeur?

Navraag leert dat beoordelingsschema’s op andere faculteiten en universiteiten volgens een vergelijkbaar rigide stramien worden opgebouwd. Ook het achterliggende idee is steeds min of meer hetzelfde: door beoordelingsschalen op logisch-analytische wijze te structureren kan een transparante correspondentie worden gegarandeerd tussen de inhoudelijke kwaliteitsoordelen van de docent en het toegekende eindcijfer.

Studenten zijn daardoor niet of minder afhankelijk van de willekeur van de docent, en kunnen er altijd op vertrouwen dat het cijfer ‘klopt’. Hun werk is immers geanalyseerd op basis van de neutrale, objectieve optellogica van het beoordelingssysteem, en niet door ‘subjectieve’ docenten die verschillen in hun strengheid/mildheid, hun gevoeligheid voor het maken van beoordelaarsfouten, en andere kenmerken die de betrouwbaarheid van het toegekende cijfer mogelijk ondermijnen.

Maar is deze redenering wel juist? Kan de kwaliteit van een academisch werkstuk wel gelijk worden gesteld aan de optelsom van de kwaliteit van de onderdelen waar het uit bestaat? Laat de kwaliteit van een complexe cognitieve prestatie zich überhaupt wel vangen in een van tevoren opgestelde, en uniform toegepaste, lijst evaluatiecriteria? En zijn rubrics eigenlijk wel in staat om de subjectiviteit van de beoordelaar te elimineren?

Voor de goede orde, mijn bedenkingen omtrent het gebruik van rubrics hebben geen betrekking op de vraag aan welke kwaliteitseisen een goede rubric moet voldoen. Zo weten we uit de literatuur over rubrics dat de criteriumbeschrijvingen (per prestatieniveau) een goede afspiegeling moeten vormen van wat er van studenten verwacht mag worden (gezien de leerdoelen), dat de criteria een goede samenhang en een logische opbouw moeten hebben, en dat voor het juiste gebruik van rubrics training van beoordelaars raadzaam is (zie bijvoorbeeld Van Strien & Joosten-ten Brinke, 2016). Mijn kritiek richt zich vooral op de fundamentele aannames waarop rubrics zijn gebaseerd. Hieronder zal ik deze één voor één tegen het licht houden, en beoordelen op hun plausibiliteit en consequenties.

Schijnobjectiviteit

Hoe zit het allereerst met de objectiviteit die rubrics zouden waarborgen? Kan de ‘subjectiviteit’ die bij een complexe beoordeling komt kijken teniet worden gedaan door de beoordelaar een afvinklijst van ‘objectieve’ prestatie-criteria te geven? Ik vrees van niet. Een rubric verschaft de docent weliswaar de criteria waarop hij een student dient te beoordelen, maar biedt verder geen ‘sturende handvatten’ bij het vormen van die oordelen, hoe objectief en fijnmazig de criteria ook zijn beschreven.

Vergelijk het met de beoordelingssystemen die door banken worden gebruikt om vast te stellen hoeveel financiering aan een ondernemer kan worden verstrekt. Aan de hand van zo’n systeem kan een bankmedewerker zijn beslissing onderbouwen om, bijvoorbeeld, maximaal een ton uit te lenen (in plaats van de gevraagde twee). De ondernemer zal teleurgesteld zijn, maar zich waarschijnlijk niet afvragen of een andere bankmedewerker wellicht tot een ander oordeel was gekomen. Hij zal het systeem, met andere woorden, als ‘objectief rechtvaardig’ (blijven) beschouwen, in weerwil van het negatieve oordeel dat het over hem velde.

De vraag is of hetzelfde gezegd kan worden van een digitaal systeem dat wordt ingezet bij de beoordeling van complex studentenwerk. Geldt hier ook dat de beoordelaar aan de hand van het systeem hard en inzichtelijk kan maken waarom hij tot een bepaald oordeel is gekomen (bijvoorbeeld: ‘voldoende’ in plaats van ‘ruim voldoende’)? En dat de beoordeelde student feitelijk geen andere keus heeft dan het oordeel te ‘accepteren’, simpelweg omdat het systeem de beoordelaar op objectieve, gestandaardiseerde wijze naar zijn oordeel heeft geleid?

De uitdaging voor de docent is van een andere en minder rigide orde dan die van de bankmedewerker. Rubrics bieden docenten alle ruimte om vanuit hun professionele autonomie een eigen waarde toe te kennen aan de beschreven informatie. Er bestaan geen generieke, objectief toepasbare regels die de docent bij elk prestatie-criterium kan volgen om, in dit voorbeeld, tot het oordeel ‘voldoende’ of ‘ruim voldoende’ te komen.

Met andere woorden, op het moment dat een docent zijn oordelen wil onderbouwen aan een student, heeft hij niets meer aan zijn rubric, en staat hij er alleen voor. En terecht. Want uiteindelijk komt het bij het beoordelen van studentenwerk aan op de interpretaties van de (betekenis van de) criteria, en de inschatting van de kwaliteit en waarde van het geleverde werk bínnen die interpretaties. En ja, die interpretaties en kwaliteitsinschattingen zijn in sterke mate onderhevig aan de subjectiviteit van de docent.

De beoordelaar blijft een factor

De belangrijkste bron van subjectiviteit zit in de verschillen die er nu eenmaal bestaan tussen docenten op kenmerken die van invloed zijn op hun oordeelsvorming. Denk hierbij niet alleen aan verschillen in hun strengheid/mildheid en gevoeligheid voor het maken van beoordelaarsfouten Denk aan het halo-effect, horn-effect, centrale tendentie, sequentie-effect, normverschuiving, etc. maar ook aan verschillen in de mate waarin zij eigenschappen van het product los willen of kunnen zien van eigenschappen van de student (leerhouding, motivatie, etc.) en het proces waarlangs zijn/haar product tot stand kwam (doorgemaakte groei, omgang met feedback, interacties met docent, etc.) . In tegenstelling tot wat vaak wordt gedacht, is een rubric niet, of slechts in beperkte mate, in staat om voor verschillen in dit soort intrinsieke beoordelaarkenmerken te controleren.

Hoe hard je er ook aan sleutelt, en hoe vaak je het ook kalibreert, verschillen in strengheid/mildheid tussen docenten zullen dus altijd in een beoordelingssysteem blijven opduiken. Net als verschillen in de neiging om vooral het midden van een beoordelingsschaal te gebruiken (centrale tendentie), verschillen in de neiging om een beoordeling aan te passen aan het gemiddelde prestatieniveau (normverschuiving), en ga zo maar door.

Accepteer dat docenten verschillen in hun beoordelingsstijl, accepteer dat je betrekkelijk weinig aan die verschillen kunt veranderen, en accepteer dat er vanwege die verschillen altijd een zekere beoordelingsbias zal zitten in de door docenten toegekende cijfers. Het is een illusie om te denken dat een rubric het oordeel over complex studentenwerk zodanig kan objectiveren dat het ongevoelig wordt voor beoordelaarseffecten.

Het belang van ervaring

De beoordelaar blijft dus een factor van betekenis, alhoewel er hier wel een onderscheid gemaakt moet worden tussen ervaren en minder ervaren docenten. Hoe meer studenten een docent in het verleden heeft begeleid en beoordeeld, hoe sterker zich in zijn hoofd een ‘eigen norm’ heeft gevormd betreffende het gemiddelde niveau van studenten. Het is veilig om te veronderstellen dat hij deze norm vervolgens, bewust of onbewust, zal gebruiken om het niveau van zijn huidige studenten tegen af te zetten.

En of het nou mag of niet, dat proces van ‘vergelijkend beoordelen’ begint vaak al meteen bij de start van een thesetraject. Iedere docent met (ruime) ervaring met het begeleiden van studenten bij hun afstudeerthese kent het wel, dat je bij wijze van spreken al tijdens het kennismakingsgesprek denkt te ‘weten’ dat er een ‘zesje-student’, of een ‘typische acht’, tegenover je zit. En dat zo’n eerste indruk dan ook verrassend vaak blijkt overeen te komen met je beoordeling van de student aan de eindstreep, wanneer de beoordeling niet alleen ‘holistisch’, en (daardoor) relatief snel, verloopt maar ook ‘analytisch’.

Waar ik naartoe wil is dit: het probleem waar ervaren docenten tegenaan lopen is dat de (eind)beoordeling waar de rubric-scores hen naartoe leiden niet altijd overeenkomt met de beoordeling waar zij op basis van hun ‘eigen normen en standaarden’ op zouden uitkomen. Dit dilemma zie je nogal eens terug in de manier waarop zij rubrics strategisch invullen, zodat hun toegekende deelscores aan het eind precies optellen tot de eindbeoordeling die ze vooraf al in hun hoofd hadden.

De rubric als weerspiegeling van een complexe cognitieve prestatie

Een andere basisaanname achter het gebruik van rubrics is dat de kwaliteit van studentproducten en de processen waarlangs die producten tot stand komen kan worden uitgedrukt in termen van een scoreprofiel op een standaardverzameling van voorgekookte en nauw geformuleerde prestatie-indicatoren. Deze vooronderstelling start vanuit het idee dat een bepaalde academische vaardigheid, zoals het schrijven van een onderzoeksthese, kan worden ontbonden in een eindig aantal dimensies waarop de vaardigheid dient te worden beoordeeld.

Voor indicatoren als ‘de hypothesen worden volledig en correct onderbouwd’ of ‘de gebruikte literatuur is van voldoende omvang’ kun je thesen met een beetje goede wil nog langs dezelfde meetlat leggen, dat wil zeggen kwantitatief vergelijken. Maar hoe zit het met de hogere-orde aspecten die moeilijker zijn te meten? Wat zegt het afvinken van criteria die betrekking hebben op onderliggende prestatie-onderdelen uiteindelijk over, bijvoorbeeld, de eigenheid, oorspronkelijkheid, originaliteit en creativiteit van het werk?

Is de menselijke geest die ons in staat stelt nieuwe ideeën te bedenken, onderzoeken en verwoorden niet te veelzijdig om in hokjes te vangen – in het geval van rubrics ook letterlijk – en objectief te kwantificeren?

Zo lijkt het voor ‘originaliteit’ onmogelijk om concreet en eenduidig te omschrijven wat er nodig is om de verschillende, vooraf vastgestelde, prestatieniveaus te bereiken. Originaliteit komt in vele vormen en kleuren, en het is waarschijnlijk dat verschillende rubric-ontwikkelaars verschillende omschrijvingen zullen geven van ‘lage’, ‘gemiddelde’ en ‘hoge’ originaliteit, afhankelijk van zaken als de specifiek-inhoudelijke context (waaronder de gestelde leerdoelen), hun eigen onderwijscontext en, last-but-not-least, hun persoonlijke opvattingen en ervaringen.

Of denk aan studenten die een intellectuele doorwrochtheid weten te combineren met een speelse schrijfstijl. Het lijkt mij een illusie om te denken dat de optellogica van de rubric deze prestatie trefzeker kan reflecteren, laat staan dat deze te vangen is in één evaluatiecriterium. En wat te doen met studenten die lovenswaardige prestaties leveren die nérgens in de rubric worden omschreven? Studenten dus die out-of-the-box, buiten de uniforme beoordelingsstandaarden van de rubric, denken.

Het zijn vooral de eigenzinnigen en creatievelingen onder de studenten die slachtoffer zijn van de knellende ‘beoordelingssystemisering’ in het hoger onderwijs. Iets wat eerder treffend is verwoord door de Nederlandse historicus en publicist Chris van der Heijden: ‘Systemen kennen geen kantlijn. Maar de beste studenten kleuren buiten de vakjes’ (Groene Amsterdammer, 1 november 2018).

Autonoom functionerende docenten kunnen de – van tevoren zo lastig te voorspellen – academische hoogstandjes van hun studenten beter op waarde schatten. Maar daartoe moeten zij wel in staat worden gesteld. En dat kan alleen als zij niet met handen en voeten gebonden zijn aan een beoordelingssysteem.

Eén beoordelingsbril voor álle thesen?

Een ander probleem dat kleeft aan het gebruik van rubrics houdt niet alleen verband met het aantal evaluatiecriteria en de inhoud daarvan, maar ook met hun weging. De criteria waarop een studentenwerk beoordeeld wordt wegen verschillend mee voor het eindcijfer. En dat is op zichzelf terecht: een onderzoeksthese dient harder afgerekend te worden op de mate van aansluiting van de resultaten/conclusies op de onderzoeksvragen/hypothesen (relatief veel gewicht in het eindcijfer) dan op de mate waarin de samenvatting los van het verslag is te begrijpen (relatief weinig gewicht in het eindcijfer).

Maar wie of wat bepaalt, en op basis waarvan, hoevéél het ene criterium zwaarder meeweegt dan het andere? Bovendien worden wegingsfactoren vaak door het opleidingsmanagement ‘vastgezet’ – al dan niet na een aantal (her)kalibraties. Docenten hebben daarna geen knop meer om aan te draaien (een enkele tussentijdse reparatie daargelaten), net zo min als zij het aantal of de inhoud van de evaluatiecriteria nog kunnen toesnijden op de eigenheid van het beoordeelde werk nadat een rubric eenmaal is goedgekeurd en in gebruik genomen.

De uiteindelijke consequentie hiervan is dat álle onderzoeksthesen (of welk ander type leerresultaat dan ook) die door studenten aan een bepaalde opleiding worden geschreven door exact dezelfde beoordelingsbril worden bekeken. Een one-size-fits-all benadering voor intellectueel werk. Maar een onderzoeksthese is een uniek, individueel product met een unieke signatuur van sterke en zwakke punten dat tot stand is gekomen via een uniek, individueel proces. Onderzoeksthesen zijn geen stofzuigers waarvan je alle exemplaren gemakkelijk kunt vergelijken langs een beperkt aantal vaste en objectieve meetlatten (zuigkracht, gewicht, snoerlengte).

Elk thesetraject kent zijn eigen hobbels en valkuilen. De ene keer ligt de uitdaging vooral in het doorgronden van de theorie en afleiden van de hypothesen, een andere keer is het complexe onderzoeksdesign de lastigste horde, en de volgende keer vormen de statistische analyses het struikelblok. Soms levert het onderzoek niets op, en gaat alle tijd zitten in het bedenken van mogelijke verklaringen voor de nulresultaten, het bijschaven van de theorie, en/of het trekken van lessen voor vervolgonderzoek. En soms zijn resultaten juist zo overtuigend dat niet hun theoretische implicaties maar hun toepassingsmogelijkheden op de voorgrond komen te staan. Het is, met andere woorden, elke keer weer anders.

Het gebruik van een one-size-fits-all rubric doet geen recht aan deze rijke verscheidenheid aan prestaties die studenten kunnen etaleren. Iedere onderzoeksthese gaat immers door precies dezelfde mal. Dit betekent dat elk prestatie-onderdeel in elke these even zwaar meeweegt in de eindcijferberekening, ongeacht de aard, omvang en complexiteit van de eisen die het onderdeel in een individueel traject stelt.

Stel dat Student A zich geavanceerde, state-of-the-art statistische technieken eigen moest maken om zijn onderzoeksgegevens te kunnen analyseren. Student B kon met enkele standaard analyses op vertrouwd terrein blijven, maar toetste met zijn analyses wel een door hemzelf ontwikkelde theorie. Beide studenten krijgen van hun docent een gemiddelde 7 voor de prestatie-criteria die betrekking hebben op hun Resultatensectie, een sectie waarvan het schrijven voor Student A een periode van bloed, zweet en tranen was, en voor Student B een makkie. Toch legt die 7 voor beide studenten evenveel gewicht in de schaal van het eindcijfer.

De vraag is of we dat moeten willen. Willen we dat alles wat ‘eigen’ is aan een these en de totstandkoming ervan vervlakt in de uniformiteit van de prestatiemeting? Of willen we dat docenten de specifieke uitdagingen die studenten moesten overwinnen om hun these te realiseren een bijpassend gewicht kunnen (dus niet moeten) geven in hun beoordeling. In dit voorbeeld zouden zij dan een hoger relatief gewicht kunnen toekennen aan de ‘statistische’ en ‘theoretische’ prestaties van, respectievelijk, Student A en B.

Strategisch handelen is niet hetzelfde als leren

De reductionistische eigenschappen van rubrics werken ook de andere kant op. Ze schieten niet alleen tekort in het erkennen van originaliteit en het vangen van intellectuele complexiteit. Voor een deel van de studenten zullen de beoordelingsschema’s betekenen dat ze minder origineel en creatief te werk gaan. Het probleem is immers niet alleen dat alle thesen door dezelfde mal worden geperst, de studenten weten van tevoren ook precies hoe die mal er uitziet. Rubrics zijn een verzameling ‘gemene delers’ die vóóraf worden vastgesteld, en vervolgens gepresenteerd als een soort blauwdruk waaraan thesen moeten voldoen.

Aangenomen mag worden dat dit (sommige) studenten zal aanzetten tot een calculerende leerhouding, in de zin dat zij zich tijdens (de verslaglegging van) hun onderzoek zullen richten op wat er van hen verwacht wordt. Of, negatiever geformuleerd: (sommige) studenten zullen vermoedelijk proberen om voor elk prestatie-onderdeel in de rubric hun score strategisch te maximaliseren.

Het gevolg laat zich gemakkelijk raden: studenten zullen in toenemende mate de academische eenheidsworst serveren waarvan ze weten dat die het zwaarst meeweegt in de eindcijferberekening. Zij zullen zich, met andere woorden, vormen naar de mal waar ze doorheen moeten, maar daardoor onderweg wel (een deel van) hun eigenheid kwijtraken. En dat is niet alleen voor de studenten zelf een hard gelag, ook de arbeidsmarkt lijkt niet gebaat bij een toekomstig aanbod van veel-van-hetzelfde.

In het wetenschappelijke onderzoek naar toetsing en beoordeling in het hoger onderwijs is er in toenemende mate aandacht voor de risico’s die gepaard gaan met het vooraf expliciet aan studenten vertellen wat ze allemaal moeten doen om voor een hoog cijfer in aanmerking te komen.

Met de paplepel

Het voorkauwen van een leeropdracht in hapklare brokken staat in de literatuur bekend als ‘spoon feeding’ (Smith, 2008), en het grootste gevaar waarop gewezen wordt is ‘criteria compliance’, een fenomeen dat onlangs kernachtig is beschreven door een groep Engelse onderwijsonderzoekers in het wetenschappelijke tijdschrift Frontiers in Education:

‘Some students may use explicit criteria to focus on exactly what needs to be done to reach a desired level of achievement, rather than actually learning material fully. Students’ and teachers’ conceptions of learning play a role in this; if teachers simply supply assessment requirements to students in a transactional manner, so they can passively “check boxes”, it is unlikely that students will engage with the criteria in a way that will develop their learning and self-regulation’ (Balloo et al., 2018).’

Bedenk je dus twee keer voordat je studenten vooraf precies vertelt waar ze later op afgerekend zullen worden. Verschillende studies naar de schadelijke effecten van ‘spoon feeding’ laten zien dat deze aanpak niet alleen aanzet tot een calculerende leerhouding, maar ook ten koste van gaat van het autonoom, zelfregulerend leren van studenten, hun vermogen om onafhankelijk te denken en werken, en, tot slot, hun creativiteit (zie bijvoorbeeld Sadler, 2009).

Dit verklaart waarom de laatste jaren verschillende alternatieve (instructie)benaderingen zijn ontwikkeld om ‘spoon feeding’ tegen te gaan (zie bijvoorbeeld Bouwer et al., 2018). Hoewel deze verschillen in hun details, hebben zij een ding gemeen: studenten zijn niet langer de ‘passieve ontvangers’ van de criteria waar hun werk aan moet voldoen. In plaats daarvan worden zij gestimuleerd om actief met de criteria aan de slag te gaan, bijvoorbeeld door hun te vragen de criteria, al dan niet in interactie met de docent, toe te passen bij het beoordelen van het werk van medestudenten (peer assessment), of hun een rol te geven bij het ontwikkelproces van criteria-based rubrics.

Kortom: rubrics meten niet alleen achteraf de kwaliteit van leerproducten maar beïnvloeden daaraan voorafgaand ook de wijze waarop die producten tot stand komen. Zij hebben, zo hebben we gezien, een sturende werking op het leren zelf, leerhouding, creativiteit, zelfregulatie, en zelfevaluatie van kwaliteit, maar helaas wel in de verkeerde richting. Het is geen gewaagde voorspelling dat het rubric-systeem van beoordeling binnen afzienbare tijd zal leiden tot een lagere kwaliteit van, en een verschraling van de intellectuele en creatieve diversiteit in, het werk van studenten. In plaats daarvan wordt de door rubrics voorgeschreven en beloonde blauwdruk van leerproducten de norm.

Door de bomen het bos niet meer zien

Rubrics hebben vermoedelijk eenzelfde soort blikvernauwend effect op docenten. Hun kijk op studentenwerk zal versmallen omdat de rubric hen, bewust of onbewust, dwingt in de richting van het herkennen van eigenschappen van het werk die beschreven staan in de prestatie-criteria. Het verplicht moeten afvinken hiervan zal in ieder geval niet bijdragen aan het vormen van een oordeel vanuit hun eigen vakmanschap, ervaring, kennis en kunde.

Een vergelijkbaar gevaar dreigt ten aanzien van hun ondersteuning van het leerproces van studenten. In plaats van te vertrouwen op hun eigen begeleidingsstijl, zullen sommige docenten vermoedelijk proberen ‘vanuit de rubric-criteria’ richting te geven aan de leeractiviteiten van studenten. Dit zal onherroepelijk ten koste gaan van de ruimte en mogelijkheid om, buiten de kaders van de rubric, te verbreden, verdiepen en verrijken. Het is niet irreëel om te verwachten dat zowel het vakmansoordeel (‘timmermansoog’) van docenten, alsmede hun ‘vrijheid’ om een eigen begeleidingsstijl te hanteren, door de steeds verder oprukkende ‘rubricisering’ geleidelijk aan naar de periferie van het hoger onderwijs zullen worden verdrongen.

Opleidingen die rubrics inzetten bij het beoordelen van complex studentenwerk doen dat vanuit de expliciete of impliciete veronderstelling dat zij een hulpmiddel bieden aan docenten dat aansluit bij de wijze waarop zij tot hun oordelen komen. Deze veronderstelling is echter niet alleen onjuist, rubrics kunnen het cognitieve mechanisme achter complexe oordeelsvorming zelfs in de weg zitten, en daardoor een blokkade vormen voor een meer integrale, holistische lezing van studentenwerk.

En dat heeft alles te maken met de richting van het beoordelingsproces. Al sinds Aristoteles weten we dat dit niet alleen verloopt van ‘klein’ naar ‘groot’ maar ook van ‘groot’ naar ‘klein’. Vooral bij het beoordelen van een complex creatief of intellectueel product baseert een vakman zich grotendeels op zijn aanvankelijke beschouwing van ‘het geheel’. En dat beoordeelde geheel, zo leert ons de Gestaltpsychologie, is meer dan een optelsom van de beoordeelde delen.

Dit heeft verschillende redenen. Zoals eerder opgemerkt is ‘het geheel’ van een creatief-intellectuele prestatie vaak te complex om zich te laten vangen in een eindige lijst van prestatie-onderdelen (en al helemaal vóóraf). Nog moeilijker is het om te overzien hoe de verschillende onderdelen op elkaar inwerken. En het lijkt al helemaal onmogelijk om precies te doorzien wat de impact is van die wisselwerkingen op de hogere-orde eigenschappen van het uiteindelijke geheel.

Het principe van ‘het geheel is meer dan de som der delen’ is misschien wel het best uit te leggen aan de hand van een bos bloemen. Hiertoe leen ik de woorden van, wederom, Chris van der Heijden:

‘Los zijn de bloemen mooi, maar het is pas het boeket dat ze prachtig maakt. In de bos gaan de bloemen met elkaar een symbiose aan: de vormen en kleuren versterken elkaar (of niet, dat kan natuurlijk ook). Het is met name die symbiose die een vakman ziet. Maar dat ‘zien’ valt niet gemakkelijk uit te leggen, net zo min als originaliteit uit te leggen valt…’ (Groene Amsterdammer, 1 november 2018).

Het probleem van rubrics is dat ze hoofdzakelijk van ‘klein’ naar ‘groot’ werken. De weg waarlangs het oordeel wordt gevormd loopt van de delen naar het geheel. Om bij het bloemenvoorbeeld te blijven: een rubric-gebruiker bedenkt van tevoren de ‘onderdelen’ waar een boeket uit bestaat (denk aan ‘kwaliteitsindicatoren’ als aantal, vorm en kleur), meet vervolgens de verschillende indicatoren en telt de deelmetingen bij elkaar op, en beschouwt, tot slot, de som als een valide maat voor de ‘boeketkwaliteit’.

Niet meer maar minder valide beoordeling

Iedereen snapt dat je aan de hand van deze beoordelingssystematiek niet aan de weet komt of een bos bloemen wel of niet ‘prachtig’ is. Je gaat immers voorbij aan de symbiose die de verschillende ‘onderdelen’ van het boeket met elkaar aangaan. Bovendien wordt op deze manier van beoordelen buiten beschouwing gelaten dat de ‘onderdelen’ vaak juist betekenis krijgen in het licht van het ‘geheel’, en dat je door het aanschouwen van het ‘geheel’ ook op het spoor kunt komen van ‘onderdelen’ waar je vooraf niet aan had gedacht.

Natuurlijk, het beoordelen van een bos bloemen kun je niet zomaar vergelijken met het beoordelen van een onderzoeksthese. Maar op z’n minst zullen we ons moeten afvragen in hoeverre de contextuele duiding van, en de zo lastig te doorgronden wisselwerking tussen, de onderdelen van een these kunnen worden opgepikt door de rechttoe-rechtaan optellogica van een rubric.

Met de opmars van het rubric-denken verdwijnt het belang van een meer integrale, holistische lezing van studentenwerk steeds meer naar de achtergrond. In het eerste geval wordt de ‘betekenis’ van het werk gereduceerd tot de losse prestaties op de onderdelen waar het werk uit bestaat. In het tweede geval wordt het werk meer als geheel beschouwd. Dit vanuit het idee dat de betekenis en oorspronkelijkheid van creatief-intellectueel werk schuilgaan in context en samenhang, en dat je die niet, of veel moeilijker, kunt vinden in een beschouwing-op-onderdelen. In dit licht kun je haast niet tot een andere conclusie komen dan dat het gebruik van rubrics niet tot méér valide maar juist tot minder valide beoordelingen leidt.

Conclusies

Rubrics verschaffen docenten de lat waarlangs zij de prestaties van studenten op een objectieve, transparante en gestandaardiseerde wijze kunnen meten en beoordelen. Geen student hoeft zich ooit nog af te vragen of zijn cijfer wel ‘klopt’, de door de docent ingevulde rubric levert er immers het ‘bewijs’ voor. Hoe logisch dit ook klinkt, toch heb ik hierboven enkele vraagtekens gezet bij de aannames achter, en mogelijke gevolgen van, het gebruik van rubrics. Op basis hiervan kan op zijn minst worden gezegd dat de aannames minder onwankelbaar zijn dan het massale gebruik van rubrics doet vermoeden, en dat de gevolgen aanleiding geven tot enige zorg.

Zoals eerder opgemerkt moet de opmars van rubrics worden gezien in de context van de huidige beheerscultuur van het hoger onderwijs. Chris van der Heijden spoorde eind 2018 (onderwijs)professionals aan om in het geweer te komen tegen deze cultuur in het algemeen, en de overorganisatie en systeemdwang die daar het gevolg van zijn in het bijzonder (Groene Amsterdammer, 1 november 2018). Ik zou deze aansporing hier graag toespitsen op de ‘systemisering’ die je thans ziet op het gebied van de studentbeoordeling.

Dit betekent in de eerste plaats dat we moeten ophouden met het onszelf opleggen van overmatige eisen ten aanzien van objectiviteit, controleerbaarheid (transparantie), meetbaarheid, standaardisatie en uniformiteit. Waarbij ik met ‘onszelf’ doel op alle niveaus die betrokken zijn bij kwaliteitszorg van onderwijs (ministerie van OCW, CvB, faculteitsbestuur, opleidingsmanagement, docenten).

‘Top-down’ zou een deel van de oplossing gevonden kunnen worden in het verminderen van de controledruk (lees vooral: visitatiedruk). ‘Bottom-up’ zouden docenten meer initiatief kunnen nemen ter bevordering van hun eigen verantwoordelijkheid voor de kwaliteit van toetsing en beoordeling. Zie in dit licht bijvoorbeeld mijn eerdere appèl: accepteer dat docenten verschillen, en dat je nooit helemaal kunt voorkomen dat zij gelijkwaardig werk anders zullen becijferen.

In het verlengde hiervan kunnen faculteiten nog een stap verder gaan door docenten toe te staan rubrics dynamisch(er) in te zetten. Waarom zou je rubrics niet kunnen ‘individualiseren’ door de evaluatiecriteria (aantal, inhoud, weging) en prestatie-indicatoren (niveaus, omschrijvingen) af te stemmen op alles wat ‘eigen’ is aan een werkstuk, of, op een hoger niveau, een specifieke cursus, een specifieke studentpopulatie, een specifiek leerjaar, en ga zo maar door?

Zorg, ten tweede, dat het primaat van de beoordeling van studentwerk weer komt te liggen bij de professionaliteit van (ervaren en beoordelingsbekwame) docenten. Geef hun het vertrouwen, in hun hoedanigheid als vakman, dat zij ‘het goede’ willen en zullen doen. Daarbij geldt: hoe meer vertrouwen je geeft aan de voordeur, hoe minder controle er nodig is aan de achterdeur.

Ten derde zou ik willen pleiten voor een verschuiving in de manier waarop we rubrics beschouwen en gebruiken: van een ‘handleiding’ naar een ‘handreiking’, van een bindend beoordelingsprotocol naar een hulpmiddel dat docenten mógen maar niet hóeven te gebruiken.

Vooral ervaren docenten zou je niet moeten willen dwingen in een beoordelingskeurslijf waar ze niet inpassen, helemaal wanneer het hun vakmansoordeel in de weg zit. Doe je dat wel, dan lijkt ‘burgerlijke ongehoorzaamheid’ nog de enige manier om uit het keurslijf te breken. Ondanks het strikt gereglementeerd gebruik van rubrics zullen de ‘rebellen’ onder de ervaren docenten zich terecht genoodzaakt zien om toch hun eigen prestatie-criteria te hanteren bij het beoordelen van complex studentenwerk. Criteria die zij hebben ontwikkeld op basis van hun eigen ervaring, voorkeuren en ‘best practices’.

Voor beginnende docenten is het een ander verhaal. Het ontbreekt hen vaak nog aan gedegen kennis van, en gebruikservaring met, de criteria aan de hand waarvan leerresultaten beoordeeld moeten of kunnen worden. Een gevolg is dat zij zich minder bewust zijn van alle beoordelaarsfouten die op de loer liggen. Ook is het voor beginnende docenten moeilijker om een academische prestatie op waarde te schatten omdat zij deze nog niet kunnen afzetten tegen een eigen professionele kwaliteitsstandaard. Zij missen simpelweg nog een ‘persoonlijke normgroep’ van eerder begeleide en beoordeelde studenten.

In het geval van beginnende docenten mag je daarom wel dwingend(er) zijn in het aanreiken van handvatten en richtlijnen ter verbetering van hun beoordelingsbekwaamheid. En ja, dan kun je ook denken aan het verplicht gebruik van rubrics als middel om docenten te ondersteunen en op weg te helpen bij het ontwikkelen, formuleren en toepassen van goede beoordelingscriteria. Maar ook minder gehypte professionaliseringsinstrumenten als workshops en docentenhandleidingen lijken hiervoor minstens even geschikt. Het gaat er uiteindelijk om dat je docenten een basis biedt waar vanuit zij zich (verder) kunnen bekwamen in het biasvrij beoordelen van het werk van hun studenten. Die basis mag stevig zijn, maar nooit een harnas.

Vooruitblik

Alles overwegende lijkt mij, tot slot, de tijd rijp om als onderwijsmanagement en docentenkorps de handen ineen te slaan, en gezamenlijk te kijken naar alternatieve beoordelingswijzen voor rubrics, en daarmee tevens naar oplossingen voor het aan studenten ‘spoon feeden’ van de criteria waar hun werk aan moet voldoen.

Het ligt dan voor de hand eerst te rade te gaan bij de holistische methoden, waarbij de globale beoordeling op grond van de totale indruk die een these (of ander leerresultaat) maakt, leidend is bij het vormen van een oordeel over de geleverde prestatie als geheel. Uit vergelijkend onderzoek blijkt bovendien keer op keer dat analytische ‘kenmerkmethoden’ (met gewogen prestatie-criteria) geen of slechts geringe winst opleveren in termen van cijferbetrouwbaarheid ten opzichte van de traditionele ‘glance and grade’-methoden (Bouwer & Koster, 2016; Straetmans, 1985).

Een tweede beoordelingsmethode waar onderwijsmanagers en docenten hun licht kunnen opsteken is comparatief beoordelen (Bouwer et al., in voorbereiding). Ook bij deze opkomende methode worden de prestatie-criteria terzijde geschoven. In plaats daarvan wordt het werk van studenten in paren vergeleken. Door studentproducten verschillende keren in verschillende paren te vergelijken, ontstaat uiteindelijk een rangschikking van ‘slechte’ naar ‘goede’ producten waaraan scores kunnen worden verbonden. Het achterliggende idee van comparatief vergelijken is dat mensen beter en betrouwbaarder zijn in het vergelijken van twee (of meer) producten dan in het toekennen van een absolute score aan een enkel product.

Meer aandacht voor deze en andere alternatieve beoordelingsmethoden kan helpen om het tij van doorgeschoten rubric-denken te keren, en het vertrouwen in studentbeoordeling terug te leggen bij docenten.

Van der Schoot heeft dit artikel op persoonlijke titel geschreven.

Menno van der Schoot is als universitair hoofddocent verbonden aan de afdeling Pedagogische- en Onderwijswetenschappen aan de Faculteit der Gedrags- en Bewegingswetenschappen van de Vrije Universiteit Amsterdam. Zijn onderzoek richt zich op het in kaart brengen en bevorderen van leerprocessen op het domein van begrijpend lezen en rekenen.

Literatuurverwijzingen

Balloo, K., Evans, C., Hughes, A., Zhu, X. & Winstone, N. (2018). Transparency Isn’t Spoon-Feeding: How a Transformative Approach to the Use of Explicit Assessment Criteria Can Support Student Self-Regulation. Frontiers in Education, 3:69.

Bouwer, R., & Koster, M. (2016). Bringing writing research into the classroom: The effectiveness of Tekster, a newly developed writing program for elementary students. Academisch proefschrift. Utrecht: Universiteit van Utrecht.

Bouwer, R., Lesterhuis, M., Bonne, P. & De Maeyer, S. (2018). Applying Criteria to Examples or Learning by Comparison: Effects on Students’ Evaluative Judgment and Performance in Writing. Frontiers in Education, 3:86.

Bouwer, R., De Smedt, F., Lesterhuis, M., De Maeyer, S., Van Keer, H. (2020). A comparative approach to the assessment of writing: the reliability and validity of comparative judgement and benchmark ratings. Manuscript in preparation.

Sadler, D.R. (2009). Indeterminacy in the use of preset criteria for assessment and grading. Assessment & Evaluation in Higher Education, 34, 2, 159–179.

Smith, H. (2008). Spoon-feeding: or how I learned to stop worrying and love the mess. Teaching in Higher Education. 13, 715–718.

Straetmans, G.J.J.M. (1985). Evaluatie in het tandheelkundig onderwijs: Beoordelen van werkstukken en meten van probleemoplosvaardigheid. Proefschrift. Nijmegen: Katholieke Universiteit.

Van der Heijden, C. (2018, 1 november). Professionals aan de lopende band. De Groene Amsterdammer, 2018 (44-45), 80-83.

Van Strien, J.L.H., & Joosten-ten Brinke, D. (2016). Het beoordelen van de kwaliteit van rubrics. Examens, 9, 1, 33-37.

« “Erasmus had een hekel aan middelmatigheid”

Navigatie

Categorieën

ScienceGuide gaat verder

Een scriptiebeoordeling past niet in een schema