Spreken over een ‘replicatiecrisis’ is onjuist en schadelijk

Daniele Fanelli over repliceerbaarheid als heilige graal

Interview | door Jop de Vrieze
23 mei 2018 | Er wordt de laatste tijd veel gesproken over de ‘replicatiecrisis’ in de wetenschap. Onterecht en onverstandig, vindt wetenschapsonderzoeker Daniele Fanelli. Hij schreef er een tegendraads opiniestuk over in Proceedings of the National Academy of Sciences. ‘Replicatie lijkt symbool te staan voor waarheid en eerlijkheid, wat onzin is.’
Daniele Fanelli

Wanneer Daniele Fanelli in 2008 aan de Universiteit van Edinburgh onderzoek begint te doen naar de wetenschappelijke praktijk, is hij vastberaden om aan te tonen hoe erg het wereldje eraan toe is. Fraude, gerommel met resultaten, biases, hij zal het allemaal met harde data gaan aantonen. Net als zoveel collega’s heeft ook hij frustraties over de dagelijkse praktijk en vraagt hij zich regelmatig af waarom hij überhaupt nog iemands resultaten zou geloven.

Maar wanneer hij in 2015 komt te werken bij het gerenommeerde Meta-Research Innovation Center Metrics aan de universiteit van Stanford, is hij al een stuk minder overtuigd van het narratief wat ook daar domineert: science is broken.

Naarmate zijn resultaten zich beginnen op te stapelen en ook andere onderzoekers met hun bevindingen komen, begint het plaatje wat Fanelli voor zich ziet steeds minder ernstig te worden. Tijdens de World Conference on Research Integrity in Amsterdam in mei 2017, laat hij zich ontvallen ongelukkig te zijn met het narratief. In maart 2018 maakt hij zijn standpunt officieel, met de publicatie van een opinie-artikel in PNAS, getiteld ‘Is science really facing a reproducibility crisis, and do we need it to?’

Is science really facing a reproducibility crisis?

In dit artikel betoogt hij op basis van gepubliceerde analyses dat het met de reproduceerbaarheid in de psychologie en andere vakgebieden minder dramatisch gesteld is dan vaak wordt beweerd, dat het probleem niet erger is dan voorheen en dat het schadelijk kan zijn voor de wetenschap om steeds over een crisis te blijven spreken.

Wanneer bent u overtuigd geraakt van het feit dat er helemaal geen replicatiecrisis is?

Het kantelpunt kwam in augustus 2015, bij het verschijnen van de resultaten van het Reproducibility Project: Psychology. Die resultaten werden in de media als dramatisch afgeschilderd, maar dat beeld klopte wat mij betreft niet. Het steeds aangehaalde cijfer, dat veertig procent van de studies herhaalbaar bleken, is het meest negatieve cijfer wat ze konden noemen. Ze hadden ook kunnen inzoomen op het feit dat de originele studies en de replicaties samen in 70 procent van de gevallen een significant resultaat gaven.

Om verschillende niet ernstige redenen (andere onderzoekspopulatie en veranderde sociale omstandigheden sinds de originele studie werd uitgevoerd) verwacht je sowieso niet dat alle psychologiestudies herhaalbaar zijn, dan is zeventig procent zeker niet de ramp die was verwacht. En nieuwe analyses van de data lieten helemaal weinig heel van het negatieve beeld. Recentere replicatieprojecten laten ook betere cijfers zien dan die veertig procent.’

En dat sluit aan bij uw eigen resultaten?

Inderdaad. Wij hebben onder meer gekeken naar publicatiebias. Die is er wel, maar wij laten zien dat het overall een zwak effect is en de wetenschap niet disfunctioneel maakt. We moeten ons blijven baseren op data, het bewijs voor dit soort problemen is dun.

Maar u kunt toch niet zomaar stellen dat alles in orde is? Het artikel in PNAS leest ook wel als een eenzijdig, rooskleurig beeld.

Laat me de data maar zien waaruit het blijkt dat het niet zo is. Ik zal het je nog sterker vertellen: nadat ik dit artikel schreef, kwam ik erachter dat de situatie nog minder ernstig is. Ik schreef bijvoorbeeld nog dat p-hacken wel veel voorkomt. Maar zelfs dat blijkt niet waar. Er is helemaal geen bewijs van grootschalige p-hacking De populaire term p-hacking slaat op het manipuleren van de zogenaamde p-waarde van een proef. Simplistisch gedacht wil een onderzoeker die op zoek is naar een significant resultaat een p-waarde onder een bepaald getal (typisch: p < 0.05). Daar valt op meerdere manieren, die overigens allemaal vallen onder slordige wetenschap of fraude, mee te spelen. Een manier waarop dit kan is door regelmatig de data die binnenstroomt uit een experiment te analyseren en te stoppen zodra de p-waarde onder de gewenste grens uitkomt. .

Er is toch best veel onderzoek gedaan naar dit soort fenomenen?

Klopt, maar veel ervan is vragenlijstonderzoek, waarbij wetenschappers werd gevraagd of ze bepaalde praktijken kennen en denken dat anderen zich eraan schuldig maken, bijvoorbeeld. Dat vind ik geen sterk bewijs.

Anderen spreken eerder over ‘het topje van de ijsberg’.

Klopt, zo zien zij het. Maar ik baseer me op data, niet op vermoedens.

Hoe is er op uw artikel gereageerd?

Sommige collega’s op social media waren echt over de zeik. Iemand schreef een commentaar op Pubpeer, de site waarop wetenschappelijke artikelen worden bekritiseerd. Dat commentaar was niet wetenschappelijk, het was hysterisch. Pure emotie.

Wat drijft u om deze boodschap dan toch voor het voetlicht te brengen?

Ik zie dit als een manier om mijn wetenschappelijke steentje bij te dragen. Als de wetenschap er echt zo erg aan toe was, dan zou ik dat opschrijven. Maar dat is niet zo en dus probeer ik de waarheid te vertellen over de bewijzen die we hebben. En de dubbele schade die wordt aangericht, is dat er niet alleen gezocht wordt naar oplossingen voor problemen die er niet zijn, maar dat ze ook mensen met andere motieven de gelegenheid bieden om wetenschap te verwerpen. Dat bewijst het NAS-rapport.

Hij doelt op een rapport van de Amerikaanse National Academy of Scholars, wat uitkwam op 17 april. Titel: ‘the irreproducibility Crisis of Modern Science.’ De National Academy of Scholars, niet te verwarren met de National Academy of Sciences, is een Amerikaanse conservatieve belangengroep. In het rapport, dat in ontvangst werd genomen door verschillende republikeinse congresleden, wordt uitgebreid ingegaan op wat er allemaal wel niet mis is in de psychologie en de medische wetenschap. Vervolgens wordt dit gekoppeld aan de stellingname dat klimaatonderzoek een hoax is. ‘Dat laat zien dat de manier waarop de kritiek op de wetenschap wordt geuit, wel degelijk heel contraproductief kan werken.’

De discussie tussen critici en mensen zoals u die daar tegenin gaan doet denken aan de ‘Science Wars’ van de jaren negentig, waarin de objectiviteit van de wetenschappelijke methode in twijfel werd getrokken en wetenschappers in de verdediging schoten.

Ten dele. Ik vind dat dit debat wetenschappelijker is dan dat van toen. Geen van de critici vindt nu dat de wetenschappelijke methode helemaal verworpen moet worden. Maar het is wel ironisch dat de mensen die zich zo druk maken over de biases van hun collega’s, er zelf zoveel last van lijken te hebben.

U hebt in Stanford ook samengewerkt met John Ioannidis, die zo ongeveer de personificatie is van het narratief waar u zich nu tegen afzet. Heeft u al met hem over uw artikel gesproken?

Nee. Toen ik in Stanford werkte hebben we hier wel wat gesprekken over gevoerd. Hij is zeker geen optimist zoals ik ben. Hij is een inspirator, maar dat betekent niet dat hij overal gelijk in heeft.

U schrijft dat er voor verandering geen gevoel van crisis nodig is. Maar is dat niet wat gratuit om te zeggen? Er is de laatste jaren vooral in de psychologie veel veranderd, juist omdat men voelde dat het móest.

Allereerst vind ik niet dat we de wetenschap verrot hoeven verklaren om open data of het preregistreren van studies (vooraf de hypothese en analyses vastleggen) te rechtvaardigen. Bovendien, de psychologie heeft al de nodige crises doorgemaakt, omdat het bestuderen van menselijk gedrag, nu eenmaal te ingewikkeld is voor de beschikbare methoden. Er wordt steeds een hoop stampij gemaakt, gediscussieerd over wat er allemaal moet veranderen en vervolgens is het weer vijftien jaar stil. Ik geloof niet dat de huidige veranderingen voortkomen uit een crisis. Het zijn aanpassingen aan het internet en de goedkope rekenkracht van computers. Dat biedt nieuwe mogelijkheden en uitdagingen, en daarom vind ik het woord ‘revolutie’ veel passender en meer feitelijk.

Ook de nadruk op repliceerbaarheid is gewoon een logische ontwikkeling, volgens u?

Ja. Er heeft zich een jonge generatie aangediend voor wie het normaal is dat je van alles deelt. De focus op repliceerbaarheid komt voort uit het feit dat iedereen met software en code werkt die je kunt delen. Er is ook sprake van een culturele ontwikkeling: vroeger was het uitvoeren van een wetenschappelijk experiment iets voor een expert, tegenwoordig moet iedereen in staat zijn om op basis van het protocol hetzelfde experiment uit te voeren.

Maar het is toch goed om onderzoek zo repliceerbaar mogelijk te maken?

Natuurlijk. Maar er worden verschillende zaken op een hoop gegooid. Wanneer een nieuw resultaat niet statistisch overeenkomt met het originele, zijn daar meerdere verklaringen voor mogelijk. Publicatiebias, fraude, de populaties verschillen, het fenomeen is niet generaliseerbaar… Nu wordt het te simplistisch gebracht. Ooit hadden we achttien verschillende termen voor repliceerbaarheid, nu gaat het nog nauwelijks over dat onderscheid. Het lijkt nu allemaal teruggebracht tot één term, die synoniem staat voor waarheid en eerlijkheid, wat belachelijk is.

“”Ooit hadden we achttien verschillende termen voor repliceerbaarheid, nu gaat het nauwelijks nog over dat onderscheid””

Wat zou de plek moeten zijn voor replicatieprojecten in de wetenschap?

Replicatiestudies maken een belangrijk onderdeel uit van het wetenschappelijke proces en moeten zeker meer gebeuren, bijvoorbeeld door beginnende onderzoekers. Ik heb wel een dubbel gevoel bij het beschikbaar stellen van fondsen speciaal voor replicatiestudies, zoals NWO doet in Nederland. Het is erg onduidelijk wat we met de resultaten ervan moeten. Zolang we nog geen goede methoden hebben om aan te tonen wat de oorzaak van de mislukte replicatie is, vraag ik me af of zo’n fonds wel een goede bestemming is voor de beperkte financiële middelen.

U schrijft dat u niet tegen maatregelen bent zoals registered reports of open data, maar tegelijk heeft u het over ‘oplossingen voor niet bestaande problemen’. Dat klinkt tegenstrijdig.

Zoiets als registered reports vind ik een interessant idee, maar het gaat niet het probleem van ‘waarheidsvinding’ oplossen. Wanneer je een slechte studie preregistreert, is het nog steeds een slechte studie. Dus als we niet kritisch zijn over dit soort initiatieven, lopen we het risico dat we ze gaan introduceren als ‘redders van de waarheid’. Wat ook te weinig wordt besproken is het kostenaspect. We moeten behoedzaam zijn, experimenteren en niets zomaar tot de nieuwe standaard verheffen.

Wat vindt u van die andere kritiek, dat perverse prikkels het wetenschappelijk bedrijf ondermijnen, doordat alles draait om publiceren in toptijdschriften en geld binnenhalen?

Ook daarover ben ik sceptisch geworden. Ik heb de bewijzen gezocht, maar ze niet gevonden. Intuïtief kom je al snel tot de conclusie dat de wetenschap een wereld is met weinig controlemechanismen waar vals spelen loont. Maar ook hier is er weer nauwelijks hard bewijs dat het allemaal mis is. Er wordt altijd beweerd dat wetenschappers steeds meer publiceren, dat ze bevindingen opknippen in kleine publiceerbare eenheden. Maar als we corrigeren voor samenwerkingen, publiceren wetenschappers helemaal niet meer dan voorheen. Oproepen tot minder publiceren vind ik eerlijk gezegd nogal zelfzuchtig. In feite zeg je: “laat ons minder hard werken”. Niemand roept “laat ons minder samenwerken”, omdat dat een makkelijke manier is om aan veel publicaties te komen. Dat is mijn cynische kijk op de publicatiecultuur.

Het is wel erg meta allemaal eigenlijk hè? U hebt kritiek op het vakgebied wat kritisch is over de wetenschap.

Klopt ja, erg meta. Misschien zit er ook wel een ironie in inderdaad. Een niet te voorkomen ironie.


Anderen over de opvattingen van Fanelli

Michèle Nuijten, universitair docent statistiek en methoden van psychologie, Universiteit Tilburg:  “Om te beginnen vroeg ik me af waar dit ineens vandaan kwam, gezien zijn eigen oeuvre aan papers die bewijs vinden voor problemen in de wetenschap. Daarna voelde ik heel veel weerstand. Dat vond ik interessant, want daarin merk je hoe verleidelijk het is om aan je eigen paradigma vast te blijven houden. Dus ik vond het ook een goeie oefening om uit te zoomen en te kijken naar mijn eigen onderzoek en opvattingen. In die zin vind ik het goed dat het besproken wordt en dat niet iedereen die zegt dat er geen crisis is weggezet wordt als een volslagen idioot die zijn eigen papers bij elkaar heeft ge-p-hackt.

Ik moet wel zeggen dat ik inhoudelijk niet erg onder de indruk was van de dingen die hij aankaart. Als ik in mijn hoofd de dingen naast elkaar leg, neig ik nog steeds wel naar: er is wél een crisis. Neem bijvoorbeeld zijn bewering dat er geen bewijs is voor grootschalige p-hacking. Er zijn meerdere studies die er direct bewijs voor vinden. Bijvoorbeeld een studie die proefschriften vergelijkt met de uiteindelijk gepubliceerde hoofdstukken. Het bleek dat de resultaten in de publicaties veel rooskleuriger werden neergezet dan in het proefschrift. Verder blijkt uit vergelijkingen tussen preregistraties en publicaties dat er toch nog steeds vaak tussen variabelen geswitcht wordt, om het verhaal beter te maken.”

Daniel Quintana, onderzoeker biologische psychiatrie aan de Universiteit van Oslo en co-host van de podcast Everything Hertz over ontwikkelingen in de (open) wetenschap: “Er is zeker een crisis, die erger is in sommige onderzoeksgebieden dan in andere. Inderdaad, sommige studies zijn goed repliceerbaar gebleken, maar veel niet. De term crisis is op zijn plek, want als we op onze handen blijven zitten en niets doen, dan zullen we als psychologen studies blijven publiceren die niet repliceerbaar zijn. Ik kan me ten dele vinden in de klacht van Fanelli dat de term ‘repliceerbaarheid’ te breed en te vaag is. Maar het omvat wel het hele probleem. Het kan zijn dat de huidige ontwikkelingen richting open wetenschap een gevolg zijn van technologische ontwikkelingen, maar als niemand zijn mond opentrekt, leren de jonge digital natives gewoon hoe wetenschap te bedrijven van hun mentoren. De moderne tijd heeft ons het gereedschap gegeven, aan ons om ervoor te zorgen dat ze ook echt gebruikt gaan worden.”

Chris Chambers, hoogleraar cognitieve neurowetenschap aan de Universiteit van Cardiff en de drijvende kracht achter registered reports, verklaarde tegenover Times Higher Education “weg te blijven van het woord crisis’  omdat het ‘emotioneel en polariserend is’, maar dat niettemin veel studies niet repliceerbaar zijn en dat dit moet worden gerepareerd.”

Marcus Munafo, hoogleraar biologische psychologie aan de universiteit van Bristol, noemt het tegenover Times Higher Education “niet noodzakelijk relevant” of er sprake is van een crisis. Volgens hem is het belangrijk dat er kwesties op te lossen zijn, die met name te maken hebben met de beloningsstructuren in de wetenschap.

Malcolm MacLeod, hoogleraar neurologie en translationele neurowetenschap meldt tegenover hetzelfde medium dat niet moet worden vergeten dat de crisisterminologie opkwam toen wetenschappers anderen ervan moesten doordringen wat er mis was in de wetenschap. ‘Dat volledig loslaten zou een vergissing zijn.’

Jop de Vrieze :  Wetenschapsjournalist en schrijver.

Jop de Vrieze is opgeleid als medisch bioloog en schrijft over alles wat met levenswetenschappen te maken heeft.


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK