Tijdschriften met hoge impact factor zijn minder betrouwbaar

Interview | door Sicco de Knecht
1 maart 2018 | Het is een populaire vorm van Schadenfreude onder onderzoekers: teruggetrokken wetenschappelijke artikelen. Toch geven deze verhalen waarschijnlijk een slecht beeld van de betrouwbaarheid van wetenschappelijke tijdschriften. Veel informatiever is het volgens Neurogeneticus Björn Brembs (Universität Regensburg) om te kijken naar de betrouwbaarheid van niet-teruggetrokken artikelen.

Websites als Retraction Watch en PubPeer die een scherp oog hebben voor slordige wetenschappelijke praktijken en fraude zijn in korte tijd ongekend populair geworden onder wetenschappers. Naast de zuiverende werking die dergelijke platforms (claimen te) hebben, lijkt de aantrekkingskracht voor de lezer niet in de laatste plaats ingegeven te zijn door de genoegdoening om valsspelers gepakt te zien worden.

Ook binnen het wetenschapsonderzoek wint onderzoek naar teruggetrokken publicaties terrein. Volgens Neurogeneticus Björn Brembs (Universität Regensburg) is dat begrijpelijk maar leidt deze overdadige aandacht af van de belangrijkere vraag of de niet-teruggetrokken artikelen dan wel betrouwbaar zijn.

“Teruggetrokken artikelen vormen nog geen 0.05% van de beschikbare literatuur,” zo stelt hij in een onlangs verschenen publicatie in het tijdschrift Frontiers in Human Neuroscience. Hierin vat hij het onderzoek naar de samenhang van de Impact Factor en de betrouwbaarheid van onderzoek spitsvondig samen: “experimenten in tijdschriften met een hoge ranking zijn methodologisch niet sterker dan in tijdschriften met een lage ranking. Sterker nog, ze zijn vaak wetenschappelijk minder sterk.”

Impact Factor nog altijd bepalend voor carrière

De geest is inmiddels wel uit de fles als het gaat om de discussie over de zin en onzin van de Impact Factor. Buiten de vraag of de kwaliteit van wetenschap wel aan de hand van iets als een citatiescore zou moeten worden afgelezen wordt in twijfel getrokken of wetenschappelijke publicaties in tijdschriften met een hoge IF eigenlijk wel betrouwbaar zijn – selecteren ze niet te veel op hoe ‘sexy’ onderzoek is?

Met name de reproduceerbaarheid van experimenten stond de afgelopen tijd in de belangstelling. Spraakmakend was onder andere het werk van psycholoog Brian Nosek, die honderd psychologische experimenten herhaalde en maar in de helft van de gevallen een vergelijkbare uitkomst kreeg.

Brian Nosek over de replicatiecrisis

Toch is de IF nog altijd een bepalende factor voor iemands wetenschappelijke carrière, zo stelt Brembs in zijn artikel. “Vandaag de dag is het publiceren van grensverleggende resultaten in tijdschriften met een hoge ranking niet alleen belangrijk voor de wetenschap in het algemeen, maar ook voor de carrière van de individuele wetenschapper.” Volgens Brembs houdt dit systeem zich door deze cirkelredenering in stand, waardoor het zo moeilijk is er afscheid van te nemen.

Teruggetrokken artikelen geven slecht beeld van betrouwbaarheid tijdschrift

In een serie van argumenten poogt Brembs een logica te ontwaren in de hoeveelheid teruggetrokken artikelen in tijdschriften met een hoge en lage IF. Zo stelt hij dat het voor de hand zou liggen dat tijdschriften met een hoge IF zowel meer als minder terugtrekkingen zouden hebben. Aan de ene kant hebben die tijdschriften een reputatie hoog te houden, maar aan de andere kant worden artikelen wel door veel meer mensen gelezen

Uit analyse blijkt dat, in absolute termen, de meeste teruggetrokken artikelen uit tijdschriften met een lage IF komen, maar veel zegt dit volgens Brembs niet. Een argument dat tijdschriften met een hoge IF harder werken om hun reputatie schoon te houden lijkt niet op te gaan, maar in het algemeen, “ligt het voor de hand om deze uitbijters [de teruggetrokken artikelen, red] niet te beschouwen als het gaat om de betrouwbaarheid van tijdschriften.”

Als algemene peiling van de betrouwbaarheid heeft Brembs een aantal maten van betrouwbaarheid uitgezet tegen de IF, uit de literatuur genomen en samengevat. Brembs heeft daarbij gekeken naar verschillende vakgebieden met elk hun eigen (eerste) pogingen om de relatieve betrouwbaarheid van het gepubliceerde werk in tijdschriften te bepalen. Daaruit komt een bijzonder beeld naar voren.

Van knullig tot alarmerend

Een van de voorbeelden die in het oog springen is het veelbesproken ‘Excel-probleem’ in de genetica. Waarschuwing: dit probleem dat in 2016 werd beschreven door Marc Ziemann en zijn collega’s werkt enigszins op de lachspieren. De ‘default’ setting in Excel is namelijk dat tekst automatisch wordt gecorrigeerd, afhankelijk van de instelling van het veld in Excel. Dat blijkt een instelling die een slechte combinatie vormt met de typische namen die aan genen worden toebedeeld. Zo kan het zijn dat een gen genaamd MARCH1 De namen van genen zijn vaak afkortingen van de (veronderstelde) functie van het gen of de eigenschap waar ze mee te maken hebben. In dit geval staat MARCH1 voor 'Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase', en heeft het dus geen enkele relatie met de eerste dag van de maand maart. automatisch wordt verbeterd naar 1-Mar, de wijze waarop Excel een datum noteert.

Zo nu en dan duiken er dan ook genen op die, al dan niet significant, betrokken zijn bij een bepaald biologisch proces. Dat terwijl de genen helemaal niet bestaan. Een slordigheidje misschien, maar het geeft wel aan met welke mate van nauwkeurigheid reviewers te werk gaan. De mate waarin tijdschriften dit adequaat weten te voorkomen zou dan ook kunnen worden gezien als een vorm van betrouwbaarheid. Hierop scoren tijdschriften met een hoge IF echter significant lager dan tijdschriften met een lage IF.

Links: het percentage van de artikelen waar fouten in de lijst van genen geslopen is, uitgesplitst per tijdschrift. Rechts: de groei in het aantal bestanden met fouten over de jaren heen. (uit Ziemann et al. 2016 via Brembs 2018)

Zorgwekkender zijn de verhoudingen tussen de mate van robuustheid Naast de algemeen bekende betekenis van robuust als 'sterk en stevig' betekent de term in de statistiek dat een methode bij herhaling vergelijkbare resultaten oplevert - en dus niet gevoelig is voor extreme waarden. van onderzoek en de IF van het tijdschrift. Zo blijkt uit een eerdere analyse van de auteur zelf dat er tussen de experimentele power Bij het interpreteren van experimentele data is het belangrijk om te weten hoe groot de kans is dat je onterecht de verkeerde conclusie trekt (de p-waarde is hier een maat van). Maar minstens zo belangrijk is hoe groot de kans is dat je terecht de juiste conclusie trekt: verwerp je terecht de nulhypothese? Verscheidene factoren spelen hierin een rol maar een hele belangrijke is dat de groepsgrootte (het aantal subjecten/dieren in een proef) niet te groot, maar zeker niet te klein is. De experimentele power is hier een maat van, en binnen wetenschapsgebieden zijn er conventies over welke power wenselijk/benodigd is. van neurowetenschappelijke publicaties en de IF geen relatie bestaat. De high-impact tijdschriften selecteren dus niet specifiek op hoe robuust – en dus betrouwbaar – een proefopzet is.

In de cognitieve neurowetenschappen, een vakgebied dat meer richting de psychologie zit, vonden collega’s Scucz en Ioannidis zelfs een negatieve correlatie tussen power en IF. Dat betekent over het algemeen dat deze artikelen veelal gebaseerd zijn op proeven met te weinig proefpersonen om een betrouwbare uitspraak te doen. Dit probleem wordt vergroot door het feit dat dit type proeven over het algemeen onder een zeer homogene groep wordt uitgevoerd – bachelorstudenten psychologie – wat de claims minder extrapoleerbaar Deze term komt oorspronkelijk uit de wiskunde en geeft aan hoe makkelijk te voorspellen het volgende getal in een reeks is. De term wordt tevens gebruikt om te beschrijven hoe goed resultaten uit een onderzoek 'te vertalen' zijn naar een andere context. maakt.

Het percentage fout geïnterpreteerde resultaten uitgezet tegen de impact factor (IF) (uit Scucz & Ioannidis 2016 via Brembs 2018).

De hoop uiteraard is dat grote claims, die vaker in tijdschriften met een hoge IF worden gepubliceerd, ook een hogere mate van zekerheid zouden hebben. Dit blijkt echter niet zo te zijn, p-hacking De populaire term p-hacking slaat op het manipuleren van de zogenaamde p-waarde van een proef. Simplistisch gedacht wil een onderzoeker die op zoek is naar een significant resultaat een p-waarde onder een bepaald getal (typisch: p < 0.05). Daar valt op meerdere manieren, die overigens allemaal vallen onder slordige wetenschap of fraude, mee te spelen. Een manier waarop dit kan is door regelmatig de data die binnenstroomt uit een experiment te analyseren en te stoppen zodra de p-waarde onder de gewenste grens uitkomt. komt vaker voor in tijdschriften met een hoge IF. Brembs vult aan: “Interessant is dat de fouten die gemaakt worden in grotere mate een niet-significante p-waarde betroffen die als significant uit de berekening was gekomen.”

Selectiedruk verminderen enige evidence-based oplossing

Al met al komt Brembs tot de conclusie dat, als er al een verband bestaat tussen de IF en de betrouwbaarheid, deze relatie negatief is. Des te hoger de IF, des te lager de betrouwbaarheid. Dit lijkt wederom het beeld te bevestigen dat ‘interessantie’ voor tijdschriften met een hoge IF relevanter blijkt dan of het ook een robuust onderzoek betreft.

In zijn conclusie stelt hij dan ook dat het geschetste beeld van de relatie tussen IF en betrouwbaarheid naadloos aansluit op de te verwachten gevolgen van een grote selectiedruk op het niveau van individuele wetenschappers. “Al na een generatie zien we de effecten van selectiedruk terug in de betrouwbaarheid van de wetenschappelijke literatuur.” Om die reden stelt hij voor de selectiedruk te verminderen: “dat is het beste evidence-based beleid dat we op dit moment hebben om het vertrouwen in de wetenschap en de maatschappelijke wil deze te bekostigen te waarborgen.”

Literatuurverwijzingen

Brembs B (2018)

Prestigious Science Journals Struggle to Reach Even Average Reliability. Frontiers in Human Neuroscience 12:37. doi: 10.3389/fnhum.2018.00037

Mark Ziemann, Yotam Eren and Assam El-OstaEmail

Genome Biology 201617:177
https://doi.org/10.1186/s13059-016-1044-7©
Published: 23 August 2016

Szucs, D., and Ioannidis, J. P. A. (2016).

Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. bioRxiv doi: 10.1101/071530


Schrijf je in voor onze nieuwsbrief
«

ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.

Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan

OK