Fraudeurs vangen met wetenschap

Nieuws | de redactie
9 juni 2017 | Als we weten hoe valsspelers werken dan kunnen we ze ook opsporen. Chris Hartgerink en Jelte Wicherts van Tilburg University doen onderzoek naar methoden om frauderende onderzoekers in de kraag te vatten.

De grote onderzoeksschandalen van de afgelopen jaren hebben veel losgemaakt in de wetenschappelijke gemeenschap. Maar voorbij het opstellen van manifesten en het formuleren van integriteitsbeleid buigt een kleine groep wetenschappers zich over de vraag: hoe doen ze het eigenlijk? Want als je eenmaal weet hoe de dader tot zijn daad komt, is opsporing een stuk gemakkelijker.

Gefabriceerde data

“De eerste strategie die bij je opkomt om de werkwijze van de fraudeur te achterhalen is natuurlijk om ze gewoon even te bellen.” Zo opende Chris Hartgerink de sessie over ‘methoden om schendingen van de wetenschappelijke integriteit te signaleren’ op het World Conference on Research Integrity aan de VU vorige week. “Maar die mensen gaan daar natuurlijk geen antwoord op geven, als je al weet wie je moet bellen.”

Daarom vroeg Hartgerink een groep onderzoekers of ze binnen de restricties van een fictieve onderzoeksopzet ‘nepdata’ wilden genereren. Daarbij vroeg hij hen om datasets te verzinnen waar wel significant en niet significante in zaten. Ofwel: verzin de uitkomst van nepproeven die juist geen of juist wel een effect moesten opleveren. Hiervoor kregen de wetenschappers natuurlijk een beloning,

“Opvallend was dat de gefabriceerde niet-significante data er redelijkerwijs uitzien als échte niet-significante data.” Juist wanneer onderzoekers significante verschillen moesten fabriceren was dat volgens Hartgerink vaak wel zichtbaar; vergeleken met echte data waren de effecten veel te groot. Deze gefabriceerde data werden dus overmatig overdreven.

In een volgend onderzoek is Hartgerink inmiddels bezig om door middel van interviews met meewerkende wetenschappers te achterhalen welke strategieën ze toepassen, zouden ze zelf data fabriceren en/of detecteren. De eerste resultaten hiervan zijn inmiddels binnen en openbaar beschikbaar en leveren interessante inzichten.

“Hoe ‘rommeliger’ de data is, des te meer ik het vertrouw.” Is een van de antwoorden die Hartgerink kreeg op de vraag hoe ‘echte’ data er uit ziet. “Wat ik denk dat mensen doen die data vervalsen en het er toch ‘echt’ uit te laten zien, is een paar goed verschillende nepuitkomsten pakken, en daar gewoon wat geloofwaardige ruis aan toevoegen.” Al met al gaven veel participanten aan dat data er ‘random’ uit moest zien – dat terwijl het genereren van willekeurige getallenreeksen iets is waar mensen (en dus onderzoekers) bijzonder slecht in blijken te zijn.

Duidelijk is wel dat instellingen het nog altijd erg spannend vinden om dit soort onderzoek de ruimte te geven. Op een vraag uit de zaal hoe er in het veld werd gereageerd vertelt Hartgerink: “Het is wel even in het decanenoverleg terechtgekomen. Die kregen uit de afdelingen te horen dat er een onderzoek werd gedaan en dat vonden ze toch eng. Maar gelukkig werden we ook benaderd door individuele onderzoekers die juist heel graag mee wilden doen aan ons onderzoek. Ik heb een paar teleurgestelde reacties gehad toen ik moest zeggen dat we al ons maximum aantal bereikt hadden.”

De wet van Benford

Gelukkig weten we al het een en ander over hoe je vervalste data kunt herkennen. Een van de methoden is afgeleid uit de wet van Benford. “Deze stelt dat in een willekeurige dataset niet alle cijfers even vaak voorkomen, sterker nog er zit iets heel vreemds in de verdeling”, aldus Jelte Wicherts. Waar je zou verwachten dat de getallen van 1 tot 9 even vaak voor zouden komen, is het vele malen waarschijnlijker een 1 dan een 9 te vinden.

“Je kunt dus door een simpele analyse van de ruwe data al snel een idee krijgen of er iets ongebruikelijks gebeurt.” Wicherts legt uit dat aan de hand hiervan het mogelijk wordt om gevallen van vermoede fraude aan een eerste test onderhevig te maken. “Een atypische verdeling is alleen geen ‘bewijs’ dat er gefraudeerd is, maar je haalt zo wel de gevallen er uit die het onderzoeken waard zijn.”

Dit type fraudedetectie blijkt tevens een handige manier om belasting- en verkiezingsfraude op te sporen. Door te kijken naar de verdeling in de cijfers in de bedragen die mensen opgeven bij de belasting, of de verdeling van stemmen in kiesdistricten kun je verdachte patronen signaleren.

“Elk vakgebied vereist echter weer een eigen benadering, door te kijken naar de specifieke omstandigheden.” zegt Hartgerink. “Benford’s law is namelijk van toepassing op financiën, omdat er genoeg bewijs is dat deze daar goed werkt. Binnen wetenschap variëren de cijfers op een andere manier, waardoor deze soms, maar niet altijd, toepasselijk is.” Communicatie tussen de verschillende vakgebieden om van elkaar te leren lijkt dus van cruciaal belang om fouten te voorkomen.


Schrijf je in voor onze nieuwsbrief
«