Directe peer review op data

Interview | de redactie
10 april 2018 | “Ik wil, bij wijze van spreken, nog tijdens iemands presentatie op een congres kunnen bepalen of die onderzoeker de data goed weergeeft.” De open science beweging is een ontwikkeling die sterk afhankelijk is van de mogelijkheden van software. Het eScience Center ontwikkelde samen met onderzoekers van de Radboud en Wageningen universiteit het softwarepakket dat precies aan de vraag hierboven beantwoordt: SPOT.
http://hucopix.com
Faruk Diblen – Foto: Elodie Burrillon

De datarevolutie is nog in alle hevigheid gaande en een van de resultaten hiervan is dat onderzoekers vaak met multidimensionale datasets werken. Om enige grip te krijgen op die complexiteit heeft de onderzoeker handvatten nodig. Een voorbeeld daarvan is het softwarepakket dat Jisk Attema en Faruk Diblen van het eScience Center ontwikkelden in samenwerking met onderzoeker Sascha Caron (Radboud Universiteit): SPOT. Een interactief online softwarepakket dat sinds kort open source beschikbaar is voor iedereen.

Toetsenbord is niet nodig

“Waar wij ons op hebben gericht in de ontwikkeling van SPOT is de vraag hoe je op een eenvoudige manier data met verschillende dimensies weergeeft,” vertelt Attema die zelf een achtergrond heeft in de natuurkunde. Hij neemt de klimaatwetenschappen als voorbeeld, niet toevallig omdat de oorsprong van het project in deze discipline lag. “Wij wilden bijvoorbeeld weten of hittegolven een interactie aangaan met de omgeving.” In andere woorden: is het tijdens een hittegolf warmer in de stad dan op het platteland? En zijn er dan ook buurten waar je op moet letten? Attema: “Je wilt bijvoorbeeld weten of er in een bepaalde buurt meer ouderen wonen?”

Attema vindt het een prachtig gegeven dat er tegenwoordig zo veel data publiekelijk beschikbaar is. “Demografische data bijvoorbeeld, kun je zo krijgen van het CBS. Maar je moet er wel op een of andere manier inzicht in krijgen, anders heb je er alsnog niets aan.” De echte kloof tussen de potentiële meerwaarde van grote datasets en de mate waarin daarop wordt gekapitaliseerd moet nog altijd door de onderzoeker zelf overbrugd worden. “Maar niet iedereen is even bedreven in het beheren van grote datasets. Daar moet je meestal voor kunnen programmeren.”

De (overlevenden van de) ramp met de Titanic, een voorbeeld van een multidimensionale dataset. In beeld gebracht in SPOT.

Softwarepakketen om met grote datasets om te gaan zijn er wel, maar er zijn nadelen. “Ze kosten geld, en vaak is het een hele klus om hier op de juiste data in te laden,” zegt Diblen, die een achtergrond in de kunstmatige intelligentie heeft. Hij is er vooral trots op dat er voor het gebruik van SPOT geen enkele kennis of vaardigheid in het programmeren voor nodig is. “We hebben het zo eenvoudig mogelijk gemaakt, zodat de drempel om het te gebruiken zo laag mogelijk is,” wat Diblen betreft is het project vooral ‘geslaagd’ te noemen omdat het niet eens nodig is om het toetsenbord te gebruiken.

Een directe vorm van peer review

De concrete vraag die aanleiding gaf voor het project lag bij de onderzoekers waarmee Attema en Diblen samenwerkten. “Onze onderzoekspartner, Sascha Caron, gaf ons als voorbeeld dat hij eigenlijk nog tijdens het praatje van een vakgenoot op een congres even wilde kunnen spelen met de data – mits deze online beschikbaar was – om mee te kunnen kijken.” Een zeer directe vorm van peer review dus.

Volgens Attema en Diblen is dit ook de richting waar veel wetenschapsgebieden naartoe bewegen. Attema: “De tijd waarin je met een paar tweedimensionale figuren in een wetenschappelijk artikel je punt kon maken is voorbij. Steeds vaker gaat het om multidimensionale data en als je dat goed wilt weergeven ben je met elke volgende dimensie een veelvoud aan pagina’s in je artikel kwijt.” Veel beter is het volgens Attema en Diblen dan ook om gewoon de data openbaar beschikbaar te maken, dan kan iedereen controleren en meekijken of de interpretaties van een collega hout snijden.

Het gemakkelijk kunnen ‘spelen’ met data levert ook nieuwe inzichten op. “Die willen onderzoekers natuurlijk met elkaar kunnen delen,” vertelt Diblen, “we hebben er hard aan gewerkt om een fatsoenlijke ‘share’ functie in te bouwen.” Met die functie kan met een andere gebruiker een zogenaamde ‘session file’ worden gedeeld waarin niet alleen de data maar ook de figuren, en selecties van de dataset worden meegenomen. “Alsof je bij je collega op het scherm meekijkt, maar dan kan het op afstand.”

Software kan niet onethisch handelen

Het gemak dat het programma biedt om datasets te bekijken biedt ook de mogelijkheid tot data phishing Wanneer een onderzoeker door data heen struint op zoek naar statistisch significante effecten zonder eerst een hypothese te formuleren dan noemen we dit data phishing. Andere termen zijn data dredging, data snooping, of p-hacking. . Attema en Diblen zijn zich daar terdege van bewust. “Dit probleem heb je natuurlijk in elk type onderzoek,” zegt Attema “als je honderd willekeurige hypothesen toetst op een dataset dan zijn er vast wel een paar statistisch significant.” Op dat punt ziet hij in dat hun tool ook op zo’n manier ingezet kan worden. “Toch geldt ook hier dat de software niet onethisch kan handelen, dat doet de onderzoeker. Daar moet de aandacht naar uitgaan.”

“Wij bieden de mogelijkheid om exploratief naar data te kijken. Het is in die zin geen analyseprogramma,” vult Diblen aan, “als de onderzoeker denkt dat er ergens een significant effect zit, dan moet deze dit ook echt analyseren.” Aan de andere kant biedt SPOT ook de mogelijkheid om een uitspraak van een andere onderzoeker juist snel te kunnen controleren. “En doordat je ook sessies met elkaar kunt delen kun je echt snel met een team door een dataset heen lopen.” Diblen voegt daar aan toe dat met deze toepassing het statistisch inzicht van de onderzoeker juist geprikkeld wordt op een manier die samenwerken bevordert. “Iedereen ziet toch weer iets anders. Dat is het corrigerend vermogen.”

Foto: Cobh Heritage Centre

Dat laatste bewijst zich direct wanneer Attema en Diblen de beroemde dataset van de ramp met de Titanic inladen als voorbeeld. Deze dataset staat er om bekend een van de eerste echte ‘infographics’ ooit te zijn. Hierin konden de lezers van de krant The Sphere destijds zien wat de overlevingskans is per klasse, leeftijd en geslacht. Een multidimensionale dataset dus. Door deze variabelen gezinsgrootte met elkaar te vergelijken wordt al snel duidelijk dat het begrip ‘vrouwen en kinderen eerst’ destijds best redelijk werd nageleefd. Leuke toevoeging door SPOT: er waren veel mannen aan boord zoals Jack uit de gelijknamige film: mannelijke passagiers die niet in gezinsverband reisden. Zij hadden een aanzienlijk kleinere overlevingskans.


Schrijf je in voor onze nieuwsbrief
«

ScienceGuide maakt gebruik van cookies

Klik op OK om hiermee akkoord te gaan

OK