Hoe FAIR moeten open data en software zijn?

Analyse | door Sicco de Knecht
11 juli 2018 | Op de weg naar open science zullen er nog flink wat hobbels genomen moeten worden. Overheden en subsidiepartijen verwachten veel van het open delen van data en software. Maar hoe gemakkelijk is het nu eigenlijk om grote hoeveelheden, zeer verschillende typen informatie en programmatuur samen te brengen?

Het roer moet om in de wetenschap. Onderzoeksresultaten moeten meer met elkaar worden gedeeld en er moet makkelijker voortgebouwd kunnen worden op de projecten van anderen. Daarvoor wijzen overheden, fondsen en wetenschappelijke organisaties op de waarde van open science.

Het open delen van onderzoeksmiddelen – volgens de FAIR principes De afkorting FAIR wordt gebruikt om de leidende principes achter open data te duiden. De afkorting staat voor Findable, Accessible, Interoperable and Re-usable. Kort vertaald houdt dat in dat data goed beschreven wordt en vindbaar is, dat de toegang ertoe wordt gegarandeerd, de bestandsvorm niet beperkt is tot een enkele toepassing en dat de data voldoet aan de standaarden van de relevante wetenschappelijke gemeenschap. – moet de uitkomst bieden om onderzoekers werkelijk op elkaars werk voort te laten borduren, zij het door replicatie of door het gebruik van resultaten voor nieuw onderzoek.

Open science meer dan open access

In de discussie over open science gaat het vaak over open access, maar welbeschouwd is dat slechts een beperkt onderdeel van het verhaal. Open science gaat veel meer over hetgeen waar wetenschappers op dagelijkse basis mee bezig zijn. Activiteiten als het genereren van data en het analyseren van die data vormen het grootste deel van de dagelijkse praktijk van onderzoekers.

Zijn repositories de weg naar open access?

Elke onderzoeker weet dat slechts een fractie van de data die verzameld wordt daadwerkelijk ooit gebruikt wordt voor een publicatie. Een vergelijkbaar probleem doet zich voor bij software die onderzoekers zelf schrijven voor het verzamelen van data of de analyse ervan. In beide gevallen gaat er bovendien veel tijd en moeite zitten in het genereren of ontwikkelen, maar zijn er weinig anderen die ervan kunnen profiteren.

Cijfers over de hoeveelheid ongebruikte data zijn schaars. Alleen al het definiëren van wat door zou moeten gaan als bruikbare data is een bijzonder lastige opgave. Toch zal elke onderzoeker erkennen dat er na afloop van een onderzoeksproject, wanneer de promovendus of postdoc vertrekt, deze vaak aanzienlijke hoeveelheden niet-geanalyseerde data en slecht geannoteerde software – in jargon: PhD-ware – achterblijft.

Bewust zijn van welke data je echt kunt (her)gebruiken

Alhoewel de technieken in de loop van de tijd steeds veranderen, blijft de belangrijkste opgave van archieven of repositories hetzelfde, zegt informatie-architect Maarten Hoogerwerf (Universiteit Utrecht, afdeling Research and Datamanagement Services): “De allerbelangrijkste taak is het maken van een goede selectie van gegevens die nodig zijn voor verantwoording of voor hergebruik.”

“In het geval van open data is het vooral de onderzoeker die deze selectie kan bepalen, niet de archivaris of de data manager. Voor hen is het bieden van ondersteuning binnen het beleid en de financiële ruimte van de instelling de belangrijkste opgave.” Hij ziet dat er momenteel serieus werk gemaakt wordt van data management aan instellingen. “De Universiteit Utrecht heeft de laatste tijd bijvoorbeeld een fors aantal datamanagers aangenomen. Zij kunnen samen met de onderzoeker bepalen welke gegevens in welke vorm worden opgeslagen.”

“Onderzoekers hebben hun eigen data en tools en hun eigen methoden, daar sluit een datamanager met zijn eigen kennis bij aan.” De wetenschappelijke literatuur kan als belangrijke kapstok dienen voor de vindbaarheid van data. “Die data moet dan natuurlijk ook geciteerd worden, maar ook worden opgenomen in relevante catalogi.”

Keuzes maken

Alhoewel er uiteraard richtlijnen zijn over de selectie van data blijft het maken van de selectie een voortdurend gesprek. “Welke gegevens zijn er nodig om het onderzoek en de resultaten te verantwoorden en welke gegevens kunnen van waarde zijn voor hergebruik, en door wie?”

De gedachte dat iemand anders ooit iets zou kunnen hebben aan de gegevens is volgens Hoogerwerf niet voldoende. “Je moet ook naar de kosten kijken. Voor grote of complexe datasets kunnen de kosten voor opslag of documentatie enorm zijn, zeker als je met alle soorten hergebruik rekening wilt houden. In die gevallen loont het om keuzes te maken en de data tegen acceptabele kosten alleen voor specifieke doelgroepen of soorten hergebruik geschikt te maken.”

Op vergelijkbare wijze moeten onderzoekers volgens hem nadenken over welke data ze in eerste instantie verzamelen. “Ook dat is een bewustwordingsproces waarbij het belangrijk is om je af te vragen waarom je data eigenlijk verzamelt. Ga je het allemaal gebruiken?” Bij het verzamelen van digitale data zijn de afwegingen van onderzoekers vaak anders dan bij ‘analoge’ data. Het gemak waarmee grote datasets kunnen worden gegenereerd neemt snel toe, evenals de mogelijkheid om het op te slaan.

“In een vakgebied als de geesteswetenschappen heb je het in veel gevallen nog over relatief kleine bestanden. Het zijn bijvoorbeeld spreadsheets van een paar MB groot.” Wanneer het gaat om data uit bijvoorbeeld genetische screens, neurofysiologische experimenten of deeltjesfysica gaat het soms om totale andere ordes van grootte.

Maar toch is de opslag an sich op termijn niet het enige waar de kosten in gaan zitten volgens Hoogerwerf. “Het goed documenteren is hetgeen waar echt moeite in gaat zitten, en het bedenken en onderhouden van geschikte standaarden voor documentatie en bestandstypen zijn complexe processen die veel energie kosten.”

Nederlandse data repository landschap

De eerste serieuze data repositories in Nederland, los van een aantal kleinere initiatieven, waren in het beheer van DANS en 4TU. De voornaamste doelstelling was het bieden van een opslagdienst voor onderzoeksresultaten, waarbij DANS zich primair richtte op de sociale wetenschappen en de geesteswetenschappen en de 4TU op de technische data.

In 2013 bundelden beide organisaties de krachten in wat Research Data Netherlands (RDNL) is gaan heten, in 2014 sloot SURFsara zich aan bij dit verband. RDNL functioneert als zogenaamde backoffice en richt zich voornamelijk op curatie en onderlinge afstemming. De universiteitsbibliotheken, op dit punt verenigd in de UKB Werkgroep, functioneren nog altijd als frontoffice: het aanspreekpunt voor onderzoekers.

Om meer grip te krijgen op het implementeren van beleid rond databeheer en –verzameling heeft de VSNU ongeveer drie jaar geleden een Landelijk Coördinatiepunt Research Data Management (LCRDM) opgericht. Momenteel opereert LCRDM als programma onder de vleugels van SURFsara. Vanuit dit centrale punt worden diverse experts van de verschillende instellingen bijeengebracht gezamenlijk oplossingen te vinden.

Moet het FAIR zijn?

Het feit dat nationale en internationale geldschieters open science nu hoog op de agenda zetten is een belangrijke stap in de goede richting. De bredere adoptie van de FAIR principes is daarbij een belangrijke leidraad maar het is volgens Hoogerwerf eerder een uitgangspunt dan een eindpunt. “De discussie gaat nu echt over de mate van FAIR die je voor bepaalde data wil nastreven. Dat zijn afwegingen die heel specifiek kunnen zijn.”

In sommige vakgebieden zijn er mogelijkheden om interoperabele standaarden te maken, maar niet allemaal. “De bioinformatici hebben bijvoorbeeld al veel afspraken over hoe ze hun data op elkaar afstemmen. Andere vakgebieden hebben soms meer moeite om tot dergelijke afspraken te komen, bijvoorbeeld doordat gegevens op zeer uiteenlopende manieren worden verzameld of gebruikt.

Hoogerwerf illustreert dit laatste aan de hand van een voorbeeld. “Ik herinner met een project met historici waar we na lang overleg moesten concluderen dat het een slecht idee was om verschillende databronnen op het concept ‘tijd’ met elkaar te vergelijken. Het feit dat geschiedkundige gebeurtenissen vaak in verschillende ‘kalenders’ – de Gregoriaanse of de Juliaanse bijvoorbeeld – plaats hebben gevonden maakt een uniforme tijdsaanduiding al lastig.”

Software is niet statisch

Wat software betreft liggen de zaken helaas nog wat ingewikkelder volgens Technology Lead Jason Maassen. Hij werkt bij het Netherlands eScience Center, dat zich onder andere specialiseert in het ontwikkelen en open beschikbaar maken van onderzoekssoftware. “Zodra je data op een of andere manier hebt opgeslagen, dan kun je het in principe gewoon eindeloos blijven gebruiken. Met software ligt dat net even wat anders.”

Waar publicaties en data nog relatief ‘statisch’ zijn – het is af wanneer het af is – is software per definitie dynamisch: het moet werken om er iets aan te hebben. Het type bestanden dat nodig is voor een werkend softwarepakket is ook divers. “Het is bovendien niet alleen code, er zit vaak ook data bij, er zitten artikelen bij en bijvoorbeeld een presentatie met uitleg. Er zitten mensen achter die het in elkaar zetten, projecten waar het aan vast hangt, en daar wil je eigenlijk ook contact mee kunnen hebben.”

Wellicht meer nog dan bij publicaties en onderzoeksresultaten heeft software de potentie om vakoverstijgend ingezet te worden. Maar daar zit volgens Maassen ook direct het probleem. “Zolang er geen gebruiksvriendelijk en min of meer compleet overzicht bestaat van wat er te halen valt, dan is de kans klein dat onderzoekers die zeer specialistisch werk verrichten ooit van elkaars werk gebruik zullen maken.”

“Een stuk software komt altijd met een beschrijving van wat het doet en waar het voor gebruikt kan worden.” In dat laatste zit ook gelijk de crux volgens Maassen. De termen die mensen gebruiken zijn lang niet altijd vakoverstijgend, en de vraag is dus hoe je als bioloog iets op moet schrijven als je ook wilt dat een geoloog het kan begrijpen.

Programma zoekt gebruiker

“Ik denk niet dat er op dit moment iemand is die er echt dé oplossing heeft voor de aansluiting tussen wat er geboden wordt en wat mensen nodig hebben.” Maassen vertelt dat de eerste grote stap op dit gebied nog gezet moet worden. “Er zijn wel software repositories maar die zijn vaak juist heel erg gericht op specifieke domeinen. De drijvende kracht achter het opzetten van een repository is nu vaak een instituut zelf.”

Wanneer onderzoekers samenwerken met dezelfde softwarepakketten dan doen ze dat bovendien meestal niet via een klassieke repository. “Wat je nu veel ziet is dat mensen via een online platform zoals Github met elkaar samenwerken.” Het belangrijke voordeel van dergelijke platforms is dat ze versiebeheer mogelijk maken. In andere woorden, ze maken het mogelijk om exact bij te houden welke aanpassingen er in de programmatuur zijn gemaakt, ook als je met andere ontwikkelaars samen aan een project werkt.

“In de gemeenschap is het dus nog heel erg een discussie op welke manier we software willen samenbrengen in een repository.” Daarbij is het belangrijkste uitgangspunt dat het snel duidelijk wordt tot in hoeverre software voor een andere partij bruikbaar is. Vanuit het eScience Center is als antwoord op deze vraag de Research Software Directory opgericht. “Wat wij daar proberen te doen is de toepassing zo helder doch breed mogelijk te formuleren, en dat samen te brengen met bijbehorende publicaties, data, documentatie, etc.”

Directe peer review op data

Veel van de software die in de directory terecht komt is het resultaat van projecten die het eScience Center met onderzoekers doet. In die samenwerking ligt volgens Maassen ook de kracht. “Het is een illusie dat je wetenschappers voor kunt schrijven hoe je software in elkaar moet zetten, of ze kunt dwingen het bruikbaar te maken voor andere onderzoekers. Ze zijn veel te druk met andere zaken, zoals publiceren. Voor hen is software veelal gewoon een stuk gereedschap dat ze nodig hebben en verder willen ze er niet te veel tijd aan kwijt zijn.”

Hardware als uitdaging

Er is nog een uitdaging als het gaat om het opslaan van software voor later gebruik: hardware. Vooral de verscheidenheid en het tempo waarin hardware zich ontwikkelt zijn een punt van zorg. “Als je kijkt naar de ontwikkelingen in de laatste jaren dan zie je bijvoorbeeld dat voor sommige toepassingen de klassieke processoren zijn vervangen met wat je vroeger gebruikte als videokaart.”

Maassen legt uit dat het type berekening en hoe deze als opdracht naar de processor worden gestuurd bepalen of een programma ook echt werkt. “Het kan dus zo zijn dat je alles netjes hebt geannoteerd en opgeslagen, maar als je dan een paar jaar later aan de slag wilt ermee, dat je dan niet meer de juiste hardware hebt om het op te gebruiken. Dat is best wel een groot probleem.”

“Dat kan echt snel gaan, hardware van tien jaar geleden is echt anders dan die van nu.” De keuze die sommige onderzoekers maken is dan ook om de oude hardware dan maar te bewaren, en soms tegen hoge kosten te (laten) repareren. Allemaal uit angst dat software (en data) anders misschien niet meer bruikbaar is.

Het bewustzijn groeit

Het belang van het open beschikbaar maken van data en software worden door niemand ontkend maar het blijft lastig om vast te stellen wat het exacte voordeel is. “Het zal zeker bijdragen aan efficiëntie of het voorkomen van dubbel werk,” zegt Hoogerwerf, maar wat hem betreft zit het voordeel op een abstracter niveau. “Het publieke vertrouwen in de wetenschap heeft door de affaire Stapel een deuk opgelopen. We willen en kunnen onderzoekers helpen om de integriteit van hun onderzoek te ondersteunen en zichtbaar te maken.”

Ook Maassen ziet juist op het vlak van wetenschappelijke integriteit en team science grote voordelen van repositories en open science in het algemeen. “De vraag is dan natuurlijk wel wie het gaat betalen en wie het gaat onderhouden. Daar zitten kosten aan verbonden, al is het maar in de vorm van tijd en energie die erin gestoken moeten worden.”

Vooralsnog ligt de verantwoordelijkheid van het daadwerkelijk aanbieden van data aan een repository nog vaak bij de onderzoeker zelf. “Er gebeurt inmiddels al veel. Onderzoekers stellen steeds vaker data management plannen op, en de data managers en opslagfaciliteiten zijn vaak al beschikbaar voor ondersteuning. Een belangrijke stap voor verdere verbetering.” vindt Hoogerwerf.

Wat software betreft zijn er nog geen regels waar onderzoekers zich aan moeten houden maar ziet Maassen wel een groeiend bewustzijn. “Onderzoekers beschrijven steeds beter welke software en welke versie ze hebben gebruikt voor bijvoorbeeld de analyse. Binnen bepaalde vakgebieden ze je dat ze daarbij ook dat ze dit beschikbaar maken voor anderen.”


Schrijf je in voor onze nieuwsbrief
«

ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.

Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan

OK