Als je data niet meer terug kan vinden, is het er in feite niet meer

Verslag | door Sicco de Knecht
19 november 2019 | Een gemiddeld onderzoeksproject neemt anno 2019 een verrassende hoeveelheid ruimte in op harde, externe en virtuele schijven, maar meer dan eens verliezen onderzoekers gaandeweg deze data uit het oog. De SURF Research Drive moet hier een oplossing voor bieden.

Op het SIA congres in Nieuwegein is de deelsessie over de SURF Research Drive goed bezocht. Er zijn opvallend veel mensen op de sessie afgekomen die hun vinger opsteken bij ‘beleidsmedewerker’. Hylke Koers (SURFsara) doet de aftrap door uit te leggen wat de Research Drive van SURFsara beoogt te doen. “Het moet een plek zijn waar onderzoekers al hun onderzoeksdata kwijt kunnen.”

Misschien wel de belangrijkste les die is meegenomen in de ontwikkeling van de Research Drive is dat veel instellingen al software en abonnementen hebben voor dergelijke vraagstukken. “Er zijn weinig instellingen die zoals een start-up vanaf nul zijn begonnen, er is altijd al iets.” Zij het een abonnement op Dropbox, een gedeelde schijf of zelfgemaakte software, elke onderzoeker of instelling gebruikt wel iets. “Daar hebben wij uitgebreid rekening mee willen houden.”

Op een harde schijf in de kelder

Als indicatie van de diversiteit van de typen data die binnen een typisch project worden ‘gegenereerd’ geeft Gerald Ebberink (Saxion) in zijn presentatie een lange maar niet uitputtende lijst van voorbeelden. “Je moet dat breed zien, naast meetgegevens, rapporten en verslagen is er zo veel meer dat als ‘data’ gebruikt wordt bij onderzoek. Denk aan de financiële verantwoording, projectvoorstellen en -besprekingen en ook de e-mails die over en weer gaan.”

Het probleem is dus vooral dat onderzoeksdata zeer divers van aard zijn, en op tientallen verschillende plekken wordt opgeslagen. “Even geleden nam ik een project over van iemand die ziek was en natuurlijk ging ik op zoek naar de data. Die stond werkelijk overal en nergens. Bovendien was er geen overkoepelende structuur voor opslag afgesproken binnen het project.” Het overzicht terugkrijgen kost in zo’n geval enorm veel tijd vertelt hij. “

“Als je het niet meer terug kunt vinden, dan is dat hetzelfde als wanneer het er niet meer is.” Die gedachte lijkt voor de hand liggend maar er wordt weinig naar gehandeld, getuige de wirwar van opslagwijzen. Onderzoekers gebruiken de ene keer de gedeelde netwerkschijf, en dan weer USB-sticks om onderzoeksdata op te slaan of door te geven. “Bij sommige collega’s worden belangrijke onderzoeksgegevens zelfs teruggevonden op externe harde schijven bij hun thuis in de kelder.”

De SURF Research Drive moet hier een oplossing voor bieden. “Het is een plek voor al je data, en iedereen kan erbij.” Het belangrijkste criterium dat tijdens de ontwikkeling is gehanteerd is misschien wel de ‘interoperabiliteit’: de Research Drive moet ook kunnen samenwerken met andere software.

Bij problemen weten ze ons snel te vinden

Inmiddels gebruiken al acht hogescholen de SURF Research Drive voor hun onderzoek. Adviseur Research Support Sarah Coombs geeft een inkijkje in hoe de drive bij Saxion is geïmplementeerd. “Iedere instelling kan de software gebruiken voor het oprichten van een eigen basis-inrichting van een eigen drive.” Bij de hogeschool in kwestie is het dan ook de Saxion Research Cloud Drive gaan heten.

Samen werken SURF en Saxion nu aan het uitbreiden van de mogelijkheden en gebruikswijze van het platform. “Je moet dan denken aan het toevoegen van metadata zoals het ID van het onderzoek, en kwalificaties als ‘ruwe’ of ‘verwerkte’ data zijn belangrijke gegevens.” Daarnaast wordt er hard gewerkt aan het vastleggen van protocollen over hoe de Drive gebruikt wordt.

Saxion zet stap naar zelf delen onderzoeksdata

De grote uitdaging zit hem er nu in om onderzoekers en de backoffice van de Research Services van de hogeschool in contact te brengen. “In principe moet dit gebeuren bij aanvang van het onderzoeksproject, maar nog niet altijd gaat dat goed.” Zoals met elke vorm van ondersteuning moeten mensen ook merken wat ze eraan hebben, grapt Coombs. “Als onderzoekers een acuut probleem dan weten ze ons bliksemsnel te vinden in ieder geval.”

Is het tot slot niet gemakkelijker om gewoon voor een commerciële oplossing te kiezen, willen aanwezigen weten. Coombs is daar sceptisch over, ware het alleen al dat de integriteit van de data dan niet 100% gegarandeerd is. “Laat ik het zo zeggen dat ik tijdens mijn opleiding in Canada de ontwikkelingen rond de Amerikaanse PATRIOT Act De PATRIOT Act (Act of Uniting and Strengthening America by Providing Appropriate Tools Required to Intercept and Obstruct Terrorism Act of 2001) werd in oktober 2001 onder stoom en kokend water aangenomen. De wet geeft de Amerikaanse overheid verregaande mogelijkheden om nationaal en internationaal af te luisteren en vormt zodoende een directe bedreiging voor cloud computing providers. nauwlettend heb gevolgd. Dat maakt dat ik een server in de Verenigde Staten, waar veel van die bedrijven zitten, sowieso al niet vertrouw.”


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK