Oude data, nieuw gezicht
Interviews die zijn afgenomen voor bijvoorbeeld taalkundig ofhistorisch onderzoek, grote tekstbestanden, verzameld doorhistorici of letterkundigen. Overal in Nederland ligt nogonderzoeksmateriaal, ooit gebruikt voor een proefschrift ofpublicatie, dat niet meer wordt gebruikt. Volgens spraaktechnoloogis Henk van den Heuvel is dat zonde.
Enig opknapwerk vereist
Van den Heuvel is sinds 2009 betrokken bij het Europese projectCLARIN en de Nederlandse variant CLARIN-NL. Dit project moet de digitaleonderzoeksinfrastructuur van de geesteswetenschappen inrichten ende onderzoeksdata op duurzame en veilige manier opslaan. Data moetgoed doorzoekbaar worden en zichtbaar moet zijn waar, wanneer enhoe de data destijds is verzameld.
CLARIN-NL richt zich op nieuwe, maar ook op bestaandedataverzamelingen – en die hebben vaak enig opknapwerk(datacuratie, in vaktermen) nodig voordat ze voldoen aan alleeisen. ‘Soms zijn er transcripties van interviews zoekgeraakt, somsis de beschrijving van het materiaal onvoldoende, vaak zijn audio-of video-opnames niet goed te doorzoeken.’
Van den Heuvel en collega’s hebben eerder voor CLARIN-NL een’curatieklus’ geklaard met het Interviewproject NederlandseVeteranen. Het Veteraneninstituut had audio-opnames van interviewsmet 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal-en spraaktechnologen, specialisten in automatischespraakherkenning, hebben die doorzoekbaar gemaakt op tallozesteekwoorden.
Iedere onderzoeker kan zich melden
CLARIN-NL verstrekt geld aan onderzoeksvoorstellen voordatacuratie en demoprojecten. Die demo’s beogen de mogelijkhedenvan allerlei toepassingen van gecureerde data voor nieuw onderzoekte laten zien. Maar niet alle projecten kunnen worden gehonoreerd,terwijl er wel interessant materiaal achter ligt.
Om dat bestaande materiaal in ieder geval bruikbaar te maken,heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht,die vanaf januari gevestigd is bij het Centre for Language andSpeech Technology (CLST) van de Radboud Universiteit.
CLST is in de loop der jaren betrokken geweest bij het maken vaneen groot aantal corpora waaronder het Corpus Gesproken Nederlands.Inmiddels heeft het centrum een zekere faam in het aanleggen enontsluiten van grote dataverzamelingen. Projectleider van de DCS isNelleke Oostdijk.
De datacuratieservice heeft tevens als opdracht meegekregen,vertelt Van den Heuvel, om zelf interessante verzamelingen op tesporen. Voorlopig alleen uit de geesteswetenschappen, later volgenmogelijk de sociale wetenschappen. “Denk aan interviews voordialectonderzoek, voor onderzoek naar spraakstoornissen. Of aangrote literaire of historische tekstbestanden…. Onderzoekers diemooi materiaal hebben liggen, roep ik op om zich bij ons te melden.We geven hun data graag een nieuw leven.”
Meest Gelezen
Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering
Wederom intimidatie van journalisten door universiteit, nu in Delft
Hbo-docent wil wel rolmodel zijn, maar niet eigen moreel kompas opdringen
‘Burgerschapsonderwijs moet ook verplicht worden in hbo en wo’
Raad van State: laat taaltoets nog niet gelden voor hbo-opleidingen