• A
  • A
  • Oude data, nieuw gezicht

    - Overal op universiteiten liggen nog stapels ‘oude’ data stof te verzamelen. Taal- en spraaktechnologen van de Radboud Universiteit hebben nu een manier om deze data weer tot leven te wekken. “Denk aan dialectonderzoek, onderzoek naar spraakstoornissen. Of aan grote literaire of historische tekstbestanden.”

    Interviews die zijn afgenomen voor bijvoorbeeld taalkundig of historisch onderzoek, grote tekstbestanden, verzameld door historici of letterkundigen. Overal in Nederland ligt nog onderzoeksmateriaal, ooit gebruikt voor een proefschrift of publicatie, dat niet meer wordt gebruikt. Volgens spraaktechnoloog is Henk van den Heuvel is dat zonde. 

    Enig opknapwerk vereist 

    Van den Heuvel is sinds 2009 betrokken bij het Europese project CLARIN en de Nederlandse variant CLARIN-NL. Dit project moet de digitale onderzoeksinfrastructuur van de geesteswetenschappen inrichten en de onderzoeksdata op duurzame en veilige manier opslaan. Data moet goed doorzoekbaar worden en zichtbaar moet zijn waar, wanneer en hoe de data destijds is verzameld. 

    CLARIN-NL richt zich op nieuwe, maar ook op bestaande dataverzamelingen - en die hebben vaak enig opknapwerk (datacuratie, in vaktermen) nodig voordat ze voldoen aan alle eisen. 'Soms zijn er transcripties van interviews zoekgeraakt, soms is de beschrijving van het materiaal onvoldoende, vaak zijn audio- of video-opnames niet goed te doorzoeken.' 

    Van den Heuvel en collega's hebben eerder voor CLARIN-NL een 'curatieklus' geklaard met het Interviewproject Nederlandse Veteranen. Het Veteraneninstituut had audio-opnames van interviews met 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal- en spraaktechnologen, specialisten in automatische spraakherkenning, hebben die doorzoekbaar gemaakt op talloze steekwoorden. 

    Iedere onderzoeker kan zich melden 

    CLARIN-NL verstrekt geld aan onderzoeksvoorstellen voor datacuratie en demoprojecten. Die demo's beogen de mogelijkheden van allerlei toepassingen van gecureerde data voor nieuw onderzoek te laten zien. Maar niet alle projecten kunnen worden gehonoreerd, terwijl er wel interessant materiaal achter ligt. 

    Om dat bestaande materiaal in ieder geval bruikbaar te maken, heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht, die vanaf januari gevestigd is bij het Centre for Language and Speech Technology (CLST) van de Radboud Universiteit.

    CLST is in de loop der jaren betrokken geweest bij het maken van een groot aantal corpora waaronder het Corpus Gesproken Nederlands. Inmiddels heeft het centrum een zekere faam in het aanleggen en ontsluiten van grote dataverzamelingen. Projectleider van de DCS is Nelleke Oostdijk.

    De datacuratieservice heeft tevens als opdracht meegekregen, vertelt Van den Heuvel, om zelf interessante verzamelingen op te sporen. Voorlopig alleen uit de geesteswetenschappen, later volgen mogelijk de sociale wetenschappen. "Denk aan interviews voor dialectonderzoek, voor onderzoek naar spraakstoornissen. Of aan grote literaire of historische tekstbestanden…. Onderzoekers die mooi materiaal hebben liggen, roep ik op om zich bij ons te melden. We geven hun data graag een nieuw leven."