Oude data, nieuw gezicht

Nieuws | de redactie
1 februari 2012 | Overal op universiteiten liggen nog stapels ‘oude’ data stof te verzamelen. Taal- en spraaktechnologen van de Radboud Universiteit hebben nu een manier om deze data weer tot leven te wekken. “Denk aan dialectonderzoek, onderzoek naar spraakstoornissen. Of aan grote literaire of historische tekstbestanden.”

Interviews die zijn afgenomen voor bijvoorbeeld taalkundig ofhistorisch onderzoek, grote tekstbestanden, verzameld doorhistorici of letterkundigen. Overal in Nederland ligt nogonderzoeksmateriaal, ooit gebruikt voor een proefschrift ofpublicatie, dat niet meer wordt gebruikt. Volgens spraaktechnoloogis Henk van den Heuvel is dat zonde. 

Enig opknapwerk vereist 

Van den Heuvel is sinds 2009 betrokken bij het Europese projectCLARIN en de Nederlandse variant CLARIN-NL. Dit project moet de digitaleonderzoeksinfrastructuur van de geesteswetenschappen inrichten ende onderzoeksdata op duurzame en veilige manier opslaan. Data moetgoed doorzoekbaar worden en zichtbaar moet zijn waar, wanneer enhoe de data destijds is verzameld. 

CLARIN-NL richt zich op nieuwe, maar ook op bestaandedataverzamelingen – en die hebben vaak enig opknapwerk(datacuratie, in vaktermen) nodig voordat ze voldoen aan alleeisen. ‘Soms zijn er transcripties van interviews zoekgeraakt, somsis de beschrijving van het materiaal onvoldoende, vaak zijn audio-of video-opnames niet goed te doorzoeken.’ 

Van den Heuvel en collega’s hebben eerder voor CLARIN-NL een’curatieklus’ geklaard met het Interviewproject NederlandseVeteranen. Het Veteraneninstituut had audio-opnames van interviewsmet 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal-en spraaktechnologen, specialisten in automatischespraakherkenning, hebben die doorzoekbaar gemaakt op tallozesteekwoorden. 

Iedere onderzoeker kan zich melden 

CLARIN-NL verstrekt geld aan onderzoeksvoorstellen voordatacuratie en demoprojecten. Die demo’s beogen de mogelijkhedenvan allerlei toepassingen van gecureerde data voor nieuw onderzoekte laten zien. Maar niet alle projecten kunnen worden gehonoreerd,terwijl er wel interessant materiaal achter ligt. 

Om dat bestaande materiaal in ieder geval bruikbaar te maken,heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht,die vanaf januari gevestigd is bij het Centre for Language andSpeech Technology (CLST) van de Radboud Universiteit.

CLST is in de loop der jaren betrokken geweest bij het maken vaneen groot aantal corpora waaronder het Corpus Gesproken Nederlands.Inmiddels heeft het centrum een zekere faam in het aanleggen enontsluiten van grote dataverzamelingen. Projectleider van de DCS isNelleke Oostdijk.

De datacuratieservice heeft tevens als opdracht meegekregen,vertelt Van den Heuvel, om zelf interessante verzamelingen op tesporen. Voorlopig alleen uit de geesteswetenschappen, later volgenmogelijk de sociale wetenschappen. “Denk aan interviews voordialectonderzoek, voor onderzoek naar spraakstoornissen. Of aangrote literaire of historische tekstbestanden…. Onderzoekers diemooi materiaal hebben liggen, roep ik op om zich bij ons te melden.We geven hun data graag een nieuw leven.”

 

 

 

 


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK