Oude data, nieuw gezicht

Nieuws | de redactie

1 februari 2012 | Overal op universiteiten liggen nog stapels ‘oude’ data stof te verzamelen. Taal- en spraaktechnologen van de Radboud Universiteit hebben nu een manier om deze data weer tot leven te wekken. “Denk aan dialectonderzoek, onderzoek naar spraakstoornissen. Of aan grote literaire of historische tekstbestanden.”

Interviews die zijn afgenomen voor bijvoorbeeld taalkundig ofhistorisch onderzoek, grote tekstbestanden, verzameld doorhistorici of letterkundigen. Overal in Nederland ligt nogonderzoeksmateriaal, ooit gebruikt voor een proefschrift ofpublicatie, dat niet meer wordt gebruikt. Volgens spraaktechnoloogis Henk van den Heuvel is dat zonde.

Enig opknapwerk vereist

Van den Heuvel is sinds 2009 betrokken bij het Europese projectCLARIN en de Nederlandse variant CLARIN-NL. Dit project moet de digitaleonderzoeksinfrastructuur van de geesteswetenschappen inrichten ende onderzoeksdata op duurzame en veilige manier opslaan. Data moetgoed doorzoekbaar worden en zichtbaar moet zijn waar, wanneer enhoe de data destijds is verzameld.

CLARIN-NL richt zich op nieuwe, maar ook op bestaandedataverzamelingen – en die hebben vaak enig opknapwerk(datacuratie, in vaktermen) nodig voordat ze voldoen aan alleeisen. ‘Soms zijn er transcripties van interviews zoekgeraakt, somsis de beschrijving van het materiaal onvoldoende, vaak zijn audio-of video-opnames niet goed te doorzoeken.’

Van den Heuvel en collega’s hebben eerder voor CLARIN-NL een’curatieklus’ geklaard met het Interviewproject NederlandseVeteranen. Het Veteraneninstituut had audio-opnames van interviewsmet 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal-en spraaktechnologen, specialisten in automatischespraakherkenning, hebben die doorzoekbaar gemaakt op tallozesteekwoorden.

Iedere onderzoeker kan zich melden

CLARIN-NL verstrekt geld aan onderzoeksvoorstellen voordatacuratie en demoprojecten. Die demo’s beogen de mogelijkhedenvan allerlei toepassingen van gecureerde data voor nieuw onderzoekte laten zien. Maar niet alle projecten kunnen worden gehonoreerd,terwijl er wel interessant materiaal achter ligt.

Om dat bestaande materiaal in ieder geval bruikbaar te maken,heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht,die vanaf januari gevestigd is bij het Centre for Language andSpeech Technology (CLST) van de Radboud Universiteit.

CLST is in de loop der jaren betrokken geweest bij het maken vaneen groot aantal corpora waaronder het Corpus Gesproken Nederlands.Inmiddels heeft het centrum een zekere faam in het aanleggen enontsluiten van grote dataverzamelingen. Projectleider van de DCS isNelleke Oostdijk.

De datacuratieservice heeft tevens als opdracht meegekregen,vertelt Van den Heuvel, om zelf interessante verzamelingen op tesporen. Voorlopig alleen uit de geesteswetenschappen, later volgenmogelijk de sociale wetenschappen. “Denk aan interviews voordialectonderzoek, voor onderzoek naar spraakstoornissen. Of aangrote literaire of historische tekstbestanden…. Onderzoekers diemooi materiaal hebben liggen, roep ik op om zich bij ons te melden.We geven hun data graag een nieuw leven.”

open access

« “War on science” catches on

Navigatie

Categorieën

ScienceGuide gaat verder

Oude data, nieuw gezicht

Meest Gelezen

Wederom intimidatie van journalisten door universiteit, nu in Delft

‘Burgerschapsonderwijs moet ook verplicht worden in hbo en wo’

Extra geld voor bètafaculteiten is daar nooit terechtgekomen

Raad van State: laat taaltoets nog niet gelden voor hbo-opleidingen

Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering

Laatste artikelen

‘Wijze van instructie cruciaal voor succes blended onderwijs’

‘Internationalisering hoger onderwijs is voortzetting van kolonialisme en neoliberalisme’

‘Als we niet investeren in Leven Lang Ontwikkelen, worden we een Incarijk’

‘Ook studenten hebben academische vrijheid’

Na Dijsselbloem wil ook NSC bindende afspraken over blijfkans internationale studenten