Interviews die zijn afgenomen voor bijvoorbeeld taalkundig of
historisch onderzoek, grote tekstbestanden, verzameld door
historici of letterkundigen. Overal in Nederland ligt nog
onderzoeksmateriaal, ooit gebruikt voor een proefschrift of
publicatie, dat niet meer wordt gebruikt. Volgens spraaktechnoloog
is Henk van den Heuvel is dat zonde.
Enig opknapwerk vereist
Van den Heuvel is sinds 2009 betrokken bij het Europese project
CLARIN en de Nederlandse variant CLARIN-NL. Dit project moet de digitale
onderzoeksinfrastructuur van de geesteswetenschappen inrichten en
de onderzoeksdata op duurzame en veilige manier opslaan. Data moet
goed doorzoekbaar worden en zichtbaar moet zijn waar, wanneer en
hoe de data destijds is verzameld.
CLARIN-NL richt zich op nieuwe, maar ook op bestaande
dataverzamelingen - en die hebben vaak enig opknapwerk
(datacuratie, in vaktermen) nodig voordat ze voldoen aan alle
eisen. 'Soms zijn er transcripties van interviews zoekgeraakt, soms
is de beschrijving van het materiaal onvoldoende, vaak zijn audio-
of video-opnames niet goed te doorzoeken.'
Van den Heuvel en collega's hebben eerder voor CLARIN-NL een
'curatieklus' geklaard met het Interviewproject Nederlandse
Veteranen. Het Veteraneninstituut had audio-opnames van interviews
met 250 veteranen, ruim 500 uur aan materiaal. De Nijmeegse taal-
en spraaktechnologen, specialisten in automatische
spraakherkenning, hebben die doorzoekbaar gemaakt op talloze
steekwoorden.
Iedere onderzoeker kan zich melden
CLARIN-NL verstrekt geld aan onderzoeksvoorstellen voor
datacuratie en demoprojecten. Die demo's beogen de mogelijkheden
van allerlei toepassingen van gecureerde data voor nieuw onderzoek
te laten zien. Maar niet alle projecten kunnen worden gehonoreerd,
terwijl er wel interessant materiaal achter ligt.
Om dat bestaande materiaal in ieder geval bruikbaar te maken,
heeft CLARIN-NL nu een datacuratieservice (kortweg DCS) opgericht,
die vanaf januari gevestigd is bij het Centre for Language and
Speech Technology (CLST) van de Radboud Universiteit.
CLST is in de loop der jaren betrokken geweest bij het maken van
een groot aantal corpora waaronder het Corpus Gesproken Nederlands.
Inmiddels heeft het centrum een zekere faam in het aanleggen en
ontsluiten van grote dataverzamelingen. Projectleider van de DCS is
Nelleke Oostdijk.
De datacuratieservice heeft tevens als opdracht meegekregen,
vertelt Van den Heuvel, om zelf interessante verzamelingen op te
sporen. Voorlopig alleen uit de geesteswetenschappen, later volgen
mogelijk de sociale wetenschappen. "Denk aan interviews voor
dialectonderzoek, voor onderzoek naar spraakstoornissen. Of aan
grote literaire of historische tekstbestanden…. Onderzoekers die
mooi materiaal hebben liggen, roep ik op om zich bij ons te melden.
We geven hun data graag een nieuw leven."