• A
  • A
  • Slimmer zoeken in big data

    - Grote hoeveelheden gegevens zijn digitaal beschikbaar. Hoe vind je in dat woud van informatie nog wat je wilt vinden? UvA-onderzoeker Marc Bron en Jasmijn van Gorp (UU) ontwikkelden een interface om uitkomsten van zoekopdrachten in rijke archieven met elkaar te vergelijken.

    Bron, promovendus bij het Intelligent Systems Lab (ISLA) van de UvA stelt dat onderzoekers van bepaald materiaal vaak wel weten dat het in het archief zit en hoe het er uit te halen is. Toch komen in het merendeel van de gevallen onderzoekers met onderzoeksvragen naar het archief en moeten zij eerst op zoek gaan naar geschikt materiaal en dus het archief verkennen.

    Andere terminologie

    Grootste probleem vormt het opstellen van de zoekvraag. Als archivarissen een andere terminologie hanteren dan de onderzoekers in hun onderzoek gebruiken, wordt vaak niet het gewenste resultaat geboekt bij de zoekmachine.

    Een tweede probleem ontstaat op het moment dat er wel materiaal is gevonden. Onderzoekers hebben immers geen mogelijkheid om vast te stellen of zij al het relevante materiaal verzameld hebben of dat er ergens nog iets interessants te vinden is waar zij op dat moment nog geen weet van hebben.

    Om deze problemen aan te pakken heeft Bron samen met collega's binnen ISLA, het Centre for Television in Transition van de Universiteit Utrecht en Beeld & Geluid een exploratieve interface ontwikkeld, MeRDES genaamd (voluit: Media Researchers' Data Exploration Suite). Hiermee kunnen uitkomsten van verschillende zoekopdrachten in rijke archieven zoals dat van Beeld & Geluid met elkaar vergeleken worden.

    Termen vergelijken

    Door het aantal programma's dat voor ieder van de zoekopdrachten relevant is te visualiseren, krijgen onderzoekers een indruk van de hoeveelheid informatie die omtrent verschillende aspecten van een onderwerp beschikbaar is.  Op deze manier kan bijvoorbeeld de opkomst van het gebruik van de term 'migrant' in archiefmateriaal vergeleken worden met het gebruik van de term 'vreemdeling'.

    De hoeveelheid beschikbaar materiaal over een onderwerp en hoe het zich verhoudt tot andere onderwerpen kunnen een grote invloed hebben op de aanpak van het onderzoek en de uiteindelijke vragen die kunnen worden beantwoord.

    Om de interface te testen hebben Marc Bron en postdoc Jasmijn Van Gorp (UU) een gebruikersstudie uitgevoerd met 40 mediawetenschappers. Bron presenteert de uitkomsten van hun onderzoek binnenkort op de internationale conferentie van de Special Interest Group on Information Retrieval (SIGIR) die van 12 tot 16 augustus in Portland (OR) plaatsvindt.

    Een demo van de interface is hier beschikbaar


    Gerelateerd nieuws:
    15 augustus  Europa verkent data-kennis

    7 augustus  VSNU wil hulp bij Open Acces
    26 juni  Alle kennis open
    14 februari  HO geen doelwit voor NSA
    28 januari  The end of the paywall