UvT-student berekent: ‘Google telt het web niet adequaat’

Nieuws | de redactie

10 juli 2006 | Hoe groot is het World Wide Web? Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media in Tilburg studeert af op de betrouwbaarste schatting: minstens 14,3 miljard webpagina's. Het Nederlandse web telt minstens 291 miljoen webpagina's. Over de schattingen die Google hanteert is hij daarbij zeer kritisch.

Om de grootte van het deel van internet waar iedereen bij kan te bepalen, gebruikte De Kunder een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord in dertig artikelen voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord 1 op 1000. Wanneer Google vervolgens meldt dat er 9 miljoen webpagina’s bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina’s.

Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina’s af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap tussen de zoekmachines bepaald, en de uiteindelijke schatting hiervoor gecorrigeerd.

Een opvallende uitkomst is dat de zoekmachine Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van Google tussen de 25 en de 45 miljard webpagina’s. Yahoo Search lijkt een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad van willekeurige URLs (adressen van webpagina’s) wordt gemeten. Bovendien overlapt de database van Yahoo meer met andere zoekmachines dan Google. De Kunder stelt dan ook dat Google’s index niet de basis kan zijn voor een betrouwbare schatting van de grootte van het WWW, omdat de zoekmachine mogelijk geen realistische en wellicht opgeblazen getallen teruggeeft. Yahoo Search is een betere basis voor zo’n schatting.

Op onderstaande website wordt het aantal webpagina’s dagelijks bijgehouden (in Nederland en wereldwijd):

http://www.worldwidewebsize.com

Toepassingen

« Tsunami-beurs helpt medici ter plekke

Navigatie

Categorieën

ScienceGuide gaat verder

UvT-student berekent: ‘Google telt het web niet adequaat’

Meest Gelezen

‘Free riding brengt het hoger onderwijs in de problemen’

Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering

Hbo-docent wil wel rolmodel zijn, maar niet eigen moreel kompas opdringen

‘Sluijsmans et al. slaan de plank volledig mis’

Aangepast wetsvoorstel internationalisering dient vooral samenleving in plaats van student

Laatste artikelen

‘Behoud internationale studenten vergt specifiek beleid en hulp van arbeidsmarkt’

‘Groene hogescholen moeten grenzen naar andere sectoren oversteken’

Frans hoger onderwijs hoopt te profiteren van strengere taalwetten in Nederland

Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering

Hbo-docent wil wel rolmodel zijn, maar niet eigen moreel kompas opdringen

Navigatie

Categorieën

Volg ScienceGuide op

ScienceGuide gaat verder

Meest Gelezen

‘Free riding brengt het hoger onderwijs in de problemen’

Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering

Hbo-docent wil wel rolmodel zijn, maar niet eigen moreel kompas opdringen

‘Sluijsmans et al. slaan de plank volledig mis’

Aangepast wetsvoorstel internationalisering dient vooral samenleving in plaats van student

Gerelateerde artikelen

‘Behoud internationale studenten vergt specifiek beleid en hulp van arbeidsmarkt’

‘Groene hogescholen moeten grenzen naar andere sectoren oversteken’

Frans hoger onderwijs hoopt te profiteren van strengere taalwetten in Nederland

Vrouwen houden universiteit draaiende, maar krijgen daarvoor geen waardering

Hbo-docent wil wel rolmodel zijn, maar niet eigen moreel kompas opdringen