UvT-student berekent: ‘Google telt het web niet adequaat’

Nieuws | de redactie
10 juli 2006 | Hoe groot is het World Wide Web? Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media in Tilburg studeert af op de betrouwbaarste schatting: minstens 14,3 miljard webpagina's. Het Nederlandse web telt minstens 291 miljoen webpagina's. Over de schattingen die Google hanteert is hij daarbij zeer kritisch.

Om de grootte van het deel van internet waar iedereen bij kan te bepalen, gebruikte De Kunder een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord in dertig artikelen voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord 1 op 1000. Wanneer Google vervolgens meldt dat er 9 miljoen webpagina’s bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina’s.

Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina’s af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap tussen de zoekmachines bepaald, en de uiteindelijke schatting hiervoor gecorrigeerd.

Een opvallende uitkomst is dat de zoekmachine Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van Google tussen de 25 en de 45 miljard webpagina’s. Yahoo Search lijkt een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad van willekeurige URLs (adressen van webpagina’s) wordt gemeten. Bovendien overlapt de database van Yahoo meer met andere zoekmachines dan Google. De Kunder stelt dan ook dat Google’s index niet de basis kan zijn voor een betrouwbare schatting van de grootte van het WWW, omdat de zoekmachine mogelijk geen realistische en wellicht opgeblazen getallen teruggeeft. Yahoo Search is een betere basis voor zo’n schatting.

Op onderstaande website wordt het aantal webpagina’s dagelijks bijgehouden (in Nederland en wereldwijd):

http://www.worldwidewebsize.com


«
Schrijf je in voor onze nieuwsbrief
ScienceGuide is bij wet verplicht je toestemming te vragen voor het gebruik van cookies.
Lees hier over ons cookiebeleid en klik op OK om akkoord te gaan
OK