UvT-student berekent: ‘Google telt het web niet adequaat’
Om de grootte van het deel van internet waar iedereen bij kan te bepalen, gebruikte De Kunder een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord in dertig artikelen voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord 1 op 1000. Wanneer Google vervolgens meldt dat er 9 miljoen webpagina’s bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina’s.
Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina’s af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap tussen de zoekmachines bepaald, en de uiteindelijke schatting hiervoor gecorrigeerd.
Een opvallende uitkomst is dat de zoekmachine Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van Google tussen de 25 en de 45 miljard webpagina’s. Yahoo Search lijkt een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad van willekeurige URLs (adressen van webpagina’s) wordt gemeten. Bovendien overlapt de database van Yahoo meer met andere zoekmachines dan Google. De Kunder stelt dan ook dat Google’s index niet de basis kan zijn voor een betrouwbare schatting van de grootte van het WWW, omdat de zoekmachine mogelijk geen realistische en wellicht opgeblazen getallen teruggeeft. Yahoo Search is een betere basis voor zo’n schatting.
Op onderstaande website wordt het aantal webpagina’s dagelijks bijgehouden (in Nederland en wereldwijd):
