úterý 21. února 2012

Jaká je velikost webu?

V diskuzním pořadu HydePark věnovaném 20. výročí připojení Česka k internetu, o kterém jsme informovali v jednom z předchozích článků, zazněla velmi zajímavá otázka: jak velký je vlastně internet? Hosté pořadu byli viditelně zaskočeni a otázka zůstala nezodpovězena. Jak velký je tedy internet?

Předně je třeba upřesnit dotaz – ten směřoval na počet stránek, šlo tedy evidentně o web, nikoliv internet. Internet je propojení počítačových sítí, někdy také označnovaný jako síť sítí – laicky řečeno je to infrastruktura, na které běží různě internetové aplikace. Nejznámější, resp. nejrozšířenější, z těchto aplikací je web. Možná proto jsou v běžném užití termíny web a internet často používány vzájemně zastupitelně. Správně měl ovšem dotaz znít „jaká je velikost webu (měřená počtem stránek)?“.

Přesná odpověď na tuto otázku neexistuje a pravděpodobně ani nikdy existovat nebude, můžeme se ale opřít o statistické odhady. Gulli a Signori na základě analýzy pokrytí čtyř největších vyhledávačů (Google, MSN, Yahoo, Ask/Teoma) odhadli velikost veřejně indexované části webu ke konci ledna 2005 na minimálně 11,5 miliardy stránek. 

Podobnou metodu jako Gulli a Signori používá Maurice de Kunder, autor webu WorldWideWebSize.com. Analyzuje pokrytí tří vyhledávačů (Google, Bing a Yahoo; analýza původně zahrnovala i Ask, ale ten již nezveřejňuje celkový počet výsledků vyhledávání), jeho metoda ovšem vykazuje značný rozptyl. Aktualizované odhady jsou zveřejňovány denně, k datu tohoto článku odhaduje velikost webu na nejméně 7,46 miliard stránek.  

Google oznámil v červenci 2008, že jeho roboti nalezli při procházení webu 1 bilion (1012) jedinečných URL. Toto číslo je ovšem třeba brát s velkou rezervou, neboť ne každá jedinečná URL je zároveň smysluplná – velká část těchto stránek je automaticky generována pomocí CMS, webovými kalendáři apod. Jedná se tedy o obsah, který z informačního hlediska nemá velkou hodnotu. 

Všechny doposud zmiňované odhady se týkají pouze té části webu, která je veřejně indexovatelná vyhledávači (tzv. povrchový web). Tato část webu představuje pouze pomyslný vrcholek ledovce. Skutečná velikost webu, která zůstává z velké části skryta pod povrchem, je mnohem větší. Michael Bergman ve své přelomové studii Deep web: surfacing the hidden value z roku 2001 pojmenoval tuto skrytou část webu jako hluboký web. Jde zejména o obsah databází, které jsou přístupné pouze přes vyhledávání. Tato část webu není pro prohlížeče dostupná vůbec, nebo jen ve velmi omezené míře. Bergman přirovnává vyhledávání na webu pomocí běžných vyhledávačů k tažení sítě po povrchu oceánu. Velikost hlubokého webu odhaduje na 550 miliard stránek, což v té době představovalo cca 400-550násobek odhadované velikosti povrchového webu. 

Jak je vidět, uvedené odhady mohou sloužit pouze k získání velmi hrubé představy o rozsahu webu. Velikost povrchového webu se pravděpodobně pohybuje řádově v desítkách miliard stránek, celková velikost včetně hlubokého webu je několikaset násobně větší.