středa 29. února 2012

Anatomie webové stránky

Podle statistiky únorové sklizně bylo sklizeno téměř 21 milionů objektů (dokumentů). Co se vlastně rozumí pod pojmem objekt, resp. dokument?

Webová stránka se skládá z kontejnerového objektu (většinou v podobě HTML nebo XHTML souboru), který odkazuje na externí objekty jako jsou obrázky, videa, kaskádové styly (CSS) nebo javascriptové soubory. Objekt tedy není totéž, co webová stránka, ale je to jedna z jejích komponent. V terminologii sklízecího robota Heritrix se objekt nazývá dokument. Každý objekt, resp. dokument, je identifikován URI.

Části webové stránky: XHTML, CSS, JavaScript (Zdroj: Davin Granroth)
S tím, jak se techniky tvorby webových stránek stávají stále sofistikovanějšími, roste také počet objektů, z kterých se webové stránky skládají, a jejich velikost. Server WebSiteOptimization.com uvádí, že v roce 2011 se průměrná webová stránka skládala z 85 objektů. Proti roku 2003 se průměrný počet objektů na jednu stránku ztrojnásobil, ve srovnání s rokem 1995 dokonce vzrostl téměr 37x!

Růst velikosti a počtu objektů průměrné webové stránky (Zdroj: WebSiteOptimization.com)
Pokud bychom vycházeli z těchto údajů, počet sklizených objektů by odpovídal přibližně 245 tisícům stránek.