Podle
statistiky únorové sklizně bylo sklizeno téměř 21 milionů objektů (dokumentů). Co se vlastně rozumí pod pojmem objekt, resp. dokument?
Webová stránka se skládá z kontejnerového objektu (většinou v podobě
HTML nebo
XHTML souboru), který odkazuje na externí objekty jako jsou obrázky, videa, kaskádové styly (
CSS) nebo
javascriptové soubory. Objekt tedy není totéž, co webová stránka, ale je to jedna z jejích komponent. V terminologii sklízecího robota
Heritrix se objekt nazývá dokument. Každý objekt, resp. dokument, je identifikován
URI.
S tím, jak se techniky tvorby webových stránek stávají stále sofistikovanějšími, roste také počet objektů, z kterých se webové stránky skládají, a jejich velikost. Server WebSiteOptimization.com
uvádí, že v roce 2011 se průměrná webová stránka skládala z 85 objektů. Proti roku 2003 se průměrný počet objektů na jednu stránku ztrojnásobil, ve srovnání s rokem 1995 dokonce vzrostl téměr 37x!
 |
Růst velikosti a počtu objektů průměrné webové stránky (Zdroj: WebSiteOptimization.com)
|
Pokud bychom vycházeli z těchto údajů, počet sklizených objektů by odpovídal přibližně 245 tisícům stránek.
0 komentářů:
Okomentovat