pondělí 16. ledna 2012

Indexace sklizní 2011

Všechny výběrové sklizně roku 2011 jsou nyní zaindexovány pro základní vyhledávání přes URL zdroje.

Co to znamená, resp. k čemu je to dobré?

Sklízecí robot Heritrix ukládá všechny stažené webové stránky a s nimi související další soubory (např. obrázky nebo CSS) do kontejnerového formátu ARC. Jde v podstatě o jakési "krabice", kam se vše naháže, v našem případě "bez ladu a skladu" (rozuměj bez nějakého logického systému). Hlavním důvodem pro toto řešení je usnadnění práce s velkým množstvím souborů - namísto stovek milionů jednotlivých souborů můžeme pracovat jen s desítkami až stovkami tisíců kontejnerů.

Zdroj: www.heavydutyshelvingusa.com
 Každá z těchto krabic má sice "štítek" se základním popisem (název, datum vytvoření apod.), ale schází jim seznam toho, co je uvnitř. Pro efektivní zpřístupnění archivovaných stránek je zapotřebí takový seznam vytvořit - jinak by bylo nutné otevírat jednu krabici po druhé a hledat, zda se v nich požadovaná stránka nachází. Index je právě takovým seznamem, který říká, v které krabici se nachází hledaná URL a kde je tato krabice uložena.

Pokud tedy vyhledáváte pomocí URL, Wayback nahlédne do svého indexu a zobrazí soupis všech archivovaných verzí požadovaných stránek.


Zaindexované sklizně se zobrazí ve výpisu při vyhledávání ve Wayback

Vzhledem k obrovskému množství souborů, které je třeba indexovat (miliony až desítky milionů z jedné sklizně), jde o zdlouhavý proces, který může trvat v řádu několika dnů až týdnů. Z organizačních důvodů také probíhá s určitým zpožděním po sklizni, které může být i několik měsíců. Zpoždění indexování je také krokem vstříc vydavatelům, kteří mohou mít obavy ze zaměnitelnosti "živé" a archivované verze svých webů.

Kromě indexace pro vyhledávání přes URL jsou textové dokumenty indexovány také pro vyhledávání v plných textech - o tom ale jindy.