pátek 13. ledna 2012

Typologie sklizní WebArchivu

Terminologie: sklizeň - automatické procházení, stahování a ukládání webových stránek pomocí robotů na základě definovaných parametrů (z anglického web harvesting, doslova sklízení webu; robot je pak nazýván harvester nebo také crawler)

Ve WebArchivu jsou prováděny 3 základní typy sklizní:

Výběrové
 • webové zdroje vybrané kurátory WebArchivu
 • zdroje navrhují většinou kurátoři, ale návrhy může dávat také kdokoliv z řad veřejnosti
 • zdroje pocházejí ze všech možných oborů lidského vědění
 • zdroje musí mít bohemikální charakter
 • zdroje v rámci .cz i z ostatních domén (.org, .eu, .com, aj.)
 • většinou webové stránky jako celek, případně jejich logická část většího rozsahu
 • zdroje se sklízejí v co největší úplnosti

Tématické
 • vybrané zdroje na určité téma, např. volby nebo přírodní pohroma
 • zdroje navrhují kurátoři
 • nemusí jít o celé webové stránky, často jsou archivovány např. jednotlivé relevantní články
 • mohou být plánované (volby) i neplánované (úmrtí Václava Havla)

Celoplošné
 • "hromadné", velkoobjemové sklizně celé domény .cz
 • jako základ slouží seznam všech registrovaných domén na .cz
 • domény se nesklízejí do hloubky, ale do šířky (tzn. cílem je sklidit alespoň část obsahu z co největšího počtu domén) - jsou nastaveny limity pro úroveň zanoření a počet stahovaných souborů z jednotlivých domén
 • z technických a kapacitních důvodů není možné sklízet kompletní doménu .cz

Frekvence sklízení

Výběrové a celoplošné sklizně probíhají podle harmonogramu sklizní pro každý rok na základě přiřazené frekvence:
 • výběrové sklizně - každý zdroj má individuální frekvenci sklízení (jednorázově, 1x-, 2x-, 6x- nebo 12x ročně)
 • celoplošné sklizně - 1-2x ročně (podle dostupné úložné kapacity)
Tématické sklizně probíhají podle aktuální potřeby a z povahy věci nemají dopředu plánované frekvence ani harmonogram.


Zpřístupňování

Zdroje z výběrových sklizní ošetřené smlouvou s vydavateli/autory jsou zpřístupňovány online. Ostatní zdroje jsou z důvodů omezení autorským zákonem zpřístupňovány pouze lokálně v rámci Národní knihovny ČR na určených terminálech.


Pozn.: Sklizeň se provádí k určitému datu, resp. během určitého období. To má 2 implikace:
(1) zachycuje pouze stav v daném čase, nezachycuje nové zdroje a změny existujících zdrojů mimo toto období,
(2) protože probíhá určitou dobu, může dojít ke změně zdrojů během sklizně (tzv. časové/temporální nekonzistenci sklizně)