pátek 13. ledna 2012

Typologie sklizní WebArchivu

Terminologie: sklizeň - automatické procházení, stahování a ukládání webových stránek pomocí robotů na základě definovaných parametrů (z anglického web harvesting, doslova sklízení webu; robot je pak nazýván harvester nebo také crawler)

Ve WebArchivu jsou prováděny 3 základní typy sklizní:

Výběrové
  • webové zdroje vybrané kurátory WebArchivu
  • zdroje navrhují většinou kurátoři, ale návrhy může dávat také kdokoliv z řad veřejnosti
  • zdroje pocházejí ze všech možných oborů lidského vědění
  • zdroje musí mít bohemikální charakter
  • zdroje v rámci .cz i z ostatních domén (.org, .eu, .com, aj.)
  • většinou webové stránky jako celek, případně jejich logická část většího rozsahu
  • zdroje se sklízejí v co největší úplnosti

Tématické
  • vybrané zdroje na určité téma, např. volby nebo přírodní pohroma
  • zdroje navrhují kurátoři
  • nemusí jít o celé webové stránky, často jsou archivovány např. jednotlivé relevantní články
  • mohou být plánované (volby) i neplánované (úmrtí Václava Havla)

Celoplošné
  • "hromadné", velkoobjemové sklizně celé domény .cz
  • jako základ slouží seznam všech registrovaných domén na .cz
  • domény se nesklízejí do hloubky, ale do šířky (tzn. cílem je sklidit alespoň část obsahu z co největšího počtu domén) - jsou nastaveny limity pro úroveň zanoření a počet stahovaných souborů z jednotlivých domén
  • z technických a kapacitních důvodů není možné sklízet kompletní doménu .cz

Frekvence sklízení

Výběrové a celoplošné sklizně probíhají podle harmonogramu sklizní pro každý rok na základě přiřazené frekvence:
  • výběrové sklizně - každý zdroj má individuální frekvenci sklízení (jednorázově, 1x-, 2x-, 6x- nebo 12x ročně)
  • celoplošné sklizně - 1-2x ročně (podle dostupné úložné kapacity)
Tématické sklizně probíhají podle aktuální potřeby a z povahy věci nemají dopředu plánované frekvence ani harmonogram.


Zpřístupňování

Zdroje z výběrových sklizní ošetřené smlouvou s vydavateli/autory jsou zpřístupňovány online. Ostatní zdroje jsou z důvodů omezení autorským zákonem zpřístupňovány pouze lokálně v rámci Národní knihovny ČR na určených terminálech.


Pozn.: Sklizeň se provádí k určitému datu, resp. během určitého období. To má 2 implikace:
(1) zachycuje pouze stav v daném čase, nezachycuje nové zdroje a změny existujících zdrojů mimo toto období,
(2) protože probíhá určitou dobu, může dojít ke změně zdrojů během sklizně (tzv. časové/temporální nekonzistenci sklizně)