Anatomie webové stránky

Podle statistiky únorové sklizně bylo sklizeno téměř 21 milionů objektů (dokumentů). Co se vlastně rozumí pod pojmem objekt, resp. dokument?

Webová stránka se skládá z kontejnerového objektu (většinou v podobě HTML nebo XHTML souboru), který odkazuje na externí objekty jako jsou obrázky, videa, kaskádové styly (CSS) nebo javascriptové soubory. Objekt tedy není totéž, co webová stránka, ale je to jedna z jejích komponent. V terminologii sklízecího robota Heritrix se objekt nazývá dokument. Každý objekt, resp. dokument, je identifikován URI.

Části webové stránky: XHTML, CSS, JavaScript (Zdroj: Davin Granroth)

Statistiky výběrové sklizně - únor 2012

Výběrová sklizeň za únor 2012 (viz předchozí příspěvek) byla úspěšně ukončena. Celkem se sklidilo 1,6 TB dat (20,8 milionů objektů).

Nové přírůstky 2012 (8. týden)

V týdnu od 20. do 26. 2. 2012 jsme uzavřeli smlouvu na následující zdroje:

Státní oblastní archiv v Litoměřicích : archiv severních a severozápadních Čech
http://www.soalitomerice.cz
- frekvence sklízení: 2x ročně



PhD studium zaměřené na archivaci webu na University of North Texas


University of North Texas (UNT) College of Information přijímá přihlášky na získání tříletého grantu na podporu doktorského studia zaměřeného na archivaci webu. Grant ve výši přibližně 40 tisíc USD ročně je sponzorován konsorciem IIPC. Vybraný uchazeč bude mít příležitost získat praktické zkušenosti ve spolupráci se dvěma členy IIPC, University of North Texas Libraries a Internet Archive, a bude se také podílet přímo na aktivitách IIPC. Termín pro podání přihlášek byl prodloužen do 29. února. Podrobnosti o grantu a přihlášce na stránkách UNT nebo WebArchivu.

Konference IIPC o archivaci webu

International Internet Preservation Consortium (IIPC) pořádá jednodenní otevřenou mezinárodní konferenci o archivaci webu na téma The broad value of web archives: demonstrated use. Konference se uskuteční 30. dubna 2012 u příležitosti výročního zasedání IIPC  ve Washingtonu, D. C. Návrhy příspěvků je možno posílat do 28. 2. Jak napovídá název, letošní konference je zaměřena na příklady širokého využití webových archivů. Doporučené okruhy zahrnují:
  • využití webových archivů pro právní účely nebo pro archivaci ze zákona
  • využítí archivace pro osobní účely
  • využití webových archivů pro data mining
  • webové archivy a povinný výtisk
  • webové archivy firem a organizací
  • archivace počítačových her a komunitních webů
  • role "občanských archivářů" a crowdsourcingu při vytváření webových archivů
Podrobnější informace je možno nalézt na webu IIPC.

Jaká je velikost webu?

V diskuzním pořadu HydePark věnovaném 20. výročí připojení Česka k internetu, o kterém jsme informovali v jednom z předchozích článků, zazněla velmi zajímavá otázka: jak velký je vlastně internet? Hosté pořadu byli viditelně zaskočeni a otázka zůstala nezodpovězena. Jak velký je tedy internet?

Předně je třeba upřesnit dotaz – ten směřoval na počet stránek, šlo tedy evidentně o web, nikoliv internet. Internet je propojení počítačových sítí, někdy také označnovaný jako síť sítí – laicky řečeno je to infrastruktura, na které běží různě internetové aplikace. Nejznámější, resp. nejrozšířenější, z těchto aplikací je web. Možná proto jsou v běžném užití termíny web a internet často používány vzájemně zastupitelně. Správně měl ovšem dotaz znít „jaká je velikost webu (měřená počtem stránek)?“.

Nové přírůstky 2012 (7. týden)

V týdnu od 13. do 19. 2. 2012 jsme uzavřeli smlouvu na následující zdroje:

Břetislav Olšer - blog, Olser.cz
http://olser.cz
- frekvence sklízení: 12x ročně





Návrhy od vydavatelů a uživatelů - únor 2012 (1/2)

Návrhy na zařazení zdrojů může zasílat kdokoli pomocí formuláře na stránkách WebArchivu nebo emailu.

V období od 1. do 15. 2. 2012 bylo navrženo 11 zdrojů:

Svět peněz
http://svetpenez.eu

Nové přírůstky 2012 (6. týden)

V týdnu od 6. do 12. 2. 2012 jsme uzavřeli smlouvu na následující zdroje:

Naše hobby : receptář pro každého
http://www.nasehobby.cz
- frekvence sklízení: 6x ročně





Statistika zdrojů - leden 2012

Údaje se vztahují k období 1. 1. 2012 až 31. 1. 2012.

Navržené zdroje:
 58
- kurátorem
   30
- ISSN
   2
- návštěvníkem
  6
- vydavatelem
  20
Hodnocené zdroje
   95
Schválené zdroje
   26
Oslovené zdroje
   43
Nasmlouvané zdroje
  34
Počet smluv
   30

Vysvětlivky:

20 let českého internetu

Internet v Česku dnes slaví své druhé kulatiny. Přesně před 20 lety, 13. 2. 1992, se jako první v bývalé československé federaci k internetu připojilo výpočetní centrum ČVUT v Praze. Podrobnější informace o historii českého internetu včetně přehledu významných události rok po roce lze najít ve zprávě sdružení CESNET. Internet v Česku tedy nastoupil zhruba ve stejné době, kdy byla spuštěna jeho v současnosti nejpoužívanější aplikace, World Wide Web (více o webu např. v tomto článku v časopise Knihovna). Internet a web bývají částo zaměňovány, ale internet představuje laicky řečeno infrastrukturu, na které web běží. Vývoj internetu přehledně shrnuje následující video.



U příležitosti toho výročí proběhne dnes od 9 hod. na ČVUT odborné setkání s příspěvky českých i zahraničních osobností. Večer od 20:05 pak na toto téma proběhne diskuze v pořadu Hyde park na programu ČT 24.

Francie rozšířila povinný výtisk na web

Národní knihovna Francie (Bibliothèque national de France) oznámila rozšíření francouzské legislativy o povinném výtisku o webové publikace. 

Povinný výtisk je zákonná povinnost vydavatelů odevzdávat určitý počet výtisků publikací určeným institucím (knihovnám, muzeím apod.). Tato povinnost existuje ve všech vyspělých zemích. Právo povinného výtisku vzniklo původně pro tištěné publikace (knihy, noviny, časopisy), ale v souvislosti s přesunem publikování na web postupně dochází k jeho rozšíření i do této sféry.

Návrhy ISSN 2012 - leden

Z Českého národního střediska ISSN jsme v lednu obdrželi 11 návrhů na zdroje. Více o možnostech navrhování zdrojů naleznete v předchozím článku.

Exploration geophysics, remote sensing and environment
http://www.caag.cz/egrse.php

Výběrová sklizeň - únor 2012

Probíhá únorová sklizeň vybraných zdrojů se smlouvou s frekvencí sklízení jeden a dva měsíce. Sklizeň byla spuštěna v pondělí 6. 2. Sklízí se 217 zdrojů/257 semínek pro jedno - a 1215 zdrojů/1407 semínek pro dvouměsíční frekvenci - viz seznam archivovaných zdrojů.

Jak jsou navrhovány zdroje do výběrových sklizní

Zdroje pro zařazení do výběrových sklizní WebArchivu jsou navrhovány čtyřmi způsoby:

1. Kurátory WebArchivu

Souhrnné statistiky zdrojů ke konci roku 2011

Pozn.: Statistiky jsou ovlivněny zavedením nového databázového systému (WA Admin 2.0) v září 2009. Před tímto datem nebyly některé statistiky sledovány nebo nebyly sledovány systematicky.
 
Údaje se vztahují k období 1. 1. 2003 až 31. 12. 2011.

Navržené zdroje:
   6867
- kurátorem*
   2216
- ISSN*
   133
- návštěvníkem*
   82
- vydavatelem*
   621
Hodnocené zdroje*
   3529
Schválené zdroje
   4982
Oslovené zdroje*
   3620
Nasmlouvané zdroje
   3067
Počet smluv
   2495
* data nejsou k dispozici před 09/2009 nebo nemusí být přesná

Vysvětlivky:

Nové přírůstky 2012 (5. týden)

V týdnu od 30.1. do 5.2.2012 jsme uzavřeli smlouvu na následující zdroje:

Brutální Auril : četba na vlastní nebezpečí
http://tuat-web.info/brutalni-auril-ekniha/
- frekvence sklízení: jednorázově





Návrhy od vydavatelů a uživatelů - leden 2012 (2/2)

Návrhy na zařazení zdrojů může zasílat kdokoli pomocí formuláře na stránkách WebArchivu nebo emailu.

V období od 16. do 31.1.2012 bylo navrženo 16 zdrojů:

Rakeťáci
http://www.raketaci.cz