Statistiky výběrové sklizně s dlouhou frekvencí - březen 2012


Březnová výběrová sklizeň zdrojů s dlouhou frekvencí (viz předchozí příspěvek) byla úspěšně ukončena. Celkem se sklidilo 12 GB dat (97431 objektů).

Výběrové sklizně bez smlouvy a mimořádné sklizně - březen 2012

Ve čtvrtek 29. 3. byly spuštěny tři výběrové sklizně - březnová sklizeň vybraných zdrojů bez smlouvy, mimořádná sklizeň zdrojů se smlouvou s dlouhými frekvencemi sklízení za měsíc únor a mimořádná sklizeň zdrojů se smlouvou s dlouhou frekvencí sklízení vybraných během celého roku 2011. Sklízí se 1980 zdrojů/2161 semínek ve výběrové sklizni zdrojů bez smlouvy, 36 zdrojů/42 semínek v mimořádné sklizni za únor a 373 zdrojů/435 semínek v mimořádné sklizni za rok 2011 - viz seznam archivovaných zdrojů.

Zdroje bez smlouvy se sklízejí třikrát ročně (se čtyřměsíční frekvencí) vždy v březnu, červenci a listopadu. 

Zdroje s dlouhými frekvencemi sklízení (půl roku, resp. jeden rok) jsou sklízeny
mimořádně vždy v následujícím měsíci po uzavření smlouvy. Poté jsou tyto zdroje

Přednáška o WebArchivu v rámci Jinonických informačních pondělků

Přednáška na téma "WebArchiv a jeho budoucnost" se uskuteční v pondělí 2. dubna v rámci cyklu Jinonické informační pondělky a proběhne v prostorách UISK FF UK v Jinonicích (ul. U Kříže 8) od 14.00 v místnosti c. 2015. Délka trvání 1,5 hod.

Přednášky pořádají UISK a Česká informační společnost, o.s.

Prezentace z minulých přednášek naleznete na adrese
http://uisk.ff.cuni.cz/listing.do?categoryId=14925.

Program celého letního semestru JIP naleznete na adrese
http://uisk.ff.cuni.cz/listing.do?categoryId=15185.

Mapy webu a sociálních sítí

Další volné pokračování série článků o mapování internetu, tentokrát na téma mapování webu a sociálních sítí.


FlickrVerse - graf, zobrazující sociální síť uživatelské komunity Flickru, duben 2005. Zdroj: GustavoG

Nové přírůstky 2012 (12. týden)

V týdnu od 19. do 25. 3. 2012 jsme uzavřeli smlouvu na následující zdroje:

Gord : uzly a uzlíky
http://gord.gringo.cz
- frekvence sklízení: 1x ročně



Seznam tematických sklizní WebArchivu

Od roku 2002 v projektu WebArchiv proběhlo 12 tematických sklizní:


Václav Havel (2011)

Tematická sklizeň k úmrtí prvního polistopadového československého a českého prezidenta Václava Havla, který zemřel 18. prosince 2011. Sklizeň proběhla v několika kolech na přelomu roku 2011/2012. Do sklizně bylo zařazeno téměř 480 návrhů od 25 nominátorů z 18 členských institucí IIPC, několika jiných institucí i několika jednotlivců z řad veřejnosti. Více informací o sklizni v příspěvku z 16.1. 

Statistika - připravujeme

Archivace webu v D-Lib

Nejnovější číslo časopisu D-Lib přináší tři zajímavé články o archivaci webu: Web archives for researchers: representations, expectations and potential uses, An overview of web archiving a Functionalities of web archives.

Nové přírůstky 2012 (11. týden)

V týdnu od 12. do 18. 3. 2012 jsme uzavřeli smlouvu na následující zdroje:

Průmysl & ekonomika
http://www.prekon.cz
- frekvence sklízení: 12x ročně





Návrhy od vydavatelů a uživatelů - březen 2012 (1/2)

Návrhy na zařazení zdrojů může zasílat kdokoli pomocí formuláře na stránkách WebArchivu nebo emailu.

V období od 1. do 15. 3. 2012 bylo navrženo 15 zdrojů:

Music Dragons
http://www.musicdragons.eu

Plnotextová indexace webových archivů, 1. část


V článku Indexace sklizní 2011 jsme přiblížili indexaci souborů ARC, která slouží k vyhledávání, resp. prohlížení obsahu archivu pomocí URL. Dnes se zaměříme na indexaci plných textů (angl. full-text indexing).
 
Vytváření indexů plných textů slouží k vyhledávání v dokumentech pomocí klíčových slov, popřípadě frází. Plnotextová indexace není pro vyhledávání v plných textech nutná, ale značně jej ulehčuje. Bez indexace by bylo nutné prohledávat všechny dokumenty v archívu slovo po slovu přímo při vyhledávání, které by se tím značně zpomalovalo – v archívu s miliony dokumentů trvá vyhledávání v indexu několik milisekund, zatímco při neexistenci indexu by mohlo trvat i několik hodin.

Pomozte nám vybrat zdroje pro výběrové sklizně

Dnes jsme zveřejnili na blogu zkušební anketu, ve které veřejnost může hlasovat o zařazení zdroje IT Point do výběrových sklizní WebArchivu.

Zdroje pro výběrové sklizně jsou vybírány na základě kolektivního hlasování kurátorů WebArchivu. Rádi bychom ale prozkoumali možnosti zapojení širšího okruhu "hodnotitelů" formou crowdsourcingu, resp. moudrosti davu.

Termín crowdsourcing použil poprvé Jeff Howe v článku v časopise Wired. Později jej definoval jako "čin, kdy je práce, tradičně vykonávaná určeným agentem (obvykle zaměstnancem), outsourcována nedefinované, obecně velké skupině lidí, formou otevřené výzvy".

Moudrost davu (angl. wisdom of the crowd) se definuje jako "proces, který při hledání odpovědi na otázku bere v potaz kolektivní názor skupiny jednotlivců místo názoru jednoho experta".

Nové přírůstky 2012 (10. týden)

V týdnu od 5.3. do 11. 3. 2012 jsme uzavřeli smlouvu na následující zdroje:

Creative&Invention
http://www.creative-invention.cz
- frekvence sklízení: 6x ročně




Další příklady internetových map

Volné pokračování předchozích článků Jak vypadá internet a Mapování internetu.

Hierarchická struktura internetu, založená na spojení mezi jednotlivými uzly. Zdroj: Technology Reviev
Hyperbolický atlas internetu. Zdroj: Scope

Zpřístupnění zdrojů z WebArchivu

Zpřístupnění obsahu WebArchivu se liší podle toho, zda na daný zdroj byla uzavřena smlouva nebo ne.

Zdroje se smlouvu
Jedná se o stránky archivované v rámci výběrových sklizní, na které byla uzavřena smlouva s vydavateli nebo jsou zveřejněny pod licencí Creative Commons. Tyto stránky jsou volně přístupné online odkudkoliv přes vyhledávání nebo přes prohlížení podle tematických kategorií Konspektu (více o vyhledávání naleznete v předchozím článku).

Jak nalézt zdroje uložené ve WebArchivu


Existuje několik způsobů, jak nalézt zdroje uložené ve WebArchivu.

1) Vyhledávání

Základní způsob, jak nalézt všechny webové stránky, ať jsou archivované v rámci celoplošných nebo výběrových sklizní. Odkaz na vyhledávání je dostupný na hlavní stránce WebArchivu. Prokliknutím se zobrazí jednoduchá „googlovská“  řádka.


Nové přírůstky 2012 (9. týden)

V týdnu od 27. 2. do 4. 3. 2012 jsme uzavřeli smlouvu na následující zdroje:

Adamov a okolí
http://www.adamovaokoli.ic.cz
- frekvence sklízení: 2x ročně




Statistika zdrojů - únor 2012

Údaje se vztahují k období 1. 2. 2012 až 29. 2. 2012.

Navržené zdroje:
 77
- kurátorem
   43
- ISSN
   8
- návštěvníkem
  6
- vydavatelem
  20
Hodnocené zdroje
   138
Schválené zdroje
   54
Oslovené zdroje
   98
Nasmlouvané zdroje
  44
Počet smluv
   42

Vysvětlivky:

Mapování internetu

Obrázková metafora: internet jako "CML - Centrální mozek lidstva". Zdroj: Information Week
V roce 2008 vyšel v Information Week zajímavý článek o prvním projektu mapování internetu u příležitosti 10. výročí jeho založení. Cílem tohoto dlouhodobého výzkumného projektu bylo studovat růst online světa.

Jak "vypadá" internet?


Vizuální reprezentace internetu, vytvořená Barrettem Lyonem v projektu Opte, což je jeden z projektů zabývajících se mapováním internetu. Mapy internetu mohou sloužit k různým účelům, od modelování internetu, přes analýzy využití prostoru IP adres, až po odhalování následků přírodních katastrof, počasí nebo válek. Zároveň jde ale také o moderní formu "internetového" umění, které je vystavováno prestižními galeriemi a muzei, např. Muzeem moderního umění v New Yorku. Další mapy na stránkách projektu Opte.

Výběrová sklizeň - březen 2012

Dnes byla spuštěna březnová sklizeň vybraných zdrojů se smlouvou s frekvencí sklízení jeden a šest měsíců. Sklízí se  225 zdrojů/272 semínek pro jedno - a 1328 zdrojů/1525 semínek pro šestiměsíční frekvenci - viz seznam archivovaných zdrojů.

Návrhy ISSN 2012 - únor

Z Českého národního střediska ISSN jsme v únoru obdrželi sedm návrhů na zdroje. Více o možnostech navrhování zdrojů naleznete v předchozím článku.

Časopis pro právní vědu a praxi
http://www.law.muni.cz/content/cs/cpvp/

Návrhy od vydavatelů a uživatelů - únor 2012 (2/2)

Návrhy na zařazení zdrojů může zasílat kdokoli pomocí formuláře na stránkách WebArchivu nebo emailu.

V období od 16. do 29. 2. 2012 bylo navrženo 16 zdrojů:

Cyklotrasy ze Sobotky a nejen o nich
http://www.sobotka.estranky.cz