2. “český web”?
• bohemikální charakter zdroje (definice v collection policy)
• Území – zdroje publikované na území ČR
• Jazyk – všechny zdroje v češtině (bez ohledu na místo
vydání)
• Autorství – všechny zdroje českých autorů (bez ohledu na
místo vydání)
• Předmět/obsah – všechny zdroje, jejichž obsah se týká
České republiky nebo českého národa
(bez ohledu na místo vydání)
3. Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
5. • robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož
věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí
lidé a ne vyhledávače.”
6. Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
8. • méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v Klementinu
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
9. ● spravujeme sbírku webových stránek
● Celoplošná (dostupná z NK Klementinum)
● Tematická (volby, olympiáda, Karel IV., povodně…)
● Výběrová sklizeň (kurátorská práce)
Co dělá kurátor webového
archivu?
10. Jak se k nám jednotlivé zdroje dostanou?
● Samotní vydavatelé nebo uživatelé stránek - formulář na
webu/e-mail (Seeder)
● ISSN - online časopisy (České národní středisko ISSN)
● Kurátoři (konspekt -
http://aleph.nkp.cz/F/?func=file&file_name=konsp-nkc)
Výběrová sklizeň
12. 3 kurátoři - konspekt (odpovědnost) - hodnocení
obsahové hledisko
● bohemikální (čj, území, autor, obsahově o ČR nebo Češích)
● volně přístupné
● nekomerční (výjimky - viz Škoda - význam pro ČR)
● unikátní informace
● aktuální a dlouhodobá informační hodnota
technické hledisko (viz Zdenko), web 2.0
● sociální sítě, externí doplňky a aplikace (viz Google maps), flash, vyhledávací pole, rozbalovací nabídky, javascript
● možnost kontroly přes archive.org a testovací sklizně
frekvence sklízení
Jak probíhá hodnocení zdrojů?
13. ● před hodnocením - návrh přes ISSN nebo přes formulář
● Archivace zamítnuta - kritéria
● Návrh na přehodnocení - málo obsahu
● Technicky ověřit - možné technické problémy
● Archivace schválena
○ zkontaktovat úspěšně vydavatele (celkem 3 e-mailové oslovení)
○ návrh na CC nebo na smlouvu
○ podpis smlouvy nebo vystavení pod CC
Jak se komunikuje s vydavateli?
14. ● Smlouva nebo CC
● Katalogizace
● Kontrola
● Web
● Wayback
● Aleph
Co potom Co uživatelé
15. rozšiřujeme povědomí o Webarchivu
● píšeme odborné i popularizační články
● chystáme obsah pro web/facebook - novinky/mrtvé weby/nové
smlouvy
● jezdíme po konferencích a píšeme příspěvky
● komunikujeme s úřady
Co děláme kromě kurátorství
16. ● Účast na workshopu (23. března/9. nebo 11. dubna v Hostivaři)
● Individuální úkol
● Skupinový úkol
Ukončení předmětu
17. Individuální úkol
seminární práce
1 ze světových archivů: https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
cca 1 - 2 stránky
termín odevzdání: 4. květen
monika.holoubkova@nkp.cz
18. tým A, B, C, D
Podkategorie Konspektu s méně než 5 zdroji: https://webarchiv.cz/cs/katalog-stranek
Najít 20 zdrojů (bohemikální charakter, neveřejné zdroje)
Quality assurance (technické hledisko)
Skupinový úkol