SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Webarchiv
Kurz webové archivace, AIS142
Webová archivace
Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the public.
Proč archivovat web?
Web scale archiving
• webové archivy se snaží archivovat tak velkou část
internetu, že není možné kontrolovat akvizici, ochranu,
zpřístupnění ani kontrolu kvality jednotlivých webových
stránek pouze lidskými silami.
Limity webové archivace
• legislativa + budget
• deep web (?)
• web 2.0 (streaming, passwords, databases)
• dlouhodobá ochrana
Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
Kdo jsou webové archivy
• Internet Archive
• Národní knihovny
• Univerzity, neziskové organizace
Memento
• agregátor webových archivů
• https://www.youtube.com/watch?v=WtZHKeFwjzk
Dark archives
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence
Webarchiv
Český webový archiv, více
Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 200 TB
• frekvence sklízení: 1x - 1x|2x|6x|12x/year
• hloubka sklízení: 5000 - 15 000 objects
• přístupnost: in house/online access
Rozložení domén
Tempo růstu
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
Zpřístupnění
• Wayback Machine (zobrazování)
• Vyhledávání:
• primárně WWW
• katalog Aleph
• Wayback Machine
Role kurátora
• komunikace s vydavateli
• “plnění” konspektu
• správa webových zdrojů vč. hodnocení
• katalogizace
• quality assurance
Kurátorství ve světě
• Technicky vyřešeno
• Důraz na kolekce
• IIPC collaborative collections
• Sociální sítě
Jak to děláme my?
• Tematické sklizně
• Plníme konspekt
• Chystáme kolekce a zapojení dalších institucí
w
w w
w w w
Děkuji za pozornost!
Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz

Contenu connexe

Similaire à Kurz webové Archivare I.

Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsJanKanka
 
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholKP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholInfodays
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0JanKanka
 
Komu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsKomu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsTereza Simandlová
 
Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz
 
Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Ústřední knihovna FF MU
 
Online katalogy a weby knihoven
Online katalogy a weby knihovenOnline katalogy a weby knihoven
Online katalogy a weby knihovenJanKanka
 
Průvodce databázemi pro studenty Ústavu klasických studií
Průvodce databázemi pro studenty Ústavu klasických studiíPrůvodce databázemi pro studenty Ústavu klasických studií
Průvodce databázemi pro studenty Ústavu klasických studiíÚstřední knihovna FF MU
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz
 
Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůtomas.sibek
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0JanKanka
 
Do knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeDo knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeMilan Janíček
 
Elektronické informační zdroje pro studium humanitních oborů
Elektronické informační zdroje pro studium humanitních oborůElektronické informační zdroje pro studium humanitních oborů
Elektronické informační zdroje pro studium humanitních oborůÚstřední knihovna FF MU
 
Open source v e learningu
Open source v e learninguOpen source v e learningu
Open source v e learninguMichal Černý
 
Elektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIElektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIUstredni knihovna VUT
 
Průvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaPrůvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaÚstřední knihovna FF MU
 

Similaire à Kurz webové Archivare I. (20)

Kurz webové archivace 2018/2
Kurz webové archivace 2018/2Kurz webové archivace 2018/2
Kurz webové archivace 2018/2
 
Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google Docs
 
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholKP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
 
Komu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsKomu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access Greenhorns
 
Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017
 
Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017
 
Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia
 
Online katalogy a weby knihoven
Online katalogy a weby knihovenOnline katalogy a weby knihoven
Online katalogy a weby knihoven
 
Průvodce databázemi pro studenty Ústavu klasických studií
Průvodce databázemi pro studenty Ústavu klasických studiíPrůvodce databázemi pro studenty Ústavu klasických studií
Průvodce databázemi pro studenty Ústavu klasických studií
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihoven
 
Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentů
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0
 
Do knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeDo knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlize
 
Elektronické informační zdroje pro studium humanitních oborů
Elektronické informační zdroje pro studium humanitních oborůElektronické informační zdroje pro studium humanitních oborů
Elektronické informační zdroje pro studium humanitních oborů
 
EIZ v práci doktorandů
EIZ v práci doktorandůEIZ v práci doktorandů
EIZ v práci doktorandů
 
Open source v e learningu
Open source v e learninguOpen source v e learningu
Open source v e learningu
 
Odborné informace onlie
Odborné informace onlie Odborné informace onlie
Odborné informace onlie
 
Elektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIElektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSI
 
Průvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studiaPrůvodce databázemi pro studenty oboru Mediteránní studia
Průvodce databázemi pro studenty oboru Mediteránní studia
 

Plus de Webarchive of National Library of the Czech Republic

Plus de Webarchive of National Library of the Czech Republic (20)

Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka
 
Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?
 
WARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verzeWARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verze
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Kurz webové archivace III.
Kurz webové archivace III.Kurz webové archivace III.
Kurz webové archivace III.
 
Kurz webové archivace II.
Kurz webové archivace II.Kurz webové archivace II.
Kurz webové archivace II.
 
Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.
 
Prezentace obsahu webového archivu
Prezentace obsahu webového archivuPrezentace obsahu webového archivu
Prezentace obsahu webového archivu
 
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s HeritrixemInfrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
 

Kurz webové Archivare I.

  • 2. Webová archivace Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.
  • 4. Web scale archiving • webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.
  • 5. Limity webové archivace • legislativa + budget • deep web (?) • web 2.0 (streaming, passwords, databases) • dlouhodobá ochrana
  • 6. Technické překážky • Flash, Ajax, JavaScript … • technických překážek je mnoho, řešení? • univerzální řešení neexistuje
  • 7. Kdo jsou webové archivy • Internet Archive • Národní knihovny • Univerzity, neziskové organizace
  • 8. Memento • agregátor webových archivů • https://www.youtube.com/watch?v=WtZHKeFwjzk
  • 9. Dark archives • veřejně nepřístupné archivy • většinou pouze v místě samé, někdy ani to ne • autorský zákon, knihovní licence
  • 11. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  • 12. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 200 TB • frekvence sklízení: 1x - 1x|2x|6x|12x/year • hloubka sklízení: 5000 - 15 000 objects • přístupnost: in house/online access
  • 15.
  • 16. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na archiv • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  • 17. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  • 18. Zpřístupnění • Wayback Machine (zobrazování) • Vyhledávání: • primárně WWW • katalog Aleph • Wayback Machine
  • 19. Role kurátora • komunikace s vydavateli • “plnění” konspektu • správa webových zdrojů vč. hodnocení • katalogizace • quality assurance
  • 20. Kurátorství ve světě • Technicky vyřešeno • Důraz na kolekce • IIPC collaborative collections • Sociální sítě
  • 21.
  • 22.
  • 23. Jak to děláme my? • Tematické sklizně • Plníme konspekt • Chystáme kolekce a zapojení dalších institucí
  • 24. w w w w w w Děkuji za pozornost! Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz