Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Blok expertu

Prezentace z Bloku expertů na Kabinetu informačních studií a knihovnictví v Brně z 27. dubna 2017

  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

Blok expertu

  1. 1. Český webový archiv aneb Webarchiv jako pamatník českého internetu Jaroslav Kvasnica
  2. 2. Webová archivace “Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.”
  3. 3. Co stojí za to archivovat? “more is more, less is less” vs. “hoarding is not a strategy”
  4. 4. Co stojí za to archivovat? • V dnešní době můžeme jen hádat. • Lidstvo nikdy nedokáže kategorizovat všechna data na světě.
  5. 5. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  6. 6. Celoplošné sklízení 1. všechno, celý web (Internet Archive) 2. předem definovaná část webu (národní web, TLD) • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • nutnost definovat výsek, který chceme sklízet (všichni nemůžou být IA)
  7. 7. Výběrové sklízení • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události
  8. 8. IIPC collaborative collection Europan Refugee Crisis, World War I. https://archive-it.org/home/IIPC Nový projekt: Online News Around the World
  9. 9. Instantní archivace • news, social media • technicky náročné (výpočetní výkon, nárok na kurátory) • RSS • často je aplikovaná při zvláštních událostech
  10. 10. instantní archivace - příklady “(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.) The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)” http://www.newyorker.com/magazine/2015/01/26/cobweb
  11. 11. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  12. 12. Webarchiv Český webový archiv, více
  13. 13. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  14. 14. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 250 TB • frekvence sklízení: 1x|2x|6x|12x/rok • hloubka sklízení: 5000 - 15 000 objektů/doména
  15. 15. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na profil archivu • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  16. 16. Celoplošné sklizně • smlouva s CZ.NIC • dnes ~ 1 300 000 domén • dvakrát za rok sklizeň celé .cz domény • menší hloubka, časově a objemově náročné
  17. 17. Výběrové sklizně • manuální práce kurátorů • “standardní” výběrová sklizeň -> konspekt • tématické sklizně -> aktuální událost • kolekce -> společné téma, obor, instituce…
  18. 18. Webový archivŽivý web
  19. 19. Legislativa • “povinný výtisk” - zatím neexistuje pro webové zdroje • Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat) • online přístup - na základě smluv s vydavateli nebo Creative Commons licence
  20. 20. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v NK ČR • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  21. 21. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  22. 22. Mrtvé weby
  23. 23. Badatelé • badatelé nevědí co chtějí • většinou chtějí přístup ke všemu • většinou nepotřebují přístup ke všemu badatelé nepotřebují velké datasety, ale flexibilní delivery service
  24. 24. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz www.webarchiv.cz facebook.com/webarchivcz

×