2. Archivematica – výhody
❏ Nízkonákladové řešení
❏ Open source
❏ Spolupráce s Artefactual Systems
❏ Budována na základě OAIS
❏ Variabilita nasazení
❏ Modularita
❏ Neustálý vývoj
❏ Komunita
Řada projektů v paměťových
institucích severní Ameriky a
západní Evropy.
3. City of Vancouver Archives
❏ 1. uživatelé Archivematiky (AM)
❏ Městský archiv – příjem dat od úřadů a soukromých
institucích; data z olympijských a paralympijských
her ve Vancouveru 2010 (různé formáty, cca 20 TB).
❏ AM - nástroj pro ingest, mikroslužby provádějí:
❏ testy na malware
❏ kontrola integrity
❏ extrakce metadat
❏ identifikace, charakterizace a normalizace
formátů
4. City of Vancouver Archives
❏ AIP a DIP postoupeny dále:
AIP -> archivní úložiště
DIP -> AtoM
❏ Formátová politika – normalizace dat
do formátů vhodných pro dlouhodobou ochranu.
❏ Data v exotických formátech nebo formátech,
nemající vhodnou alternativu jsou ukládány
v původních formátech a LTP probíhá
dle možností.
5. Simon Fraser University Archives
❏ 2011 – pilotní projekt na otestování AM
❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských
balíků, obrázky a audio
❏ Doporučení k dalšímu rozvoji Archivematicy – oblast
GUI, workflow, dávkového zpracování, zpracování
chyb, správy a systémové administrace
6. Simon Fraser University Archives
❏ Uchovávání elektronické pošty z e-mailového
klienta Zimbra (cca 10 000 e-mailů)
❏ konverze formátu Zimbra do Maildir:
❏ Zimbra - proprietární X Maildir - jednotlivé zprávy
❏ otagování pomocí Muse – (ne)zpřístupňování zpráv
❏ Repozitář závěrečných prací
❏ AM je zodpovědná pouze za vytváření archivních
balíčků (uložení řešeno pomocí LOCKSS)
7. Simon Fraser University Archives
❏ Repozitář vědeckých dat – Islandora; LTP řeší AM
+ další systémy
❏ Více instalací AM i AtoMu (pipelines) – import
různých typů dat (AM) a pro různé uživatele (AtoM)
❏ vlastní dotazovací nástroj AIP Query Tool:
statistiky balíčků AIP (druhy a počty formátů nebo
velikost a počty uložených objektů).
❏ analýza potřeb dalšího rozvoje Archivematicy a
AtoMu
8. Simon Fraser University Archives
https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
9. University of British Columbia Library
Spolupráce s Artefactual Systems:
❏ Pilotní projekty, testování AM
❏ Projekt archivování webu a napojení na DSpace
❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP
AIP -> LOCKSS, lokální úložiště
DIP -> AtoM
10. University of British Columbia Library
Institucionální repozitář (cIRcle):
❏ DSpace - propojený s Archivematicou
❏ Export z DSpace -> import do AM
❏ několik instalací AM (pipelines) - různé druhy dat
❏ Co největší integrace pipelines (propojení s
webovými stránkami univerzity) - rychlost,
jednoduchost, efektivita workflow
12. Columbia University
2011– 2013 zpracování Archives of the Ford
Foundation - International Fellowships Program
❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000
souborů;
❏ 245 různých formátů souborů (kancelářské dokumenty,
audio a video, databáze, e-maily, web, průzkumy,
rozhovory, statistické zprávy, datasety, …)
❏ dlouhé názvy souborů a souborových cest (více než 260
znaků)
❏ 10 jazyků a 7 nerománských znakových sad (včetně
arabštiny a indštiny)
❏ nedostatek popisných metadat
13. Columbia University
❏ omezený přístup k některým datům:
veřejně dostupná data
interně dostupná data
data s omezením přístupu až do roku 2075
❏ Převod formátů na vhodné pro LTP, extrakce dat ze
zip a rar
❏ AM pro příjem SIP (přiřazení UUID, virová kontrola,
normalizace názvů souborů, formátová identifikace,
extrakce metadat a generování souborů METS
❏ AIP -> uloženo, DIP -> Fedora
14. Council of Prairie and Pacific
University Libraries – COPPUL
❏ Společné projekty, vyjednávání s dodavateli
softwaru, elektronických databází, …
❏ Zkušenosti se sdílenou archivací dokumentů -
projekt SPAN (Shared Print Archive Network),
distribuce papírových výtisků odborných periodik
❏ Lokální sítě LOCKSS (archivace závěrečných prací,
článků, digitalizované i digital-born dokumenty, …)
❏ Zapojení v původní (globální) LOCKSS síti a projektu
Portico,
Archive-It pro archivaci webu
15. Council of Prairie and Pacific
University Libraries – COPPUL
❏ 2013 - spolupráce COPPUL a Artefactual Systems.
❏ AM jako služba (Digital Preservation as a Service)
❏ COPPUL - propagace, vstup nových členů a
financování vstupních nákladů.
❏ Artefactual Systems - správa účtů a serverů,
instalace, školení a technická podpora
uživatelů.
❏ Univerzita Britské Kolumbie (EduCloud) -
servery a úložný prostor
16. Council of Prairie and Pacific
University Libraries – COPPUL
❏ Tři úrovně služby:
❏ bronzová: identifikace a validace, pravidelné
kontroly checksums, 400 GB; 5500 $/rok
❏ stříbrná: + normalizace vstupních dat, uložení
balíčků AIP v zabezpečeném úložišti,
generování PREMIS a METS , 1 TB; 7500 $/rok
❏ zlatá: + generování DIP balíčků a upload do
AtoMu, 2 TB; 12500 $/rok
17. Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Regionální superpočítačové centrum - 5 PB dat na
discích a 100 PB na páskách.
❏ Budování a testování LTP systému, řada open
source nástrojů:
❏ Archivematica, iRODS a Islandora
❏ AM slouží pro příjem dat – identifikace,
charakterizace a normalizace formátů
❏ DIP -> Fedora/Islandora
❏ AIP -> archivní úložiště (iRODS)
18. Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Administrace dat - propojení Islandory a iRods, AIP
na páskách, DIP uložené online.
❏ Různé druhy daty od partnerských institucí -> mírná
úprava AM, schopnost doplňovat potřebná
metadata do METS v AIP.
❏ ZIB sponzoruje naprogramování re-ingestu balíčku
AIP - úprava/změna metadat, zachování UUID a
existující PREMIS (AM ver. 1.5)
20. ArchivesDirect
❏ Artefactual Systems + DuraSpace -> DPaaS
❏ říjen 2014 - únor 2015 pilotní projekt AM v
cloudu, vybrané univerzity v USA
❏ veřejně - březen 2015, jako ArchivesDirect
21. ArchivesDirect
❏ DuraCloud - správa dat a jejich kopií v cloudu
❏ AM - příjem dat, obohacování o metadata a
normalizace
❏ Nepokrývá správu dat na úložišti, neřídí počet ani
umístění kopií, nekontroluje integritu
❏ DuraCloud + AM = pokus o eliminaci slabých
stránek
❏ 9 999 $/rok – 1 instalace AM, školení a trénink,
1TB
❏ Amazon S3 a Amazon Glacier