SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
Dove finisce il Web?
Le sfide tecnologiche e culturali
della conservazione del born digital
Chiara Storti
chiara.storti@beniculturali.it
BNCF
10 ottobre 2018
CC-BY-SA
Il digitale… id est?
Le digitalizzazioni
Sidereus Nuncius Ms. Gal. 48
Istoria dell'ultima guerra…
CF5668803
Google Project Books
Il digitale… id est?
Il born digital
Documenti nati digitali, che possono avere o
meno un corrispondente cartaceo
Il digitale… id est?
Informazione
digitale...
...di tipo testuale
I confini del Web
Quali documenti digitali devono essere
conservati?
...il punto di vista delle biblioteche
I confini del Web
Non si può conservare tutto!
...per conservare bene bisogna essere disposti a
“perdere” qualcosa
Una parte del desiderio di bassa risoluzione è figlio di questa
mediazione fra il nostro spirito archivistico e la contingenza
del reale: in altre parole non possediamo cantine
sufficientemente grandi.
M. Mantellini, “Bassa risoluzione”, Einaudi 2018
I confini del Web
Anche nell’ecosistema digitale si
presentano problemi di:
● spazio
● capacità di ordinamento
● possibilità di recupero delle
informazioni /dei documenti
Colossus
Regno Unito - 2ᵃ Guerra Mondiale
Pozzo librario
della BNCF
I confini del Web
Chi stabilisce i confini
(cosa conserviamo)?
● La normativa italiana in materia di deposito legale
L. 106/2004 - Norme relative al deposito legale dei documenti di interesse culturale destinati
all'uso pubblico
D.P.R. 252/2006 - Regolamento recante norme in materia di deposito legale dei documenti di
interesse culturale destinati all'uso pubblico
● Le politiche di conservazione delle biblioteche
● Le risorse (economiche, umane, strumentali)
● Le tecnologie?
I confini del Web
Chi stabilisce i confini
(cosa conserviamo)?
D.P.R. 03/05/2006, n. 252, art 37
Regolamento deposito legale
1. Le modalità di deposito dei documenti diffusi tramite rete informatica
sono definite con successivo regolamento*
2. Il Ministero promuove forme volontarie di sperimentazione del
deposito
* di prossima uscita
I confini del Web
Chi stabilisce i confini
(cosa conserviamo)?
D.P.R. 03/05/2006, n. 252, art 37
Regolamento deposito legale
Priorità raccomandate nella fase di sperimentazione (comma 3):
a) documenti che assicurino la continuità delle collezioni già avviate, anche su supporti e
mediante tecnologie tradizionali;
b) documenti concernenti la produzione scientifica delle università, dei centri di ricerca e
delle istituzioni culturali;
c) documenti [e siti] elaborati e messi in rete da soggetti pubblici
d) documenti relativi a siti che si aggiornano con più frequenza, ovvero contenuti in siti
che sono maggiormente citati da altri siti.
I confini del Web
Quando l’informazione digitale può essere
considerata un “documento”?
https://it.wikipedia.org/wiki/Documento
Chi stabilisce i confini
(cosa conserviamo)?
I confini del Web
Da documento a docuverso
https://it.wikipedia.org/wiki/Docuverso
Documenti caratterizzati dall’essere collegati ad
altri documenti (link), versioni diverse di un
stesso documento (versioning), documenti in
formati diversi (foto, video..)
Chi stabilisce i confini
(cosa conserviamo)?
I confini del Web
Cosa vuol dire conservare?
Nel mondo analogico
insieme delle
procedure che servono
a rallentare il naturale
decadimento fisico dei
materiali che
costituiscono un
documento
La conservazione è un processo
Nell’ecosistema digitale
insieme delle procedure
che servono a garantire
● Autenticità
● Integrità
● Accessibilità
● Intellegibilità
del documento
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
Gestione dello storage:
Hardware vs Cloud
Backup vs Replica
Ridondanza
Definire le procedure e scegliere le tecnologie più adeguate
per realizzarle
Gestione dei
contenuti:
Formati
Metadati di
contenuto
Metadati di
conservazione
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
Il modello OAIS - standard ISO 14721
(Open Archive Information System)
Definisce concetti, modelli e funzionalità inerenti gli archivi digitali e
la loro conservazione nel tempo
Non fa riferimento ad un’architettura specifica quindi sono possibili
diverse implementazione del modello concettuale
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
Il modello OAIS - standard ISO 14721
(Open Archive Information System)
Fonte: Manuale della
conservazione sostitutiva
delle immagini - Regione
Lombardia, ASST Monza
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
Il modello OAIS
Pacchetto informativo
oggetto digitale
+
metadati per la conservazione e l’accesso a lungo
termine
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
Il modello OAIS
Metadati per la conservazione
informazioni sul contenuto
(dati e loro rappresentazione)
+
informazioni sulla conservazione
(contesto, provenienza, autenticità/integrità, diritti di accesso)
I confini del Web
Cosa vuol dire conservare
nell’ecosistema digitale?
I metadati di conservazione e le relazioni tra di essi sono definiti dallo standard PREMIS
(PREservation Metadata Implementation Strategies) che individua, nell’ambito delle attività conservative
cinque entità:
● intellectual entity: un insieme coerente di contenuti che sia ragionevolmente descritto come un’unità (un
libro, una fotografia, un database, un documento normativo); può includere altre entità (ad esempio un
sito web può includere una pagina web, una pagina web può includere una fotografia…);
● object: unità informativa digitale;
● event: un atto che riguarda almeno un oggetto o un agente ed è inclusivo dei metadati che lo
identificano; la documentazione degli eventi che modificano un oggetto digitale è essenziale per
garantirne la provenienza, a sua volta elemento centrale per assicurare l’autenticità dell’oggetto. E’
compito di ciascun deposito stabilire quali eventi debbano essere documentati a fini conservativi. Ogni
evento produce un risultato che in alcuni casi può dar vita a un nuovo oggetto che potrebbe essere
identificato e descritto come un oggetto autonomo conservato nel deposito (ad esempio un nuovo file
XML normalizzato e validato del documento acquisito)
● right: dichiarazione di diritti relativi a un oggetto o a un agente (trattati in questo contesto
esclusivamente con riferimento alla conservazione e non all’accesso e alla distribuzione)
● agent: una persona fisica o giuridica o un’applicazione associata a eventi di conservazione dell’oggetto.
Magazzini Digitali
Magazzini Digitali è l’infrastruttura nazionale che offre il servizio
coordinato di conservazione e accesso a lungo termine per le
pubblicazioni digitali italiane acquisite attraverso il deposito legale
(L. 106/2004, DPR 252/2006).
Il prototipo di MD è stato implementato alla fine del 2006 con il
coinvolgimento delle Biblioteche Nazionali Centrali di Firenze e di
Roma (BNCF, BNCR) e della Fondazione Rinascimento Digitale
(FRD)
Magazzini Digitali
2010 - Lettera d’intenti tra BNCF/BNCR (soggetti depositari), Biblioteca
Marciana (per il “dark archive”) e FRD per la realizzazione
dell’infrastruttura per il servizio nazionale di deposito legale delle
pubblicazioni digitali, con particolare riguardo a:
● deposito delle tesi di dottorato in formato digitale
● istituzione del servizio National Bibliography Number (NBN) per le
pubblicazioni digitali
● sperimentazione ex art 37 (deposito volontario digitale nativo)
Magazzini Digitali
2016-2017: evoluzione di MD
● Nuova infrastruttura hardware e software
● Sviluppo di nuove procedure e strumenti per il deposito (es.
BookDeposit) e l’accesso ai documenti digitali (es. Browser remoto)
● Interfaccia “catalogo” di Magazzini Digitali (sapere sempre cosa c’è in
MD anche se non sempre - per questioni di copyright - è possibile
l’accesso)
Magazzini Digitali
Cosa conserviamo in Magazzini Digitali?
Tesi di dottorato harvesting da repository OAI-PMH
(formato WARC - Web Archive)
Ejournals harvesting da repository OAI-PMH (formato WARC)
Ebook commerciali depositati tramite app BookDeposit (formato BagIt)
Copie ad alta risoluzione delle digitalizzazioni trasferimento con rsync ssh (formato Jpeg2000
o TIFF con MAG o METS)
Documenti da Siti web harvesting con Archive-it (formato WARC)
+ Metadati
PREMIS
Magazzini Digitali
L’interfaccia web per i depositanti (editori)
Magazzini Digitali
L’interfaccia utente e il
catalogo di MD
Magazzini Digitali
Magazzini Digitali
2017-2018: Avvio del progetto “raccolta (harvesting) dei siti web delle
istituzioni culturali italiane” finanziato dalla L. 190/2014
2018 - Rinnovo della lettera d’intenti tra BNCF, BNCR e BNM
“considerati
● la necessità di aggiornare  la sopra richiamata lettera d’intenti in considerazione del mutato ruolo della Fondazione
Rinascimento Digitale e in vista della prossima emanazione del regolamento relativo alle modalità di deposito dei documenti
diffusi tramite rete informatica, previsto dall’art. 37, c. 1 del del D.P.R. 3 maggio 2006, n. 252
● l' esito positivo della sperimentazione prevista dall’art. 37, c. 2, del D.P.R. 3 maggio 2006, n. 252
● l’interesse manifestato dall’Agenzia per l’Italia Digitale (di seguito denominata AGID) nei confronti del Servizio, come risulta
dall’esito del tavolo tecnico informale del 12.02.2018
● il crescente rilievo assunto dalla conservazione ed accesso nel lungo periodo delle risorse digitali nell’ambito dei servizi
bibliografici nazionali;
● la conseguente opportunità di prevedere in prospettiva la possibilità di estendere tale servizio anche alle risorse che non siano
native digitali, ma siano frutto di successivi progetti di digitalizzazione”
Il destino del Web
Gli oggetti (siti, documenti, email…) pubblicati
e tramessi tramite Web dove vanno a finire?
Il destino del Web
● Un sito web ha una durata media di vita di 2 anni e 7 mesi
https://www.orbitmedia.com/blog/website-lifespan-and-you/
Tempo still alive delle condivisioni social
● Twitter: 2 giorni
● Facebook: 3 giorni
● Instagram: 5 giorni
https://www.hostingvirtuale.com/blog/quale-la-vita-media-di-un-contenuto-
sui-social-network-7186.html
Il destino del Web
Documenti pubblici
(anche se ad accesso limitato)
VS
Documenti privati
(email, chat, cartelle personali…)
Giovanni Ziccardi, Il libro digitale dei morti. Memoria, lutto, eternità e oblio nell’era
dei social network, UTET, 2017
Il destino del Web
Strumenti per il Web Archiving
● Per uso personale
(sia per documenti pubblici che privati)
● Per uso professionale/istituzionale
● Open Source
● Commerciali
Il destino del Web
https://archive.org/web/
Il destino del Web
Come conservare e rendere disponibili le vecchie versioni
dei siti
https://github.com/webrecorder/
Per effettuare la
raccolta/harvesting
Per visualizzare i WARC
sul browser
dell’IIPC (International Internet
Preservation Consortium)
https://github.com/iipc/openwayb
ack
Il destino del Web
http://www.icar.beniculturali.it/index.php?id=235
Magazzini Digitali e Web Archiving
La sperimentazione attuale:
● NON harvesting dei siti in senso stretto
● MA harvesting dei documenti pubblicati nei siti di interesse culturale
(senza perdita del contesto di provenienza)
○ raccolta più “profonda” e selettiva (il seed di partenza può anche
essere un sottodominio del dominio principale)
○ documenti che si configurano come la naturale prosecuzione delle
collezioni delle biblioteche
(pdf, doc/docx, epub, html)
Magazzini Digitali e Web Archiving
Archive-it
https://archive-it.org/
Piattaforma in cloud di Internet Archive
offerta a pagamento:
● raccolta (harvesting)
● possibilità di arricchimento con metadati (manuale ...)
● accesso anche in modalità full-text
● organizzazione delle raccolta in collezioni (anche private)
● disponibilità del formato WARC
(successivamente ingestato in MD)
Magazzini Digitali e Web Archiving
Magazzini Digitali e Web Archiving
Aspetti giuridici - amministrativi
In attesa del regolamento tecnico attuativo della L. 252/2006:
● non c’è obbligo di deposito dei documenti diffusi tramite rete
informatica
● occorre chiedere il permesso per la raccolta e il ri-utilizzo dei dati
Magazzini Digitali e Web Archiving
Magazzini Digitali e Web Archiving
Aspetti biblioteconomici
Inserimento di metadati in formato Dublin Core (con l’aggiunta di qualche
campo per l’uso locale)
● a livello di seed: minimali (servono soprattutto a ricostruire il contesto
di provenienza dei documenti)
● a livello di singolo documento: minimali ma con riferimento alla
compatibilità con SBN es. definizione della “natura bibliografica”:
monografia, fascicolo o spoglio
Magazzini Digitali e Web Archiving
Magazzini Digitali e Web Archiving
Prospettive future
Nel corso del progetto (tre anni) contiamo di :
● integrare le risorse digitali nel catalogo della BNCF e in quello
Nazionale
● prendere in conto anche l’accesso per soggetto ai documenti:
(occorre realisticamente mettere in primo piano considerazioni di
sostenibilità ...vista la disponibilità del full-text è oggi possibile
pensare all’aiuto di applicazioni basate sul machine learning)
Magazzini Digitali e Web Archiving
“Alcuni problemi rimangono aperti e saranno oggetto di approfondimenti e studi ulteriori. In
particolare:
● La selezione dei contenuti da sottoporre ad harvesting
● Studio ed implementazione dei metadati di accesso e ricerca
● Il controllo qualità'
○ analisi completa dei link harvestati
○ la correzione dei broken link segnalati dall'errore "404 page not found”
○ la gestione dei link esterni al dominio originale
● L’implementazione delle soluzioni di harvesting
● La complessità di una eventuale indicizzazione”
Costantino Landino, Conservazione dei database e Web Archiving
Archivio Centrale dello Stato 11 Aprile 2017
Magazzini Digitali e Web Archiving
La conservazione del digitale in Italia: problemi aperti
● Necessità di una legislazione “più agile”(più veloce a rispondere
ai mutamenti nei modi di produrre e trasmettere le informazioni
ecc..)
● La gestione di una struttura condivisa tra enti diversi (istituzioni
depositarie del deposito legale)
● La mancanza di fondi strutturali
Magazzini Digitali e Web Archiving
La digital preservation dovrebbe rientrare a pieno titolo
tra le attività previste per la conservazione e la
valorizzazione del nostro patrimonio culturale, nonché
tra le attività a sostegno dei programmi di cittadinanza
attiva e information literacy
Dove finisce il Web?
Grazie!
...domande?

Contenu connexe

Tendances

La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitalenq,e nnnn
 
Sistema Archivistico Nazionale - Architettura e funzionalità
Sistema Archivistico Nazionale - Architettura e funzionalitàSistema Archivistico Nazionale - Architettura e funzionalità
Sistema Archivistico Nazionale - Architettura e funzionalitàCostantino Landino
 
La Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaLa Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaDARIAH-IT
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitalenomenick
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitalenomenick
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbiolibriedocumenti
 
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...libriedocumenti
 
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea Lisi
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea LisiSignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea Lisi
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea LisiDigital Law Communication
 
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico Pelino
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico PelinoSignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico Pelino
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico PelinoDigital Law Communication
 
Conservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEConservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEMaurizio Messina
 
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...Mario Varini
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...libriedocumenti
 
Conservazione digitale
Conservazione digitaleConservazione digitale
Conservazione digitalesilviaddea
 

Tendances (15)

La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
Sistema Archivistico Nazionale - Architettura e funzionalità
Sistema Archivistico Nazionale - Architettura e funzionalitàSistema Archivistico Nazionale - Architettura e funzionalità
Sistema Archivistico Nazionale - Architettura e funzionalità
 
La Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaLa Biblioteca Digitale come metafora
La Biblioteca Digitale come metafora
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitale
 
Modelli di archiviazione digitale
Modelli di archiviazione digitaleModelli di archiviazione digitale
Modelli di archiviazione digitale
 
3. La biblioteca digitale
3. La biblioteca digitale3. La biblioteca digitale
3. La biblioteca digitale
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbio
 
metadatacopyright
metadatacopyrightmetadatacopyright
metadatacopyright
 
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
 
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea Lisi
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea LisiSignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea Lisi
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Andrea Lisi
 
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico Pelino
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico PelinoSignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico Pelino
SignEAT - Evento AIFAG del 15 giugno 2017 - Intervento Enrico Pelino
 
Conservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPEConservazione digitale: Workshop organizzato dal Progetto DPE
Conservazione digitale: Workshop organizzato dal Progetto DPE
 
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...
Smau Milano 2011: La dematerializzazione dei documenti a scuola. Procedure, s...
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
 
Conservazione digitale
Conservazione digitaleConservazione digitale
Conservazione digitale
 

Similaire à Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione del born digital

La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca DigitaleCoimbra group2
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaAndrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaOpenPompei
 
Pensa-Empowering Italian GLAMs.pdf
Pensa-Empowering Italian GLAMs.pdfPensa-Empowering Italian GLAMs.pdf
Pensa-Empowering Italian GLAMs.pdfIolanda Pensa
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitaliMau-Messenger
 
ArCo Project - Meetup Ottobre 2018
ArCo Project - Meetup Ottobre 2018ArCo Project - Meetup Ottobre 2018
ArCo Project - Meetup Ottobre 2018ArcoProject
 
Introduzione alla biblioteca digitale
Introduzione alla biblioteca digitaleIntroduzione alla biblioteca digitale
Introduzione alla biblioteca digitaleaccessoinformazione
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008Maurizio Messina
 
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...Maurizio Messina
 
Standard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiStandard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiCulturaItalia
 
Mèmora. La piattaforma per gli operatori - Dimitri Brunetti
Mèmora. La piattaforma per gli operatori - Dimitri BrunettiMèmora. La piattaforma per gli operatori - Dimitri Brunetti
Mèmora. La piattaforma per gli operatori - Dimitri BrunettiCSI Piemonte
 
Incontro formativo per i musei della Provincia di Roma
Incontro formativo per i musei della Provincia di RomaIncontro formativo per i musei della Provincia di Roma
Incontro formativo per i musei della Provincia di RomaCulturaItalia
 
La formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoLa formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoSergio Primo Del Bello
 
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011Walter Volpi
 
La descrizione degli archivi. xDams open source
La descrizione degli archivi.   xDams open source La descrizione degli archivi.   xDams open source
La descrizione degli archivi. xDams open source Giovanni Bruno
 
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014Klaus Kempf #1 @ BookAlive Workshop 11.11.2014
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014Informamuse srl
 
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilità
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilitàLa Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilità
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilitàMarco Fioretti
 

Similaire à Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione del born digital (20)

La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaAndrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
 
Amministrazione Digitale in CONSOB
Amministrazione Digitale in CONSOBAmministrazione Digitale in CONSOB
Amministrazione Digitale in CONSOB
 
Pensa-Empowering Italian GLAMs.pdf
Pensa-Empowering Italian GLAMs.pdfPensa-Empowering Italian GLAMs.pdf
Pensa-Empowering Italian GLAMs.pdf
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali
 
ArCo Project - Meetup Ottobre 2018
ArCo Project - Meetup Ottobre 2018ArCo Project - Meetup Ottobre 2018
ArCo Project - Meetup Ottobre 2018
 
Introduzione alla biblioteca digitale
Introduzione alla biblioteca digitaleIntroduzione alla biblioteca digitale
Introduzione alla biblioteca digitale
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
 
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
I progetti di conservazione digitale: una proposta per l'Italia / Maria Guerc...
 
Standard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenutiStandard e procedure per l’interoperabilità dei contenuti
Standard e procedure per l’interoperabilità dei contenuti
 
Mèmora. La piattaforma per gli operatori - Dimitri Brunetti
Mèmora. La piattaforma per gli operatori - Dimitri BrunettiMèmora. La piattaforma per gli operatori - Dimitri Brunetti
Mèmora. La piattaforma per gli operatori - Dimitri Brunetti
 
Incontro formativo per i musei della Provincia di Roma
Incontro formativo per i musei della Provincia di RomaIncontro formativo per i musei della Provincia di Roma
Incontro formativo per i musei della Provincia di Roma
 
Mibac
MibacMibac
Mibac
 
La formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. PigliapocoLa formazione dell'archivista - S. Pigliapoco
La formazione dell'archivista - S. Pigliapoco
 
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011
Master Informatica del Testo - Università degli Studi di Siena - Arezzo 2011
 
La descrizione degli archivi. xDams open source
La descrizione degli archivi.   xDams open source La descrizione degli archivi.   xDams open source
La descrizione degli archivi. xDams open source
 
ICT E BENI CULTURALI_Vol. 2 by Antonio Caperna
ICT E BENI CULTURALI_Vol. 2 by Antonio CapernaICT E BENI CULTURALI_Vol. 2 by Antonio Caperna
ICT E BENI CULTURALI_Vol. 2 by Antonio Caperna
 
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014Klaus Kempf #1 @ BookAlive Workshop 11.11.2014
Klaus Kempf #1 @ BookAlive Workshop 11.11.2014
 
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilità
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilitàLa Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilità
La Chiesa nell'era dei formati digitali: nuove possibilità, nuove responsabilità
 

Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione del born digital

  • 1. Dove finisce il Web? Le sfide tecnologiche e culturali della conservazione del born digital Chiara Storti chiara.storti@beniculturali.it BNCF 10 ottobre 2018 CC-BY-SA
  • 2. Il digitale… id est? Le digitalizzazioni Sidereus Nuncius Ms. Gal. 48 Istoria dell'ultima guerra… CF5668803 Google Project Books
  • 3. Il digitale… id est? Il born digital Documenti nati digitali, che possono avere o meno un corrispondente cartaceo
  • 4. Il digitale… id est? Informazione digitale... ...di tipo testuale
  • 5. I confini del Web Quali documenti digitali devono essere conservati? ...il punto di vista delle biblioteche
  • 6. I confini del Web Non si può conservare tutto! ...per conservare bene bisogna essere disposti a “perdere” qualcosa Una parte del desiderio di bassa risoluzione è figlio di questa mediazione fra il nostro spirito archivistico e la contingenza del reale: in altre parole non possediamo cantine sufficientemente grandi. M. Mantellini, “Bassa risoluzione”, Einaudi 2018
  • 7. I confini del Web Anche nell’ecosistema digitale si presentano problemi di: ● spazio ● capacità di ordinamento ● possibilità di recupero delle informazioni /dei documenti Colossus Regno Unito - 2ᵃ Guerra Mondiale Pozzo librario della BNCF
  • 8. I confini del Web Chi stabilisce i confini (cosa conserviamo)? ● La normativa italiana in materia di deposito legale L. 106/2004 - Norme relative al deposito legale dei documenti di interesse culturale destinati all'uso pubblico D.P.R. 252/2006 - Regolamento recante norme in materia di deposito legale dei documenti di interesse culturale destinati all'uso pubblico ● Le politiche di conservazione delle biblioteche ● Le risorse (economiche, umane, strumentali) ● Le tecnologie?
  • 9. I confini del Web Chi stabilisce i confini (cosa conserviamo)? D.P.R. 03/05/2006, n. 252, art 37 Regolamento deposito legale 1. Le modalità di deposito dei documenti diffusi tramite rete informatica sono definite con successivo regolamento* 2. Il Ministero promuove forme volontarie di sperimentazione del deposito * di prossima uscita
  • 10. I confini del Web Chi stabilisce i confini (cosa conserviamo)? D.P.R. 03/05/2006, n. 252, art 37 Regolamento deposito legale Priorità raccomandate nella fase di sperimentazione (comma 3): a) documenti che assicurino la continuità delle collezioni già avviate, anche su supporti e mediante tecnologie tradizionali; b) documenti concernenti la produzione scientifica delle università, dei centri di ricerca e delle istituzioni culturali; c) documenti [e siti] elaborati e messi in rete da soggetti pubblici d) documenti relativi a siti che si aggiornano con più frequenza, ovvero contenuti in siti che sono maggiormente citati da altri siti.
  • 11. I confini del Web Quando l’informazione digitale può essere considerata un “documento”? https://it.wikipedia.org/wiki/Documento Chi stabilisce i confini (cosa conserviamo)?
  • 12. I confini del Web Da documento a docuverso https://it.wikipedia.org/wiki/Docuverso Documenti caratterizzati dall’essere collegati ad altri documenti (link), versioni diverse di un stesso documento (versioning), documenti in formati diversi (foto, video..) Chi stabilisce i confini (cosa conserviamo)?
  • 13. I confini del Web Cosa vuol dire conservare? Nel mondo analogico insieme delle procedure che servono a rallentare il naturale decadimento fisico dei materiali che costituiscono un documento La conservazione è un processo Nell’ecosistema digitale insieme delle procedure che servono a garantire ● Autenticità ● Integrità ● Accessibilità ● Intellegibilità del documento
  • 14. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? Gestione dello storage: Hardware vs Cloud Backup vs Replica Ridondanza Definire le procedure e scegliere le tecnologie più adeguate per realizzarle Gestione dei contenuti: Formati Metadati di contenuto Metadati di conservazione
  • 15. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? Il modello OAIS - standard ISO 14721 (Open Archive Information System) Definisce concetti, modelli e funzionalità inerenti gli archivi digitali e la loro conservazione nel tempo Non fa riferimento ad un’architettura specifica quindi sono possibili diverse implementazione del modello concettuale
  • 16. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? Il modello OAIS - standard ISO 14721 (Open Archive Information System) Fonte: Manuale della conservazione sostitutiva delle immagini - Regione Lombardia, ASST Monza
  • 17. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? Il modello OAIS Pacchetto informativo oggetto digitale + metadati per la conservazione e l’accesso a lungo termine
  • 18. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? Il modello OAIS Metadati per la conservazione informazioni sul contenuto (dati e loro rappresentazione) + informazioni sulla conservazione (contesto, provenienza, autenticità/integrità, diritti di accesso)
  • 19. I confini del Web Cosa vuol dire conservare nell’ecosistema digitale? I metadati di conservazione e le relazioni tra di essi sono definiti dallo standard PREMIS (PREservation Metadata Implementation Strategies) che individua, nell’ambito delle attività conservative cinque entità: ● intellectual entity: un insieme coerente di contenuti che sia ragionevolmente descritto come un’unità (un libro, una fotografia, un database, un documento normativo); può includere altre entità (ad esempio un sito web può includere una pagina web, una pagina web può includere una fotografia…); ● object: unità informativa digitale; ● event: un atto che riguarda almeno un oggetto o un agente ed è inclusivo dei metadati che lo identificano; la documentazione degli eventi che modificano un oggetto digitale è essenziale per garantirne la provenienza, a sua volta elemento centrale per assicurare l’autenticità dell’oggetto. E’ compito di ciascun deposito stabilire quali eventi debbano essere documentati a fini conservativi. Ogni evento produce un risultato che in alcuni casi può dar vita a un nuovo oggetto che potrebbe essere identificato e descritto come un oggetto autonomo conservato nel deposito (ad esempio un nuovo file XML normalizzato e validato del documento acquisito) ● right: dichiarazione di diritti relativi a un oggetto o a un agente (trattati in questo contesto esclusivamente con riferimento alla conservazione e non all’accesso e alla distribuzione) ● agent: una persona fisica o giuridica o un’applicazione associata a eventi di conservazione dell’oggetto.
  • 20. Magazzini Digitali Magazzini Digitali è l’infrastruttura nazionale che offre il servizio coordinato di conservazione e accesso a lungo termine per le pubblicazioni digitali italiane acquisite attraverso il deposito legale (L. 106/2004, DPR 252/2006). Il prototipo di MD è stato implementato alla fine del 2006 con il coinvolgimento delle Biblioteche Nazionali Centrali di Firenze e di Roma (BNCF, BNCR) e della Fondazione Rinascimento Digitale (FRD)
  • 21. Magazzini Digitali 2010 - Lettera d’intenti tra BNCF/BNCR (soggetti depositari), Biblioteca Marciana (per il “dark archive”) e FRD per la realizzazione dell’infrastruttura per il servizio nazionale di deposito legale delle pubblicazioni digitali, con particolare riguardo a: ● deposito delle tesi di dottorato in formato digitale ● istituzione del servizio National Bibliography Number (NBN) per le pubblicazioni digitali ● sperimentazione ex art 37 (deposito volontario digitale nativo)
  • 22. Magazzini Digitali 2016-2017: evoluzione di MD ● Nuova infrastruttura hardware e software ● Sviluppo di nuove procedure e strumenti per il deposito (es. BookDeposit) e l’accesso ai documenti digitali (es. Browser remoto) ● Interfaccia “catalogo” di Magazzini Digitali (sapere sempre cosa c’è in MD anche se non sempre - per questioni di copyright - è possibile l’accesso)
  • 23. Magazzini Digitali Cosa conserviamo in Magazzini Digitali? Tesi di dottorato harvesting da repository OAI-PMH (formato WARC - Web Archive) Ejournals harvesting da repository OAI-PMH (formato WARC) Ebook commerciali depositati tramite app BookDeposit (formato BagIt) Copie ad alta risoluzione delle digitalizzazioni trasferimento con rsync ssh (formato Jpeg2000 o TIFF con MAG o METS) Documenti da Siti web harvesting con Archive-it (formato WARC) + Metadati PREMIS
  • 24. Magazzini Digitali L’interfaccia web per i depositanti (editori)
  • 27. Magazzini Digitali 2017-2018: Avvio del progetto “raccolta (harvesting) dei siti web delle istituzioni culturali italiane” finanziato dalla L. 190/2014 2018 - Rinnovo della lettera d’intenti tra BNCF, BNCR e BNM “considerati ● la necessità di aggiornare  la sopra richiamata lettera d’intenti in considerazione del mutato ruolo della Fondazione Rinascimento Digitale e in vista della prossima emanazione del regolamento relativo alle modalità di deposito dei documenti diffusi tramite rete informatica, previsto dall’art. 37, c. 1 del del D.P.R. 3 maggio 2006, n. 252 ● l' esito positivo della sperimentazione prevista dall’art. 37, c. 2, del D.P.R. 3 maggio 2006, n. 252 ● l’interesse manifestato dall’Agenzia per l’Italia Digitale (di seguito denominata AGID) nei confronti del Servizio, come risulta dall’esito del tavolo tecnico informale del 12.02.2018 ● il crescente rilievo assunto dalla conservazione ed accesso nel lungo periodo delle risorse digitali nell’ambito dei servizi bibliografici nazionali; ● la conseguente opportunità di prevedere in prospettiva la possibilità di estendere tale servizio anche alle risorse che non siano native digitali, ma siano frutto di successivi progetti di digitalizzazione”
  • 28. Il destino del Web Gli oggetti (siti, documenti, email…) pubblicati e tramessi tramite Web dove vanno a finire?
  • 29. Il destino del Web ● Un sito web ha una durata media di vita di 2 anni e 7 mesi https://www.orbitmedia.com/blog/website-lifespan-and-you/ Tempo still alive delle condivisioni social ● Twitter: 2 giorni ● Facebook: 3 giorni ● Instagram: 5 giorni https://www.hostingvirtuale.com/blog/quale-la-vita-media-di-un-contenuto- sui-social-network-7186.html
  • 30. Il destino del Web Documenti pubblici (anche se ad accesso limitato) VS Documenti privati (email, chat, cartelle personali…) Giovanni Ziccardi, Il libro digitale dei morti. Memoria, lutto, eternità e oblio nell’era dei social network, UTET, 2017
  • 31. Il destino del Web Strumenti per il Web Archiving ● Per uso personale (sia per documenti pubblici che privati) ● Per uso professionale/istituzionale ● Open Source ● Commerciali
  • 32. Il destino del Web https://archive.org/web/
  • 33. Il destino del Web Come conservare e rendere disponibili le vecchie versioni dei siti https://github.com/webrecorder/ Per effettuare la raccolta/harvesting Per visualizzare i WARC sul browser dell’IIPC (International Internet Preservation Consortium) https://github.com/iipc/openwayb ack
  • 34. Il destino del Web http://www.icar.beniculturali.it/index.php?id=235
  • 35. Magazzini Digitali e Web Archiving La sperimentazione attuale: ● NON harvesting dei siti in senso stretto ● MA harvesting dei documenti pubblicati nei siti di interesse culturale (senza perdita del contesto di provenienza) ○ raccolta più “profonda” e selettiva (il seed di partenza può anche essere un sottodominio del dominio principale) ○ documenti che si configurano come la naturale prosecuzione delle collezioni delle biblioteche (pdf, doc/docx, epub, html)
  • 36. Magazzini Digitali e Web Archiving Archive-it https://archive-it.org/ Piattaforma in cloud di Internet Archive offerta a pagamento: ● raccolta (harvesting) ● possibilità di arricchimento con metadati (manuale ...) ● accesso anche in modalità full-text ● organizzazione delle raccolta in collezioni (anche private) ● disponibilità del formato WARC (successivamente ingestato in MD)
  • 37. Magazzini Digitali e Web Archiving
  • 38. Magazzini Digitali e Web Archiving Aspetti giuridici - amministrativi In attesa del regolamento tecnico attuativo della L. 252/2006: ● non c’è obbligo di deposito dei documenti diffusi tramite rete informatica ● occorre chiedere il permesso per la raccolta e il ri-utilizzo dei dati
  • 39. Magazzini Digitali e Web Archiving
  • 40. Magazzini Digitali e Web Archiving Aspetti biblioteconomici Inserimento di metadati in formato Dublin Core (con l’aggiunta di qualche campo per l’uso locale) ● a livello di seed: minimali (servono soprattutto a ricostruire il contesto di provenienza dei documenti) ● a livello di singolo documento: minimali ma con riferimento alla compatibilità con SBN es. definizione della “natura bibliografica”: monografia, fascicolo o spoglio
  • 41. Magazzini Digitali e Web Archiving
  • 42. Magazzini Digitali e Web Archiving Prospettive future Nel corso del progetto (tre anni) contiamo di : ● integrare le risorse digitali nel catalogo della BNCF e in quello Nazionale ● prendere in conto anche l’accesso per soggetto ai documenti: (occorre realisticamente mettere in primo piano considerazioni di sostenibilità ...vista la disponibilità del full-text è oggi possibile pensare all’aiuto di applicazioni basate sul machine learning)
  • 43. Magazzini Digitali e Web Archiving “Alcuni problemi rimangono aperti e saranno oggetto di approfondimenti e studi ulteriori. In particolare: ● La selezione dei contenuti da sottoporre ad harvesting ● Studio ed implementazione dei metadati di accesso e ricerca ● Il controllo qualità' ○ analisi completa dei link harvestati ○ la correzione dei broken link segnalati dall'errore "404 page not found” ○ la gestione dei link esterni al dominio originale ● L’implementazione delle soluzioni di harvesting ● La complessità di una eventuale indicizzazione” Costantino Landino, Conservazione dei database e Web Archiving Archivio Centrale dello Stato 11 Aprile 2017
  • 44. Magazzini Digitali e Web Archiving La conservazione del digitale in Italia: problemi aperti ● Necessità di una legislazione “più agile”(più veloce a rispondere ai mutamenti nei modi di produrre e trasmettere le informazioni ecc..) ● La gestione di una struttura condivisa tra enti diversi (istituzioni depositarie del deposito legale) ● La mancanza di fondi strutturali
  • 45. Magazzini Digitali e Web Archiving La digital preservation dovrebbe rientrare a pieno titolo tra le attività previste per la conservazione e la valorizzazione del nostro patrimonio culturale, nonché tra le attività a sostegno dei programmi di cittadinanza attiva e information literacy
  • 46. Dove finisce il Web? Grazie! ...domande?