Sapienza Università di Roma
Anno Accademico 2012 – 2013
Informatica per gli Archivi e le Biblioteche
Prof.ssa Linda Giuva
Prof. Maurizio Caminito
Lezione 3
1. La biblioteca digitale:
aspetti organizzativi, servizi
e gestione degli oggetti digitali
Sapienza Università di Roma
Anno Accademico 2012 – 2013
Informatica per gli Archivi e le Biblioteche
Prof.ssa Linda Giuva
Prof. Maurizio Caminito
Lezione 3 1
2. LA BIBLIOTECA DIGITALE E IL WEB
IPERTESTO
Insieme di documenti messi in
relazione tra loro per mezzo di parole
chiave.
Può essere visto come una rete:
i documenti ne costituiscono i nodi.
IPERTESTO = CAPACITA’ CONNETTIVA
IPERTESTO = FACILITA’ DI ACCESSO AI
DOCUMENTI DIGITALI
2
3. COME FUNZIONA IL WEB
CLIENT
(utente)
SERVER
(recupero documenti digitali da
vari repositories)
WEB
(sistema di intermediazione)
3
4. IL REPOSITORY
Non un semplice archivio di dati
Server che contengono
dati e software
Repository = archivi software
Un repository è un "deposito" online di
software dal quale attingere, ad es., dei
programmi per un'installazione
semplificata.
4
5. RAPPORTO TRA LA BD E IL WEB
Web = tecnologia per la trasmissione
dei dati
Web = tecnologia «editoriale». Modo
di organizzare e pubblicare i dati
all’interno della Biblioteca Digitale.
(SISTEMA DI REFERENCE
IPERTESTUALE)
Web = formattazione dei dati
(.pdf, .html, .doc)
5
6. GLI STANDARD DEL WEB
HTML
(Hyper-Text Markup Language)
URL
(Uniform Resource Locator)
HTTP
(Hyper-Text Transfer Protocol)
6
7. HTML
HTML è l'acronimo di
Hyper Text Markup Language
("Linguaggio di contrassegno per gli Ipertesti")
con cui sono scritte le pagine web.
Attraverso dei marcatori, detti "tag", indica
come disporre gli elementi all'interno di una
pagina web:
•che sfondo applicare alla pagina
•che carattere e grandezza usare per il testo
•dove disporre le immagini
•dove inserire tabelle e liste
•porre dei collegamenti ad altre parti
all'interno della pagina o del sito stesso o a
7
risorse esterne
8. XHTML
Necessità di soluzioni grafiche
sempre più sofisticate?
Solo la struttura delle pagine è
definita tramite TAG.
Le specifiche grafiche sono
realizzate tramite i CSS
(o FOGLI DI STILE)
8
9. Dall’HTML all’XML
XML (eXtensible Markup Language)
nasce dall’intento di applicare il
paradigma dei tag in campi diversi
dalla presentazione di ipertesti
•Si basa sul markup in modo simile
ad HTML
•XML è pensato per descrivere dati
•I tag XML non sono predefiniti
•XML non è un linguaggio, ma un
insieme di regole per costruire
linguaggi (metalinguaggio)
9
10. URL
L'Url, acronimo di
Uniform Resource Locator,
è una sequenza di caratteri
che identifica l'indirizzo
di una risorsa su Internet
(collocazione del documento
all’interno del server)
SI: http://www.google.it
NO: «404 Object Not Found»
10
12. HTTP
L'Hyper Text Transfer Protocol
(HTTP) e' un protocollo di
comunicazione utilizzato per il
trasferimento delle pagine web
in internet.
Esso viene utilizzato durante la
navigazione in rete attraverso i
piu' comuni browser (Internet
Explorer, Firefox, Safari e simili)
12
13. Protocollo Z39.50
Z39.50 = Protocollo specifico per
l’INFORMATION RETRIEVAL
(recupero informazioni tra server
in rete):
•L’informazione bibliografica
viene strutturata in un formato
standard (UNIMARC)
•Sessione di lavoro
13
14. Riferimenti bibliografici
- Alberto Salarelli, Anna Maria Tammaro,
La biblioteca digitale, Nuova ed., Milano,
Bibliografica, 2006
(pp. 95-117; 175-208; 215-237).
NON FREQUENTANTI
(pp. 257-276, 277-295)
14
15. Archivi digitali /Biblioteche digitali
ARCHIVIO
Tradizionalmente è stato definito come:
• Contenente fonti di informazioni primarie (generalmente
lettere e articoli direttamente prodotti da un individuo o
una organizzazione) piuttosto che fonti secondarie
reperibili in una libreria (libri, ecc...)
• Con un contenuto organizzato in gruppi piuttosto che
costituito da elementi individuali;
• Con contenuti originali.
15
16. Archivi digitali /Biblioteche digitali
ARCHIVIO DIGITALE
• Base di dati di documenti legati da relazioni
(VINCOLO ARCHIVISTICO), generalmente
organizzata in una struttura gerarchica.
Un archivio fa riferimento ad una collezione di
registrazioni storiche, e fa anche riferimento al
luogo in cui queste registrazioni sono conservate.
16
17. ARCHIVIO DIGITALE
«Rappresentazione memorizzata su un
supporto e conservata da una persona fisica
o giuridica nell’esercizio delle sue funzioni
(prodotta o diversamente acquisita nel corso
di un’attività pratica da un soggetto
produttore) di un atto/fatto rilevante per lo
svolgimento di tale attività»
M. Guercio, Archivistica informatica. I documenti in ambiente digitale,
Roma 2002, pp. 21 - 22
17
18. Cos’è la BIBLIOTECA DIGITALE
“una collezione di documenti digitali strutturati […]
dotata di un’organizzazione complessiva coerente
di natura semantica e tematica, che si manifesta
mediante un insieme di relazioni
INTERDOCUMENTALI e INTRADOCUMENTALI
e mediante un adeguato apparato metainformativo”
(Marco Calvo et al., Internet 2000. Manuale per l’uso della rete. Roma, Bari,
Laterza, 2001, p.354-355).
18
19. La biblioteca Digitale
La BD è un sistema informativo accessibile
on-line caratterizzato da:
• una collezione di documenti digitali dotata di
una organizzazione interna
• un apparato di metadati descrittivi e
amministrativi associati a tali documenti
• un insieme di strumenti e servizi di gestione,
ricerca e disseminazione dei documenti (e dei
metadati)
• Un insieme di servizi per il pubblico
19
20. LA BIBLIOTECA DIGITALE : I CONTENUTI
Fra i documenti della biblioteca digitale si può
distinguere fra la collezione digitale primaria,
costituita da documenti che sono stati pubblicati
originariamente in formato elettronico
e la collezione digitale secondaria, costituita
dalle digitalizzazioni di originali analogici
effettuate successivamente.
20
21. SISTEMA DI BIBLIOTECA DIGITALE
• La nozione di ’sistema di biblioteca digitale’ attiene
alle risorse tecnologiche (risorse hardware, sistemi
di rete, software di stoccaggio dei dati, interfacce
utente e sistemi di information retrieval) necessarie
ad implementare tale modello, e di conseguenze
individua le funzioni e i servizi che vengono messi a
disposizione degli utenti.
• In questo senso possiamo distinguere una biblioteca
digitale da un insieme non organizzato di
informazioni assolutamente eterogenee come
World Wide Web. 21
22. Le componenti di una biblioteca digitale
La collezione: è formata da metadata, documenti testuali, video e
sonori.
I servizi di accesso: comprendono l'interfaccia dell'utente,
i sistemi di ricerca e identificazione e i sistemi di
navigazione e di connessione all'informazione desiderata.
L'utente: fa da solo senza intermediari, non ha limiti di
spazio e di tempo e può interagire con altri utenti mediante
risposte immediate.
Poiché l'utente è un agente attivo, il documento digitale è
dinamico, ha un suo ciclo di vita in relazione ad utenti
diversi in momenti diversi.
22
23. Le Biblioteche Digitali e lo sviluppo
tecnologico - 1
Lo sviluppo delle biblioteche digitali è correlato allo sviluppo
dell'Information and Communication Technology (ICT):
• le reti, per quanto riguarda la connettività (e.g. wireless),
l'ampiezza di banda disponibile e i dispositivi (computer
palmari, telefoni di nuova generazione)
• la conservazione e l'archiviazione a lungo termine grazie
anche al miglioramento delle prestazioni delle tecnologie
Storage
• lo sviluppo delle piattaforme per la formazione a distanza
(e-learning)
23
24. Le Biblioteche Digitali e lo sviluppo
tecnologico - 2
• la diffusione degli strumenti per il commercio
elettronico (e-commerce) per gestire i pagamenti on-
line sicuri,
• la definizione di standard per la gestione digitale dei
diritti (Digital Rights Management),
• le tecniche per garantire la privatezza e la sicurezza
delle operazioni e dei dati/oggetti scambiati
• le evoluzioni del Web verso la futura infrastruttura
della conoscenza basata sulla interoperabilità tra
applicazioni e metadati (Semantic Web).
24
25. Portali per le biblioteche digitali
Due componenti indispensabili per la costruzione
dell'architettura della biblioteca digitale:
a) i portali come piattaforme per organizzare i servizi ed i
contenuti
b) i modelli e i protocolli per l'integrazione di tali servizi
(i.e. ricerca e accesso delle risorse in rete).
25
26. Tre modelli
per interrogare la biblioteca digitale
Molteplicità delle risorse e dei servizi da integrare. Tre
modelli per l'architettura del digitale:
• cross searching: interrogazioni distribuite sui metadati
che caratterizzano (descrivono) gli oggetti delle
collezioni digitali
• harvesting dei metadati: cattura e indicizzazione dei
metadati associati agli oggetti digitali
• reference linking: trasporto di metadati per la creazione
dinamica di riferimenti sensibili al contesto
26
27. 1. Il cross searching
Modello a query distribuite in cui si eseguono ricerche parallele su
repository eterogenei, in genere di tipo catalografico (meta e
multiOPAC).
Si usa il protocollo Z39.50 che ha standardizzato i servizi che
regolano
l'interazione tra un client (detto "origin") e un server (detto "target")
nell'ambito di una sessione di lavoro.
PROBLEMA:
non è scalabile, non funziona con l’aumento dei DB (time-out)
27
28. 2. L’harvesting dei metadati
Nel WWW il modello "harvesting" è conosciuto
come il principio su cui si basano i motori di ricerca
tipo Google, che "visitano" periodicamente i siti
Web e ne indicizzano il contenuto (pagine HTML).
Il modello di metadata harvesting sviluppato dalla
Open Archives Initiative (OAI) [OAI] è assai diverso
dal precedente approccio. OAI si basa sul Protocol for
Metadata Harvesting (PMH)
28
29. 3. Il Reference Linking
Il Reference linking permette di leggere un articolo
online per passare direttamente a qualsiasi altro
articolo in linea riportato in una lista di reference.
Questa operazione può essere molto utile quando si
passa da un DB ad un altro, da una BD ad un’altra.
29
30. BIBLIOTECHE DIGITALI e pagine dinamiche
"pagina dinamica"
possibilità di associare ad una particolare URL, anziché
il contenuto "statico" di un file contenuto nel server a
cui l'utente si collega,
un programma (che gira sullo stesso server)
che è in grado di rispondere
alle richieste di informazioni che riceve
dal browser dell'utilizzatore
e rimandare indietro contenuti
di volta in volta variabili
30
31. Verso i Web Services - 1
Per fornire un servizio via Web occorre:
un server Web
che risponda alle richieste degli utilizzatori
e la possibilità di scrivere e far funzionare
alcuni programmi di servizio.
31
32. Verso i Web Services - 2
• si fondano su due standard consolidati, HTTP e XML
• consentono l'interoperabilità tra applicazioni
• sono identificati da Uniform Resource Identifiers
(URI)
• sono accessibili tramite protocolli standard di
Internet
• hanno interfacce pubbliche descritte in XML
• sono capaci di mandare, ricevere ed operare su
messaggi XML
• possono interagire con applicazioni e programmi
non direttamente guidati da interfacce umane
32
33. Le BD e le interazioni degli utenti
Una biblioteca digitale è sostenuta da una piattaforma di
ricerca che facilita i servizi di ricerca e da un’interfaccia
utente chiara e funzionale che assicuri un accesso
flessibile e multi-dimensionale all’informazione stessa.
faccette
33
34. Le faccette -1
Termine introdotto dal biblioteconomista e
matematico indiano Ranganathan
La classificazione mediante faccette sfrutta un
sistema di attributi (metadati) rappresentanti
ciascuno un aspetto o proprietà dell’oggetto e
capaci – nel loro insieme – di descrivere
esaustivamente l’oggetto stesso.
Tali attributi sono contraddistinti da queste
peculiarità:
34
35. Le faccette -2
• sono invariabili dal punto di vista semantico (ad es. la
proprietà COLORE di un oggetto può variare in termini di
valori che può assumere – giallo, rosso etc. – ma è invariabile
come concetto; cioè quell’oggetto avrà sempre un colore)
• costituiscono un insieme aperto, per cui è sempre
possibile
aggiungere nuove faccette a quelle già esistenti
• sono utilizzabili come attributi di ricerca sia singolarmente
sia in combinazione.
Tali caratteristiche rendono particolarmente efficace
l’adozione di questo sistema in ambienti digitali, per un più
veloce ed efficiente ritrovamento dell’informazione 35
36. Classificazione a Faccette vs.
Classificazione Tradizionale
Nei sistemi di classificazione tradizionali (o tassonomie
tradizionali), ogni elemento è classificato sotto una e una
sola categoria. Esso possiede una univoca collocazione
all’interno di un unico schema, organizzato
gerarchicamente
(Es.:sistema decimale Dewey)
Un sistema monodimensionale e molto esteso in verticale.
36
37. Classificazione a Faccette vs.
Classificazione Tradizionale
CLASSIFICAZIONE A FACCETTE = UN SISTEMA ORIZZONTALE E APERTO
(CIASCUNA FACCETTA DESCRIVE UNA PROPRIETÀ O “FACCIA” DELL’OGGETTO)
• pluridimensionalità: ogni oggetto è classificato secondo una
pluralità di attributi
• persistenza: tali attributi/faccette costituiscono proprietà
essenziali e persistenti dell’oggetto; in questo modo l’impatto
(sullo schema di classificazione) di eventuali cambiamenti (di
nomenclatura, di workflow etc.) è fortemente ridotto o nullo
• scalarità: è sempre possibile aggiungere una nuova faccetta
descrittiva di un nuovo aspetto dell’oggetto
• flessibilità: esiste una pluralità di chiavi di accesso parallele
(faccette); ogni oggetto può essere reperito utilizzando una
singolo attributo di ricerca (o faccetta) alla volta, oppure più
attributi insieme in combinazione 37
40. La conservazione digitale
La conservazione digitale include una vasta gamma
di attività che mirano a prolungare la vita utile dei file
e a proteggerli da: deperibilità dei supporti, perdita
fisica e obsolescenza.
La conservazione digitale è un processo che richiede
non soltanto la miglior tecnologia possibile, ma anche
politiche e procedure amministrative opportunamente
ponderate.
40
42. Strategie per la conservazione digitale
• Supporti duraturi/persistenti (ad esempio CD a lamina
d’oro)
• Conservazione tecnologica (“museo informatico”)
• Archeologia digitale - tecniche e metodi di recupero del
contenuto da supporti danneggiati o da un ambiente
hardware o software obsoleto (recupero di emergenza)
• Back-up analogici
• Emulazione - associare software e hardware per riprodurre,
le prestazioni di una macchina di tipo diverso (emulatori =
programmi che traducono il codice e le istruzioni di un
ambiente-macchina in modo da farli girare correttamente in
un altro)
• Refreshing
• Migrazione
42
43. Refreshing e migrazione
La migrazione è un insieme di compiti programmati, progettati per effettuare il
trasferimento periodico di materiale digitale da una configurazione hardware o
software all’altra, o da una generazione di tecnologia informatica alla quella
successiva.
La migrazione vuole salvaguardare l’integrità del materiale digitale e assicurare
agli utenti la possibilità di recuperarlo, visualizzarlo e servirsene, nonostante
un’evoluzione tecnologica costante.
La migrazione include il refreshing come metodo conservativo di materiale
digitale, ma ne differisce dal fatto che non sempre è possibile fare una copia
digitale o una replica esatta di un database o di un altro oggetto informatico ad
ogni cambiamento hardware o software, e facendo in modo che mantenga la
compatibilità con le più recenti generazioni tecnologiche.
43