1. LA BIBLIOTECA DIGITALE:
GLI STANDARD
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
2. Gli STANDARD APERTI
• Piattaforma Open source
• Modello dati allineato al Dublin Core metadata
element set e al Dublin Core Collection Description
Application Profile
• Data base XML
• Harvesting dei metadati attraverso OAI-PMH
• Terminologie basate su standard internazionali
(ISO, UNESCO, Dublin Core, W3C…)
• I record sono pubblicati su licenza Creative
Commons ‘Attribution Non-commercial’
2
3. Open source
CODICE SORGENTE APERTO
software i cui autori (più precisamente i detentori dei diritti) ne
favoriscono il libero studio e l'apporto di modifiche da parte di
altri programmatori indipendenti. Questo è realizzato mediante
l'applicazione di apposite licenze d'uso.
Permette a programmatori geograficamente distanti di lavorare
allo stesso progetto.
Alla filosofia dell’open source si ispira il movimento open
content (contenuti aperti): in questo caso ad essere liberamente
disponibile non è il codice sorgente di un software ma contenuti
editoriali quali testi, immagini, video e musica.
Wikipedia è un esempio dei frutti di questo movimento.
3
4. Gli standard 1 – Il modello dei dati
Dublin Core metadata element set e
Dublin Core Collection Description:
sistema di metadati costituito da un nucleo di
elementi essenziali ai fini della descrizione di
qualsiasi materiale digitale accessibile via rete
informatica.
4
5. Il modello dei dati: Il Dublin Core - 1
Il nucleo, proposto nel dicembre 1996, era costituito da quindici elementi di
base e si è poi esteso anche a sottoelementi o qualificatori, pur
mantenendo, nonostante gli sviluppi, una struttura stabile.
Titolo (Title)
Autore (Creator)
Soggetto (Subject)
Descrizione (Description)
Editore (Publisher)
Autore di contributo subordinato (Contributor)
Data (Date)
Tipo (Type) Natura o genere del contenuto della risorsa. L'elemento "Tipo"
include termini che descrivono categorie generali, funzioni, generi, o livelli di
aggregazione per contenuto presi generalmente da un vocabolario
controllato.
Formato (Format) Manifestazione fisica o digitale della risorsa.
5
6. Il modello dei dati: Il Dublin Core - 2
Identificatore (Identifier) Riferimento univoco alla risorsa. Solitamente le
risorse sono identificate per mezzo di una sequenza di caratteri alfa- numerici.
Esempi di tali sistemi di identificazione: l’Uniform Resource Identifier (URI) (incluso l’Uniform Resource Locator
o URL), il Digital Object Identifier (DOI) e l’International Standard Book Number (ISBN).
Fonte (Source) Riferimento a una risorsa dalla quale è derivata la risorsa in
oggetto. La risorsa in questione potrebbe derivare, in tutto o in parte, da
un’altra risorsa fonte.
Lingua (Language)
Relazione (Relation) Riferimento ad una risorsa correlata.
Copertura (Coverage) Estensione o scopo del contenuto della risorsa. Include
la localizzazione spaziale (il nome o le coordinate geografiche di un luogo), il
periodo temporale (l’indicazione di un periodo, una data o una serie di date) o
una giurisdizione (ad esempio il nome di un’entità amministrativa).
Gestione dei diritti (Rights Management) Informazione sui diritti esercitati
sulla risorsa. Normalmente un elemento "Diritti" contiene un’indicazione sulla
gestione dei diritti sulla risorsa, o un riferimento al servizio che fornisce questa
informazione. Questo campo comprende gli Intellectual Property Rights
(IPR), il copyright, e vari diritti di proprietà.
6
7. Gli standard 2 – Data base XML
In seguito alla guerra dei browser (negli anni '90 tra Microsoft e Netscape) si
diffondono diverse versioni del linguaggio HTML.
Il World Wide Web Consortium (W3C), definisce un linguaggio HTML
standard e si crea un linguaggio di markup che dia maggiore libertà nella
definizione dei TAG, pur rimanendo all’interno di uno standard.
Nel 1998 le specifiche prendono il nome di
Extensible Mark-up Language.
L'XML è oggi molto utilizzato come mezzo per
lo scambio di dati tra diversi DBMS
(Database Management System). 7
9. TAG
Il tag è un testo racchiuso tra ‘<‘ e ‘>’ che
contiene informazioni circa il testo,
costituisce quindi un meta-dato circa il
dato vero e proprio che è nel testo 9
10. HTML : scrivere con le tag
<html>
<body>
Note: <br>
To: <i> Mario</i><br>
From: <i> Luca</i><br>
Title: <b>Appuntamento</b><br>
Ci vediamo domani
</body>
</html>
Note:
To: Mario
from: Luca
Title: Appuntamento
Ci vediamo domani 10
11. Dall’HTML all’XML
XML (eXtensible Markup Language) nasce
dall’intento di applicare il paradigma dei tag in
campi diversi dalla presentazione di ipertesti
• Si basa sul markup in modo simile ad HTML
• XML è pensato per descrivere dati
• I tag XML non sono predefiniti
• XML non è un linguaggio, ma un insieme di
regole per costruire particolari linguaggi
(metalinguaggio) 11
12. Gli standard 2 – XML
L’HTML definisce una grammatica per la descrizione e
la formattazione di pagine web e di ipertesti
L’XML è un metalinguaggio utilizzato per descrivere
documenti strutturati.
Mentre l'HTML ha un insieme ben definito e ristretto
di tag, con l'XML è invece possibile definirne di propri
a seconda delle esigenze
L’XML può essere usato nella definizione della
struttura di documenti, nello scambio delle
informazioni tra sistemi diversi, nella definizione di
formati di dati.
12
13. Gli standard 3 – OAI - PMH
OAI-PMH (Open Archives Initiative Protocol for
Metadata Harvesting o Protocollo per il raccoglimento
dei metadati dell'Open Archive Initiative)
La Open Archives Initiative, nota anche con l'acronimo OAI, nasce come idea
di rendere facilmente fruibili gli archivi che contengono documenti prodotti in
ambito accademico. L'intento è di promuovere strumenti semplici per
consentire di ricercare e creare servizi che rendano utilizzabili tutti i contenuti
dell'attività di ricerca.
Dopo alcuni anni lo schema OAI è stato generalizzato anche per altri tipi di
materiali digitali non strettamente legati alla ricerca accademica.
13
14. Gli standard 3 – OAI - PMH
Il modello OAI può essere descritto a due livelli:
1) Modello funzionale che ha a sua volta due componenti:
data provider: gestiscono uno o più archivi (repositories) di collezioni di oggetti digitali e
sono responsabili del loro mantenimento e della generazione dei metadati che li
caratterizzano. Supportano il protocollo OAI per consentire l'accesso ai metadati sul contenuto.
Il data provider, al tempo stesso, mette a disposizione i metadati e ne cura la qualità e la
completezza.
service provider: gestiscono i servizi a valore aggiunto per l'aggregazione e
l'indicizzazione dei metadati (ricerca, scoperta, localizzazione degli oggetti digitali) e
interrogano gli archivi dei data provider usando le richieste del protocollo OAI per catturarne i
metadati. 14
15. Gli standard 3 – OAI - PMH
2) Modello tecnico o "Harvesting di metadati“
I service provider interrogano i data provider da cui prelevano i metadati
tramite il protocollo OAI-PMH, ("Protocol for Metadata Harvesting") e
confezionano servizi di valore aggiunto ponendosi più vicino all'utente finale
perché ne facilitano la ricerca, l'individuazione e la localizzazione di oggetti
digitali in rete.
L'informazione digitale viene vista su tre livelli:
risorsa: è l'oggetto contenuto nei digital repository mantenuti
dai data provider;
item: contenitore di tipo logico a partire dal quale vengono
diffusi i metadati;
record: sono i metadati espressi in sintassi XML secondo lo
schema DUBLIN CORE
15