1 A PROVA DI FUTURO giornali,libri e archivi 3.0
Semantica: condividere significati tra archivi digitali
Vittorio Di Tomaso CBDIG
2 Perché le biblioteche digitali non sono “sexy” come quelle analogiche?
3 Perché si può fare di più: ricerca
4 Perché si può fare di più: correlazioni
5 Perché si può fare di più: orizzonti
6 Perché si può fare di più: coinvolgimento
7 Quali sono gli obiettivi: valore d'uso, Integrazione, Esperienza utente
8 Su quali aspetti bisogna lavorare: Semantica, Ricerca federata, Ricerca intelligente
9 Che cosa vogliamo fare….Ricerche federate,Ricerche intelligenti,Navigazione dinamica
10 Accesso ai contenuti tramite search
11 Accesso ai contenuti tramite logiche di experience
12 Accesso ai contenuti tramite api
13 L’ecosistema cultura / Piemonte
14 Modello di riferimento
15 Il risultato…
16 Obiettivo 1: ricerca federata su repository differenti
17 Obiettivo 2: ricerche più intelligenti
18 Obiettivo 3: scoperta e navigazione di relazioni
19 Ontologia: come fare? Una scelta pragmatica
20 Guarini: progetto top down dell’ontologia
21 OBAC – Classi di base
22 OBAC – Alcune relazioni di esempio
23 La stampa: identificazione bottom-up di elementi semantici
24 La stampa: estrazione di entità nominate
25 La stampa: estrazione di entità nominate
26 La stampa: estrazione di entità nominate
27 Una sfida complessa….Estensione temporale, Digitalizzazione
28 Panna o Fanna?
29 I risultati dell’analisi:
4.8000.0000 Articoli analizzati
110.000 Nomi di persona riconosciuti freq > 10
10.000 Nomi di luoghi riconosciuti freq > 10
6.000 Nomi di organizzazioni riconosciuti freq > 10
80% di precisione del risultato
30 Siamo soltanto all’inizio…
31 La vision futura in 4 passi (2012 – 2013)
32 Sappiamo cosa fare….Le ontologie rappresentano
oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e
conoscenze
L'aspetto più critico riguarda la necessità di acquisire
persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni
33 Ma in questo momento manca qualcosa….
34 Vogliamo costruire cattedrali….
35 Grazie per l’attenzione!
Vittorio Di Tomaso
Hanno collaborato al progetto: Andrea Bolioli,
Roberto Franchini, Raffaella Ventaglio, Federico
Fissore, Mauro Cappelli, Federico Cairo
Ringraziamo: Andrea Muraca, Francesco Cerchio,
Cristina Mollis, Alessandro Stefani
1. Vittorio Di Tomaso CBDIG
Semantica:
condividere significati
tra archivi digitali
Vittorio Di Tomaso
CBDIG
2. Vittorio Di Tomaso CBDIG
Perché le biblioteche digitali
non sono “sexy” come quelle
analogiche?
Perché le biblioteche digitali
non sono “sexy” come quelle
analogiche?
3. Vittorio Di Tomaso CBDIG
Perché si può fare di più: ricerca
Le ricerche su
Banche Dati in
ambito culturale
richiedono una
conoscenza
pregressa
dell’argomento
Le ricerche su
Banche Dati in
ambito culturale
richiedono una
conoscenza
pregressa
dell’argomento
Bisogna già
conoscere
quello che si
sta cercando
Bisogna già
conoscere
quello che si
sta cercando
4. Vittorio Di Tomaso CBDIG
Perché si può fare di più: correlazioni
Classificazioni
precise e rigorose
limitano la
possibilità di
associazioni e
collegamenti
Classificazioni
precise e rigorose
limitano la
possibilità di
associazioni e
collegamenti
Tendenza a
proporre
percorsi
“specialistici”
Tendenza a
proporre
percorsi
“specialistici”
5. Vittorio Di Tomaso CBDIG
Perché si può fare di più: orizzonti
L’arte e la cultura
sono, di natura,
“liberi” nello
spazio e nel
tempo, mentre
musei ed archivi
sono mondi
“chiusi”
L’arte e la cultura
sono, di natura,
“liberi” nello
spazio e nel
tempo, mentre
musei ed archivi
sono mondi
“chiusi”
Ogni archivio offre
una visione
“parziale” (ma le
visioni possono
essere federate)
Ogni archivio offre
una visione
“parziale” (ma le
visioni possono
essere federate)
6. Vittorio Di Tomaso CBDIG
Perché si può fare di più: coinvolgimento
Anche quando
disponibili via web,
molti archivi
culturali adottano un
approccio poco
orientato alla
fruizione
Anche quando
disponibili via web,
molti archivi
culturali adottano un
approccio poco
orientato alla
fruizione
User experience
poco coinvolgente
User experience
poco coinvolgente
9. Vittorio Di Tomaso CBDIG
Che cosa vogliamo fare….
Ricerche federate
Integrare patrimoni e fonti informative differenti
Ricerche intelligenti
Comprendere meglio il significato della richiesta dell’utente (per
dare risultati più soddisfacenti)
Navigazione dinamica
Identificare e rendere disponibili relazioni e correlazioni tra
elementi appartenti a patrimoni informativi diversi
10. Vittorio Di Tomaso CBDIG
Accesso ai contenuti tramite search
•Ricerca
semantica di
contenuti a testo
libero che,
attraverso la
correlazione di
fonti dati,
consente di
trovare risultati
accedendo a più
patrimoni
infomativi
•Abilita lettura
trasversale e
cross‐mediale dei
fenomeni di
interesse
•Ricerca
semantica di
contenuti a testo
libero che,
attraverso la
correlazione di
fonti dati,
consente di
trovare risultati
accedendo a più
patrimoni
infomativi
•Abilita lettura
trasversale e
cross‐mediale dei
fenomeni di
interesse
• Archivi
storici
digitalizzati
di quotidiani
• Archivi
storici
digitalizzati
di quotidiani
• Siti web
storicizzati
• Siti web
storicizzati
• Foto,
Immagini
ed
Illustrazioni
• Foto,
Immagini
ed
Illustrazioni
• Materiale
correlato
disponibil
e su altri
siti
• Materiale
correlato
disponibil
e su altri
siti
• Libri, riviste,
articoli con
link diretto a
siti di
eCommerce
• Libri, riviste,
articoli con
link diretto a
siti di
eCommerce
• Ricerca full-text con individuazione
semantica dei concetti ricercati
• Ricerca full-text con individuazione
semantica dei concetti ricercati
Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au
Il contenuto culturale può essere “espanso” e collegato ad elementi di
contesto che lo rendono in grado di “raccontare” una storia
Il contenuto culturale può essere “espanso” e collegato ad elementi di
contesto che lo rendono in grado di “raccontare” una storia
11. Vittorio Di Tomaso CBDIG
Caso d’uso: Museo TorinoCaso d’uso: Museo Torino
Accesso ai contenuti tramite logiche di experience
Progetto del Comune di Torino che consente la
consultazione di un archivio dei beni artistici della
città attraverso una rich-interface web che integra
contenuti testuali, immagini e logiche di
georeferenziazione
•Fruizione dei
contenuti
attraverso
interfacce che
garantiscono una
user-experience
intuitiva e
coinvolgente
•Logiche di
erogazione
compatibili con
device innovativi
(es. smartphone
e tablet)
•Fruizione dei
contenuti
attraverso
interfacce che
garantiscono una
user-experience
intuitiva e
coinvolgente
•Logiche di
erogazione
compatibili con
device innovativi
(es. smartphone
e tablet) La “contaminazione” degli archivi di beni culturali con
logiche di fruizione tipiche dell’info-tainment può
ampliare il bacino di utenza di contenuti culturali
La “contaminazione” degli archivi di beni culturali con
logiche di fruizione tipiche dell’info-tainment può
ampliare il bacino di utenza di contenuti culturali
12. Vittorio Di Tomaso CBDIG
Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici
Accesso ai contenuti tramite api
• Interfacciamento dei
contenuti attraverso API
standard che
consentano
l’interoperabilità con altri
servizi attivando
correlazioni per:
‐ Creare servizi /
applicazioni arricchite
con contenuti esterni
legati ai medesimi
concetti
‐ Esporre i propri
contenuti in modo
universale ad altri
servizi che li possono
integrare e diffondere
• Interfacciamento dei
contenuti attraverso API
standard che
consentano
l’interoperabilità con altri
servizi attivando
correlazioni per:
‐ Creare servizi /
applicazioni arricchite
con contenuti esterni
legati ai medesimi
concetti
‐ Esporre i propri
contenuti in modo
universale ad altri
servizi che li possono
integrare e diffondere
API
Basi Dati
pubbliche
Basi Dati
pubbliche
Servizi di
Localizzaizone
Servizi di
Localizzaizone
Rich Internet Application che rende fruibili i dati ad
un pubblico più vasto rispetto al bacino originario
Rich Internet Application che rende fruibili i dati ad
un pubblico più vasto rispetto al bacino originario
In ambito culturale questa logica può favorire
l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza
digitale di fruizione integrata dei patrimoni
In ambito culturale questa logica può favorire
l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza
digitale di fruizione integrata dei patrimoni
La logica dell’interoperabilità tramite API è alla base dei principi Open
Data per la diffusione dei dati pubblici
API
13. Vittorio Di Tomaso CBDIG
L’ecosistema cultura / Piemonte
Ontologia dei beni culturaliOntologia dei beni culturali
Ricerche federate, interoperabilitàRicerche federate, interoperabilità
Motore di
ricerca
Motore di
ricerca
API e
servizi
API e
servizi
14. Vittorio Di Tomaso CBDIG
Modello di riferimento
ExperienceExperience APIAPI
Ontologia
• Digitalizzazione /
Creazione
• Arricchimento semantico
Digital
Library
Modalità di
erogazione
Casi d’uso
Strumenti di ricerca
testuale per
semplificare
l’accesso a contenuti
documentali
Interfacce multimediali
per la fruizione dei
contenuti tramite user
experience coinvolgente
Interoperabilità con
altri servizi per
arricchire i contenuti
con info da altre fonti
SearchSearch
Contenuti
Tradizionali
CrowdsourcingCrowdsourcing
Utente
Recepimento di
contenuti e
commenti da
parte dell’utenza
•Facilità di
integrazione
tra i contenuti
•User
experience
“infotainment-
like”
•Bacino di
fruizione più
ampio
•Possibilità di
abilitare
logiche di
eCommerce
dei contenuti
•Facilità di
integrazione
tra i contenuti
•User
experience
“infotainment-
like”
•Bacino di
fruizione più
ampio
•Possibilità di
abilitare
logiche di
eCommerce
dei contenuti
16. Vittorio Di Tomaso CBDIG
Obiettivo 1: ricerca federata su repository differenti
17. Vittorio Di Tomaso CBDIG
Motore Attuale
(Logica
tradizionale
per keyword)
Motore Attuale
(Logica
tradizionale
per keyword)
Obiettivo 2: ricerche più intelligenti
Approccio
Semantico
(identificazione
dei concetti
cercati)
Approccio
Semantico
(identificazione
dei concetti
cercati) • Trova 30 risultati relativi a Basiliche, Santuari e
Chiese , …
• Esempio: documenti relativi alla Basilica di
Superga, perchè
‐ La Basilica di Superga è un edificio religioso
‐ La Basilica di Superga è del 1731
• Trova 30 risultati relativi a Basiliche, Santuari e
Chiese , …
• Esempio: documenti relativi alla Basilica di
Superga, perchè
‐ La Basilica di Superga è un edificio religioso
‐ La Basilica di Superga è del 1731
Propone collegamenti con le
tendenze artistiche sviluppatesi
nel periodo e con altre eminenti
opere contemporanee
Propone collegamenti con le
tendenze artistiche sviluppatesi
nel periodo e con altre eminenti
opere contemporanee
Edificio
religioso del
settecento
Edificio
religioso del
settecento
Trova 1 solo risultato
contenente la keyword
“Edificio Religioso”
Trova 1 solo risultato
contenente la keyword
“Edificio Religioso”
18. Vittorio Di Tomaso CBDIG
Obiettivo 3: scoperta e navigazione di relazioni
La comprensione della semantica di
una ricerca consente di “attivare”
logiche di navigazione basate sulle
relazioni tra i concetti
La comprensione della semantica di
una ricerca consente di “attivare”
logiche di navigazione basate sulle
relazioni tra i concetti
19. Vittorio Di Tomaso CBDIG
Ontologia: come fare? Una scelta pragmatica
Progettazione dell’ontologia
sulla base dei metadati di
catalogazione (ma in funzione
delle esigenze della ricerca delle
informazioni)
Progettazione dell’ontologia
sulla base degli elementi di
significato che si trovano nei
testi del corpus
GUARINI:
TOP DOWN
LA STAMPA:
BOTTOM UP
20. Vittorio Di Tomaso CBDIG
Guarini: progetto top down dell’ontologia
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei
principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”
di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei
principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”
di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
23. Vittorio Di Tomaso CBDIG
Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto
Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search
11 22 33 44
La stampa: identificazione bottom-up di elementi semantici
24. Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Arricchimento
semantico dei
documenti tramite
il riconoscimento
delle entità
nominate
("Named
Entities"), cioè le
persone, i luoghi
e le
organizzazioni
menzionate negli
articoli.
Un es. di articolo:
La Stampa 03-02-1965
Arricchimento
semantico dei
documenti tramite
il riconoscimento
delle entità
nominate
("Named
Entities"), cioè le
persone, i luoghi
e le
organizzazioni
menzionate negli
articoli.
Un es. di articolo:
La Stampa 03-02-1965
25. Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Annotazione
manuale
effettuata su un
corpus di 1800
articoli, dal 1910
al 2005,
selezionati
prevalentemente
dalle prime
pagine (582.477
token)
Annotazione
manuale
effettuata su un
corpus di 1800
articoli, dal 1910
al 2005,
selezionati
prevalentemente
dalle prime
pagine (582.477
token)
26. Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Training di un
Classificatore
automatico SVM
(Support Vector
Machine)
Integrazione di
Regole manuali
di identificazione
e
disambiguazione,
in particolare per
il riconoscimento
degli Autori
Training di un
Classificatore
automatico SVM
(Support Vector
Machine)
Integrazione di
Regole manuali
di identificazione
e
disambiguazione,
in particolare per
il riconoscimento
degli Autori
27. Vittorio Di Tomaso CBDIG
Una sfida complessa….
Estensione temporale
L’archivio storico de La Stampa comprende articoli su un periodo
temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi
analoghi in Italia di analisi semantica di testi su un intervallo
diacronico così ampio. Abbiamo dovuto definire una metodologia
senza poter fare affidamento su best practice consolidate
Digitalizzazione
La digitalizzazione di un corpus con queste caratteristiche è
molto complessa. Gli inevitabili errori di segmentazione e di
estrazione del testo (OCR) hanno un effetto talvolta
sostanziale su un successivo strato di analisi linguistica
29. Vittorio Di Tomaso CBDIG
I risultati dell’analisi
4.8000.0000 Articoli analizzati
110.000 Nomi di persona riconosciuti freq > 10
10.000 Nomi di luoghi riconosciuti freq > 10
6.000 Nomi di organizzazioni riconosciuti freq > 10
oltre
oltre
oltre
oltre
80% di precisione del risultatooltre
31. Vittorio Di Tomaso CBDIG
La vision futura in 4 passi (2012 – 2013)
Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)
Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)
Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi
Creare una ontologia ombrello (OntoPiemonteCultura) in
grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Creare una ontologia ombrello (OntoPiemonteCultura) in
grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)
Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)
1.1.
2.2.
3.3.
4.4.
20122012
20132013
32. Vittorio Di Tomaso CBDIG
Sappiamo cosa fare….
1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=1411
2 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059
L'aspetto più critico riguarda
la necessità di acquisire
persone con la competenza e
le motivazioni necessarie per
fare da ponte tra ricerca e
applicazioni2
Le ontologie rappresentano
oggi la tecnologia chiave per
risolvere i problemi di
integrazione e interoperabilità
semantica di dati e
conoscenze1
35. Vittorio Di Tomaso CBDIG
Semantica:
condividere significati
tra archivi digitali
Vittorio Di Tomaso
CBDIG
Grazie per l’attenzione!
Vittorio Di Tomaso
Hanno collaborato al progetto: Andrea Bolioli,
Roberto Franchini, Raffaella Ventaglio, Federico
Fissore, Mauro Cappelli, Federico Cairo
Ringraziamo: Andrea Muraca, Francesco Cerchio,
Cristina Mollis, Alessandro Stefani