Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Thesis presentation slides
1. Analisi e mappatura di thesauri mediante tecniche
di apprendimento automatico
Giacomo Bartoloni
Relatore: Dr. Enrico Francesconi
Università degli studi di Firenze
20 Luglio 2010
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
2. Lo scenario
Lo scenario
Accesso a banche dati eterogenee
in un ambiente distribuito
Cross-collection retrieval
unica interfaccia per la
denizione di interrogazioni per il
recupero di documenti rilevanti
da collezioni dierenti
Prestazioni del retrieval
In singole collezioni
collegate alla disponibilità di un thesauro
specico
Cross-collection
collegate alla interoperabilità tra i
thesauri
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
3. Obbiettivo della tesi
Obbiettivo della tesi
Elaborare un metodo di mappatura automatica tra
thesauri che faccia uso di tecniche di intelligenza
articiale
Stato dell'arte
Mapping eettuato da esperti o con strumenti poco ecienti
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
4. I thesauri
Denizione di thesauro
Un thesauro è un vocabolario controllato di termini strutturati
gerarchicamente usato per l'indicizzazione e il recupero di informazioni
all'interno di collezioni documentali
composto da
descrittori
non descrittori
relazioni semantiche
(BT, NT, RT)
denito dagli standard
ISO2788, 1986 (1993
in versione italiana)
ISO5964, 1985
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
5. SKOS
Simple Knowledge Organization System
Cos'è SKOS - Simple Knowledge Organization System
linguaggio formale per la rappresentazione di tassonomie e
vocabolari controllati
SWDWG @ W3C nel Febbraio 2003
Working draft nel Maggio 2005 (SKOS 2005)
Recommendation nell'Agosto 2009 (SKOS 2009)
Dierenze SKOS 2005 - SKOS 2009
namespace e semantica delle proprietà di mappatura tra concetti
eliminazione di alcune proprietà non necessarie
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
6. SKOS
Modello di dati SKOS
Concetto è l'unità fondamentale
Descrizioni del concetto
Proprietà per le relazioni semantiche
skos:narrower
skos:broader
skos:related
Schemi di concetti
Proprietà per relazioni di equivalenza
tra concetti di schemi dierenti
skos:mappingRelation
skos:closeMatch
skos:exactMatch
skos:broadMatch
skos:narrowMatch
skos:relatedMatch
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
7. SKOS
SKOS per la codica dei thesauri
Non esiste una metodologia condivisa per la
traduzione a SKOS dei thesauri
Creazione di due sottoclassi di skos:Concept
con l'estensione a SKOS
http://www.ittig.cnr.it/skos/skos-
extensions
Descriptor
Microthesaurus
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
8. Mappatura tra thesauri
Mappatura tra thesauri
Specializzazione del Matching di schemi od ontologie
Denizione
Processo per l'identicazione dei termini, dei concetti e delle relazioni
gerarchiche approssimativamente equivalenti
Il problema si sposta sulla denizione di equivalenza tra concetti
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
9. Mappatura tra thesauri
Equivalenza tra concetti
Equivalenza instance-based
Due concetti sono considerati equivalenti se sono associati con o
classicano lo stesso insieme di concetti
Equivalenza schema-based
Due concetti sono considerati equivalenti se esiste una similarità tra le
loro caratteristiche
Caso di studio
Mappatura tra i termini dei thesauri dove è disponibile solo
l'informazione relativa allo schema
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
10. Mappatura tra thesauri
Caratterizzazione proposta
Misurare la somiglianza concettuale o semantica tra un
termine del thesauro origine e i termini candidati del thesauro
destinazione, classicandoli secondo il grado di similarità
TM IR
Descrittore del thesauro sorgente ⇐⇒ Query
Descrittori del thesauro destinazione ⇐⇒ Documenti attinenti
Nuova formulazione
Considerare la mappatura tra thesauri (MT ) come un problema di
information retrieval (IR)
MT ⇐⇒ IR
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
11. Mappatura tra thesauri
Caratterizzazione formale di MT proposta
MT = D , Q , F , R (qi , dj )
Dove
D: viste logiche di un termine del thesaurus target (i documenti in
una collezione, in IR)
Q: viste logiche di un termine del thesaurus source (query da
confrontare con i documenti di una collezione, in IR)
F: l'ambiente di rappresentazione dei termini dei thesauri
R (qi , dj ), qi ∈ Q , dj ∈ D : funzione di ranking, restituisce un
ordinamento dei termini del thesauro target dj secondo la rilevanza
rispetto ai termini del thesauro sorgente qi
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
12. Mappatura tra thesauri
Rappresentazione lessicale e semantica di un termine
Parole dierenti identicano lo stesso concetto
stessa lingua (per es. `inquinamento', `contaminazione', `emissione
tossica')
lingue dierenti (per es. EUROVOC `water' (EN), `acqua' (IT))
Obbiettivo del MT : confrontare il signicato dei termini (la semantica)
piuttosto che le rappresentazioni formali (lessicali)
Ipotesi
Più i termini sono caratterizzati semanticamente, meglio il sistema sarà in
grado di confrontarne il signicato
Come si rappresenta la semantica di un termine per il matching di
thesauri basato sugli schemi?
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
13. Mappatura tra thesauri
Le viste logiche proposte per i termini del thesauro sorgente
(Q ) e destinazione (D )
La semantica di un termine è portata da:
1
le sue caratteristiche morfologiche
2
il contesto in cui il termine è usato
3
le relazioni con gli altri termini
Proponiamo di rappresentare la semantica di un termine appartenente a
un thesauro con:
1
la sua Rappresentazione Lessicale: stringhe (pre-processate)
2
il suo Contesto Lessicale: vettore di elementi binari/pesati (il
termine stesso e alcuni collegati)
3
la sua Rete Lessicale: grafo di termini (i nodi sono i termini e gli
archi le relazioni tra di essi)
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
14. Mappatura tra thesauri
Un esempio di Rappresentazione Lessicale
(Forma radice)
Parliamentary committees → Parliament$ committee$
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
15. Mappatura tra thesauri
Un esempio di Contesto Lessicale
EUROVOC: Thesaurus sorgente
Vocabolario di EUROVOC e
Parliamentary committee
40
o 658
o UNESCO
...
q = [0, . . . , 0, 12) ad
1 , 0, . . . , 0, 1 , 0, . . . , 0]
T ...
40) committ
... T
UNESCO: Thesaurus destinazione
658) parliament
...
Parliamentary committees
930) report
o o
40 658
d = [0, . . . , 0, 1 , 0, . . . , 0, 1 , 0, . . . , 0] ...
T
Un Contesto Lessicale è un vettore di elementi binari/pesati
[w1 , . . . , wT ], dove T è la dimensione di un vocabolario.
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
16. Mappatura tra thesauri
Un esempio di Rete Lessicale
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
17. Mappatura tra thesauri
Le funzioni di ranking proposte (R )
1
Rappresentazione Lessicale: Distanza/Similarità di Levenshtein
(minimo numero normalizzato di operazioni (inserimento, eliminazione o sostituzione di
un singolo carattere) richiesto per trasformare una stringa in un'altra).
2
Contesto Lessicale: Distanza/Similarità del coseno e di Jaccard
3
Rete Lessicale: Graph Edit Distance/Similarità
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
18. Support Vector Machines
Apprendimento automatico per l'information retrieval
Uso dell'apprendimento automatico con due
nalità:
scegliere da un thesaurus obiettivo un insieme
di descrittori rilevanti per un termine
appartenente a un thesaurus di partenza;
ordinare (o meglio eseguire un rank di) tale
sottoinsieme secondo la misura di similarità
rispetto al termine sorgente.
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
19. Support Vector Machines
Support Vector Machines lineari
Ogni esempio è descritto da un insieme di
caratteristiche x (un vettore)
Due classi di dati yi = {−1, +1}
Iperpiano di decisione w, b trovato
ottimizzando una funzione quadratica:
minimizzare
1
w T w tenendo conto del
∀ {(xi , yi )} , yi (w T x + b ) ≥ 1
2
vincolo
Classicazione secondo la funzione
f (x ) = sign(w T x + b )
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
20. Caso di studio
Caso di studio
EUROVOC utilizzato
come thesauro pivot
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
21. Caso di studio
I thesauri
Thesauri utilizzati da vari enti della comunità internazionale
Thesaurus Numero di descrittori
Eurovoc 6645
Eclas 6352
Ett 2522
Unesco 4374
Gold standard forniti da esperti
Mappatura Numero di esempi di skos:exactMatch
Eurovoc-Eclas 146
Eurovoc-Ett 71
Eurovoc-Unesco 99
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
22. Prestazioni
Individuazione dei concetti rilevanti
Validazione incrociata ottenuta dall'implementazione delle SVM con
tecnica Leave-one-out
tp tp
Precision = Recall =
tp + fp tp + fn
Uso altLabel Peso parole Uso vicini Precision Recall Errore
no binario no 83.27% 70.12% 5.80%
si binario no 89.17% 70.12% 5.07%
no tf-idf no 85.03% 71.21% 5.46%
no binario si 100.00% 99.38% 0.08%
si tf-idf no 90.50% 67.80% 5.19%
si binario si 100.00% 98.92% 0.14%
no tf-idf si 100.00% 99.38% 0.08%
si tf-idf si 100.00% 99.38% 0.08%
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
23. Prestazioni
Individuazione dei concetti rilevanti
Validazione incrociata ottenuta dall'implementazione delle SVM con
tecnica Leave-one-out
tp tp
Precision = Recall =
tp + fp tp + fn
Uso altLabel Peso parole Uso vicini Precision Recall Errore
no binario no 83.27% 70.12% 5.80%
si binario no 89.17% 70.12% 5.07%
no tf-idf no 85.03% 71.21% 5.46%
no binario si 100.00% 99.38% 0.08%
si tf-idf no 90.50% 67.80% 5.19%
si binario si 100.00% 98.92% 0.14%
no tf-idf si 100.00% 99.38% 0.08%
si tf-idf si 100.00% 99.38% 0.08%
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
24. Prestazioni
Individuazione delle mappature esatte
Validazione incrociata ottenuta con k -fold (k = 3)
Uso altLabel Peso parole Uso vicini Precision Recall
no binario no 86,02% 100%
si binario no 96,77% 100%
no tf-idf no 88,17% 100%
no binario si 52,69% 100%
si tf-idf no 93,55% 100%
si binario si 54,84% 100%
no tf-idf si 72,04% 100%
si tf-idf si 92,47% 100%
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
25. Prestazioni
Individuazione delle mappature esatte
Validazione incrociata ottenuta con k -fold (k = 3)
Uso altLabel Peso parole Uso vicini Precision Recall
no binario no 86,02% 100%
si binario no 96,77% 100%
no tf-idf no 88,17% 100%
no binario si 52,69% 100%
si tf-idf no 93,55% 100%
si binario si 54,84% 100%
no tf-idf si 72,04% 100%
si tf-idf si 92,47% 100%
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
26. Prestazioni
Conclusioni
Traduzioni di thesauri in SKOS
Rappresentazione semantica dei descrittori
Metodo di mappatura mediante tecniche di information retrieval,
utilizzando l'apprendimento automatico per il mapping
Risultati incoraggianti
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
27. Prestazioni
Sviluppi futuri
Dierenti criteri di selezione delle caratteristiche di un descrittore
Dierente descrizione della semantica di un termine
Gra
Classicatori multiclasse per mapping di relazioni di equivalenza
diverse
Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico