SlideShare une entreprise Scribd logo
1  sur  27
Analisi e mappatura di thesauri mediante tecniche
             di apprendimento automatico

                                        Giacomo Bartoloni
                               Relatore: Dr. Enrico Francesconi


                                   Università degli studi di Firenze




                                          20 Luglio 2010




Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Lo scenario




Lo scenario

  Accesso a banche dati eterogenee
  in un ambiente distribuito

  Cross-collection retrieval
       unica interfaccia per la
       denizione di interrogazioni per il
       recupero di documenti rilevanti
       da collezioni dierenti

                                           Prestazioni del     retrieval
                                           In singole collezioni

                                                   collegate alla disponibilità di un thesauro
                                                   specico

                                           Cross-collection

                                                   collegate alla interoperabilità tra i
                                                   thesauri


   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Obbiettivo della tesi




Obbiettivo della tesi




      Elaborare un metodo di mappatura automatica tra
       thesauri che faccia uso di tecniche di intelligenza
                           articiale
                                               Stato dell'arte

            Mapping       eettuato da esperti o con strumenti poco ecienti




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi    Analisi e mappatura di thesauri con l'apprendimento automatico
I thesauri




Denizione di thesauro

   Un thesauro è un vocabolario controllato di termini strutturati
   gerarchicamente usato per l'indicizzazione e il recupero di informazioni
   all'interno di collezioni documentali




     composto da
            descrittori
            non descrittori
            relazioni semantiche
            (BT, NT, RT)
     denito dagli standard

            ISO2788, 1986 (1993
            in versione italiana)
            ISO5964, 1985


   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi    Analisi e mappatura di thesauri con l'apprendimento automatico
SKOS




Simple Knowledge Organization System

   Cos'è SKOS -         Simple Knowledge Organization System
         linguaggio formale per la rappresentazione di tassonomie e
         vocabolari controllati

         SWDWG @ W3C nel Febbraio 2003

         Working draft         nel Maggio 2005 (SKOS 2005)

         Recommendation nell'Agosto 2009 (SKOS 2009)

   Dierenze SKOS 2005 - SKOS 2009

         namespace        e semantica delle proprietà di mappatura tra concetti

         eliminazione di alcune proprietà non necessarie




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
SKOS




Modello di dati SKOS

   Concetto è l'unità fondamentale


   Descrizioni del concetto


   Proprietà per le relazioni semantiche

         skos:narrower
         skos:broader
         skos:related
   Schemi di concetti


   Proprietà per relazioni di equivalenza
   tra concetti di schemi dierenti

         skos:mappingRelation
         skos:closeMatch
         skos:exactMatch
         skos:broadMatch
         skos:narrowMatch
         skos:relatedMatch
   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
SKOS




SKOS per la codica dei thesauri


 Non esiste una metodologia condivisa per la
 traduzione a SKOS dei thesauri




 Creazione di due sottoclassi di skos:Concept
 con l'estensione a SKOS
 http://www.ittig.cnr.it/skos/skos-
 extensions



     Descriptor

     Microthesaurus




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Mappatura tra thesauri



                 Specializzazione del          Matching     di schemi od ontologie




   Denizione

   Processo per l'identicazione dei termini, dei concetti e delle relazioni
   gerarchiche approssimativamente equivalenti




   Il problema si sposta sulla denizione di equivalenza tra concetti




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Equivalenza tra concetti


   Equivalenza      instance-based
   Due concetti sono considerati equivalenti se sono associati con o
   classicano lo stesso insieme di concetti




   Equivalenza      schema-based
   Due concetti sono considerati equivalenti se esiste una similarità tra le
   loro caratteristiche




   Caso di studio

         Mappatura tra i termini dei thesauri dove è disponibile solo
         l'informazione relativa allo schema




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Caratterizzazione proposta

       Misurare la somiglianza concettuale o semantica tra un
   termine del thesauro origine e i termini candidati del thesauro
      destinazione, classicandoli secondo il grado di similarità

                              TM                                                      IR
         Descrittore del thesauro sorgente                    ⇐⇒                    Query
       Descrittori del thesauro destinazione                  ⇐⇒         Documenti attinenti




                                          Nuova formulazione

      Considerare la mappatura tra thesauri (MT ) come un problema di
                                     information retrieval (IR)


                                              MT ⇐⇒ IR

   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Caratterizzazione formale di MT proposta


                                    MT = D , Q , F , R (qi , dj )



   Dove

         D:   viste logiche di un termine del thesaurus                    target    (i documenti in
         una collezione, in         IR)
         Q:   viste logiche di un termine del thesaurus                    source (query         da
         confrontare con i documenti di una collezione, in                      IR)
         F:   l'ambiente di rappresentazione dei termini dei thesauri

         R (qi , dj ), qi ∈ Q , dj ∈ D :         funzione di    ranking, restituisce un
         ordinamento dei termini del thesauro                  target dj secondo la rilevanza
         rispetto ai termini del thesauro                sorgente qi




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi     Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Rappresentazione lessicale e semantica di un termine

   Parole dierenti identicano lo stesso concetto

         stessa lingua (per es. `inquinamento', `contaminazione', `emissione
         tossica')

         lingue dierenti (per es. EUROVOC `water' (EN), `acqua' (IT))


   Obbiettivo del       MT :      confrontare il signicato dei termini (la semantica)
   piuttosto che le rappresentazioni formali (lessicali)



   Ipotesi

   Più i termini sono caratterizzati semanticamente, meglio il sistema sarà in
   grado di confrontarne il signicato



   Come si rappresenta la semantica di un termine per il                        matching        di
   thesauri basato sugli schemi?



   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Le viste logiche proposte per i termini del thesauro sorgente
(Q ) e destinazione (D )

   La semantica di un termine è portata da:
     1
         le sue caratteristiche morfologiche
     2
         il contesto in cui il termine è usato
     3
         le relazioni con gli altri termini



   Proponiamo di rappresentare la semantica di un termine appartenente a
   un thesauro con:
     1
         la sua Rappresentazione Lessicale: stringhe (pre-processate)
     2
         il suo Contesto Lessicale: vettore di elementi binari/pesati (il
         termine stesso e alcuni collegati)
     3
         la sua Rete Lessicale: grafo di termini (i nodi sono i termini e gli
         archi le relazioni tra di essi)




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Un esempio di Rappresentazione Lessicale




                                                               (Forma radice)


    Parliamentary committees                   →         Parliament$ committee$




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi     Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Un esempio di Contesto Lessicale


           EUROVOC: Thesaurus sorgente
                                                                                 Vocabolario di EUROVOC e
                Parliamentary committee
                      40
                         o        658
                                      o                                          UNESCO
                                                                                     ...
                                                                                                   
     q = [0, . . . , 0,                                                              12) ad
                                                                                                            
                          1   , 0, . . . , 0,   1   , 0, . . . , 0]                                         
                                                                                                            
                                                                                                            
                                                                                                            
                                    T                                                ...
                                                                                                            
                                                                                                            
                                                                                                            
                                                                                     40) committ
                                                                                                            
                                                                                                            
                                                                                                            
                                                                                                            
                                                                                     ...                        T
          UNESCO: Thesaurus destinazione
                                                                                     658) parliament 
                                                                                                     
                                                                                                     
                                                                                                     
                                                                                     ...
                                                                                                            
                                                                                                            
               Parliamentary committees                                                                     
                                                                                     930) report
                                                                                                            
                         o           o
                                                                                                            
                                                                                                            
                      40         658                                                                        
                                                                                                            
     d = [0, . . . , 0,   1   , 0, . . . , 0,   1   , 0, . . . , 0]                  ...

                                     T

   Un Contesto Lessicale è un vettore di elementi binari/pesati
   [w1 , . . . , wT ],    dove   T       è la dimensione di un vocabolario.




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi                Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Un esempio di Rete Lessicale




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Mappatura tra thesauri




Le funzioni di           ranking          proposte (R )
      1
          Rappresentazione Lessicale: Distanza/Similarità di Levenshtein
          (minimo numero normalizzato di operazioni (inserimento, eliminazione o sostituzione di

          un singolo carattere) richiesto per trasformare una stringa in un'altra).

      2
          Contesto Lessicale: Distanza/Similarità del coseno e di Jaccard




      3
          Rete Lessicale: Graph Edit Distance/Similarità




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Support Vector Machines




Apprendimento automatico per l'information                                               retrieval

Uso dell'apprendimento automatico con due
nalità:

     scegliere da un thesaurus obiettivo un insieme
     di descrittori rilevanti per un termine
     appartenente a un thesaurus di partenza;

     ordinare (o meglio eseguire un               rank     di) tale
     sottoinsieme secondo la misura di similarità
     rispetto al termine sorgente.




     Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi     Analisi e mappatura di thesauri con l'apprendimento automatico
Support Vector Machines




Support Vector Machines lineari

Ogni esempio è descritto da un insieme di
caratteristiche x (un vettore)




Due classi di dati     yi = {−1, +1}


Iperpiano di decisione         w, b     trovato
ottimizzando una funzione quadratica:
minimizzare
                1
                  w T w tenendo conto del
          ∀ {(xi , yi )} , yi (w T x + b ) ≥ 1
                2
vincolo




Classicazione secondo la funzione
f (x ) = sign(w T x + b )


     Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Caso di studio




Caso di studio




 EUROVOC utilizzato
 come thesauro pivot




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Caso di studio




I thesauri

   Thesauri utilizzati da vari enti della comunità internazionale

                              Thesaurus            Numero di descrittori

                              Eurovoc                        6645
                              Eclas                          6352
                              Ett                            2522
                              Unesco                         4374




   Gold standard           forniti da esperti


            Mappatura                   Numero di esempi di             skos:exactMatch
            Eurovoc-Eclas                                         146
            Eurovoc-Ett                                            71
            Eurovoc-Unesco                                         99




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Individuazione dei concetti rilevanti

   Validazione incrociata ottenuta dall'implementazione delle SVM con
   tecnica    Leave-one-out

                                 tp                                                            tp
            Precision =                                                       Recall =
                              tp + fp                                                       tp + fn

      Uso altLabel           Peso parole          Uso vicini           Precision          Recall        Errore

              no                 binario                  no             83.27%          70.12%         5.80%
              si                 binario                  no             89.17%          70.12%         5.07%
              no                  tf-idf                  no             85.03%          71.21%         5.46%
              no                 binario                  si            100.00%          99.38%         0.08%
              si                  tf-idf                  no             90.50%          67.80%         5.19%
              si                 binario                  si            100.00%          98.92%         0.14%
              no                  tf-idf                  si            100.00%          99.38%         0.08%
              si                  tf-idf                  si            100.00%          99.38%         0.08%




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi        Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Individuazione dei concetti rilevanti

   Validazione incrociata ottenuta dall'implementazione delle SVM con
   tecnica    Leave-one-out

                                 tp                                                            tp
            Precision =                                                       Recall =
                              tp + fp                                                       tp + fn

      Uso altLabel           Peso parole          Uso vicini           Precision          Recall        Errore

              no                 binario                  no             83.27%          70.12%         5.80%
              si                 binario                  no             89.17%          70.12%         5.07%
              no                  tf-idf                  no             85.03%          71.21%         5.46%
              no                 binario                  si            100.00%          99.38%         0.08%
              si                  tf-idf                  no             90.50%          67.80%         5.19%
              si                 binario                  si            100.00%          98.92%         0.14%
              no                  tf-idf                  si            100.00%          99.38%         0.08%
              si                  tf-idf                  si            100.00%          99.38%         0.08%




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi        Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Individuazione delle mappature esatte

   Validazione incrociata ottenuta con                   k -fold (k = 3)



     Uso altLabel               Peso parole              Uso vicini          Precision Recall
              no                    binario                   no               86,02%              100%
               si                   binario                   no               96,77%              100%
              no                      tf-idf                  no               88,17%              100%
              no                    binario                   si               52,69%              100%
               si                     tf-idf                  no               93,55%              100%
               si                   binario                   si               54,84%              100%
              no                      tf-idf                  si               72,04%              100%
               si                     tf-idf                  si               92,47%              100%




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi     Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Individuazione delle mappature esatte

   Validazione incrociata ottenuta con                   k -fold (k = 3)



     Uso altLabel               Peso parole              Uso vicini          Precision Recall
              no                    binario                   no               86,02%              100%
               si                   binario                   no               96,77%              100%
              no                      tf-idf                  no               88,17%              100%
              no                    binario                   si               52,69%              100%
               si                     tf-idf                  no               93,55%              100%
               si                   binario                   si               54,84%              100%
              no                      tf-idf                  si               72,04%              100%
               si                     tf-idf                  si               92,47%              100%




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi     Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Conclusioni


         Traduzioni di thesauri in SKOS




         Rappresentazione semantica dei descrittori




         Metodo di mappatura mediante tecniche di                       information retrieval,
         utilizzando l'apprendimento automatico per il mapping




         Risultati incoraggianti




   Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico
Prestazioni




Sviluppi futuri


          Dierenti criteri di selezione delle caratteristiche di un descrittore




          Dierente descrizione della semantica di un termine

                 Gra



          Classicatori multiclasse per mapping di relazioni di equivalenza
          diverse




    Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi   Analisi e mappatura di thesauri con l'apprendimento automatico

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Thesis presentation slides

  • 1. Analisi e mappatura di thesauri mediante tecniche di apprendimento automatico Giacomo Bartoloni Relatore: Dr. Enrico Francesconi Università degli studi di Firenze 20 Luglio 2010 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 2. Lo scenario Lo scenario Accesso a banche dati eterogenee in un ambiente distribuito Cross-collection retrieval unica interfaccia per la denizione di interrogazioni per il recupero di documenti rilevanti da collezioni dierenti Prestazioni del retrieval In singole collezioni collegate alla disponibilità di un thesauro specico Cross-collection collegate alla interoperabilità tra i thesauri Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 3. Obbiettivo della tesi Obbiettivo della tesi Elaborare un metodo di mappatura automatica tra thesauri che faccia uso di tecniche di intelligenza articiale Stato dell'arte Mapping eettuato da esperti o con strumenti poco ecienti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 4. I thesauri Denizione di thesauro Un thesauro è un vocabolario controllato di termini strutturati gerarchicamente usato per l'indicizzazione e il recupero di informazioni all'interno di collezioni documentali composto da descrittori non descrittori relazioni semantiche (BT, NT, RT) denito dagli standard ISO2788, 1986 (1993 in versione italiana) ISO5964, 1985 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 5. SKOS Simple Knowledge Organization System Cos'è SKOS - Simple Knowledge Organization System linguaggio formale per la rappresentazione di tassonomie e vocabolari controllati SWDWG @ W3C nel Febbraio 2003 Working draft nel Maggio 2005 (SKOS 2005) Recommendation nell'Agosto 2009 (SKOS 2009) Dierenze SKOS 2005 - SKOS 2009 namespace e semantica delle proprietà di mappatura tra concetti eliminazione di alcune proprietà non necessarie Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 6. SKOS Modello di dati SKOS Concetto è l'unità fondamentale Descrizioni del concetto Proprietà per le relazioni semantiche skos:narrower skos:broader skos:related Schemi di concetti Proprietà per relazioni di equivalenza tra concetti di schemi dierenti skos:mappingRelation skos:closeMatch skos:exactMatch skos:broadMatch skos:narrowMatch skos:relatedMatch Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 7. SKOS SKOS per la codica dei thesauri Non esiste una metodologia condivisa per la traduzione a SKOS dei thesauri Creazione di due sottoclassi di skos:Concept con l'estensione a SKOS http://www.ittig.cnr.it/skos/skos- extensions Descriptor Microthesaurus Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 8. Mappatura tra thesauri Mappatura tra thesauri Specializzazione del Matching di schemi od ontologie Denizione Processo per l'identicazione dei termini, dei concetti e delle relazioni gerarchiche approssimativamente equivalenti Il problema si sposta sulla denizione di equivalenza tra concetti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 9. Mappatura tra thesauri Equivalenza tra concetti Equivalenza instance-based Due concetti sono considerati equivalenti se sono associati con o classicano lo stesso insieme di concetti Equivalenza schema-based Due concetti sono considerati equivalenti se esiste una similarità tra le loro caratteristiche Caso di studio Mappatura tra i termini dei thesauri dove è disponibile solo l'informazione relativa allo schema Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 10. Mappatura tra thesauri Caratterizzazione proposta Misurare la somiglianza concettuale o semantica tra un termine del thesauro origine e i termini candidati del thesauro destinazione, classicandoli secondo il grado di similarità TM IR Descrittore del thesauro sorgente ⇐⇒ Query Descrittori del thesauro destinazione ⇐⇒ Documenti attinenti Nuova formulazione Considerare la mappatura tra thesauri (MT ) come un problema di information retrieval (IR) MT ⇐⇒ IR Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 11. Mappatura tra thesauri Caratterizzazione formale di MT proposta MT = D , Q , F , R (qi , dj ) Dove D: viste logiche di un termine del thesaurus target (i documenti in una collezione, in IR) Q: viste logiche di un termine del thesaurus source (query da confrontare con i documenti di una collezione, in IR) F: l'ambiente di rappresentazione dei termini dei thesauri R (qi , dj ), qi ∈ Q , dj ∈ D : funzione di ranking, restituisce un ordinamento dei termini del thesauro target dj secondo la rilevanza rispetto ai termini del thesauro sorgente qi Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 12. Mappatura tra thesauri Rappresentazione lessicale e semantica di un termine Parole dierenti identicano lo stesso concetto stessa lingua (per es. `inquinamento', `contaminazione', `emissione tossica') lingue dierenti (per es. EUROVOC `water' (EN), `acqua' (IT)) Obbiettivo del MT : confrontare il signicato dei termini (la semantica) piuttosto che le rappresentazioni formali (lessicali) Ipotesi Più i termini sono caratterizzati semanticamente, meglio il sistema sarà in grado di confrontarne il signicato Come si rappresenta la semantica di un termine per il matching di thesauri basato sugli schemi? Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 13. Mappatura tra thesauri Le viste logiche proposte per i termini del thesauro sorgente (Q ) e destinazione (D ) La semantica di un termine è portata da: 1 le sue caratteristiche morfologiche 2 il contesto in cui il termine è usato 3 le relazioni con gli altri termini Proponiamo di rappresentare la semantica di un termine appartenente a un thesauro con: 1 la sua Rappresentazione Lessicale: stringhe (pre-processate) 2 il suo Contesto Lessicale: vettore di elementi binari/pesati (il termine stesso e alcuni collegati) 3 la sua Rete Lessicale: grafo di termini (i nodi sono i termini e gli archi le relazioni tra di essi) Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 14. Mappatura tra thesauri Un esempio di Rappresentazione Lessicale (Forma radice) Parliamentary committees → Parliament$ committee$ Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 15. Mappatura tra thesauri Un esempio di Contesto Lessicale EUROVOC: Thesaurus sorgente Vocabolario di EUROVOC e Parliamentary committee 40 o 658 o UNESCO ...  q = [0, . . . , 0, 12) ad  1 , 0, . . . , 0, 1 , 0, . . . , 0]     T ...    40) committ     ... T UNESCO: Thesaurus destinazione 658) parliament     ...   Parliamentary committees  930) report  o o   40 658   d = [0, . . . , 0, 1 , 0, . . . , 0, 1 , 0, . . . , 0] ... T Un Contesto Lessicale è un vettore di elementi binari/pesati [w1 , . . . , wT ], dove T è la dimensione di un vocabolario. Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 16. Mappatura tra thesauri Un esempio di Rete Lessicale Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 17. Mappatura tra thesauri Le funzioni di ranking proposte (R ) 1 Rappresentazione Lessicale: Distanza/Similarità di Levenshtein (minimo numero normalizzato di operazioni (inserimento, eliminazione o sostituzione di un singolo carattere) richiesto per trasformare una stringa in un'altra). 2 Contesto Lessicale: Distanza/Similarità del coseno e di Jaccard 3 Rete Lessicale: Graph Edit Distance/Similarità Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 18. Support Vector Machines Apprendimento automatico per l'information retrieval Uso dell'apprendimento automatico con due nalità: scegliere da un thesaurus obiettivo un insieme di descrittori rilevanti per un termine appartenente a un thesaurus di partenza; ordinare (o meglio eseguire un rank di) tale sottoinsieme secondo la misura di similarità rispetto al termine sorgente. Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 19. Support Vector Machines Support Vector Machines lineari Ogni esempio è descritto da un insieme di caratteristiche x (un vettore) Due classi di dati yi = {−1, +1} Iperpiano di decisione w, b trovato ottimizzando una funzione quadratica: minimizzare 1 w T w tenendo conto del ∀ {(xi , yi )} , yi (w T x + b ) ≥ 1 2 vincolo Classicazione secondo la funzione f (x ) = sign(w T x + b ) Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 20. Caso di studio Caso di studio EUROVOC utilizzato come thesauro pivot Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 21. Caso di studio I thesauri Thesauri utilizzati da vari enti della comunità internazionale Thesaurus Numero di descrittori Eurovoc 6645 Eclas 6352 Ett 2522 Unesco 4374 Gold standard forniti da esperti Mappatura Numero di esempi di skos:exactMatch Eurovoc-Eclas 146 Eurovoc-Ett 71 Eurovoc-Unesco 99 Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 22. Prestazioni Individuazione dei concetti rilevanti Validazione incrociata ottenuta dall'implementazione delle SVM con tecnica Leave-one-out tp tp Precision = Recall = tp + fp tp + fn Uso altLabel Peso parole Uso vicini Precision Recall Errore no binario no 83.27% 70.12% 5.80% si binario no 89.17% 70.12% 5.07% no tf-idf no 85.03% 71.21% 5.46% no binario si 100.00% 99.38% 0.08% si tf-idf no 90.50% 67.80% 5.19% si binario si 100.00% 98.92% 0.14% no tf-idf si 100.00% 99.38% 0.08% si tf-idf si 100.00% 99.38% 0.08% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 23. Prestazioni Individuazione dei concetti rilevanti Validazione incrociata ottenuta dall'implementazione delle SVM con tecnica Leave-one-out tp tp Precision = Recall = tp + fp tp + fn Uso altLabel Peso parole Uso vicini Precision Recall Errore no binario no 83.27% 70.12% 5.80% si binario no 89.17% 70.12% 5.07% no tf-idf no 85.03% 71.21% 5.46% no binario si 100.00% 99.38% 0.08% si tf-idf no 90.50% 67.80% 5.19% si binario si 100.00% 98.92% 0.14% no tf-idf si 100.00% 99.38% 0.08% si tf-idf si 100.00% 99.38% 0.08% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 24. Prestazioni Individuazione delle mappature esatte Validazione incrociata ottenuta con k -fold (k = 3) Uso altLabel Peso parole Uso vicini Precision Recall no binario no 86,02% 100% si binario no 96,77% 100% no tf-idf no 88,17% 100% no binario si 52,69% 100% si tf-idf no 93,55% 100% si binario si 54,84% 100% no tf-idf si 72,04% 100% si tf-idf si 92,47% 100% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 25. Prestazioni Individuazione delle mappature esatte Validazione incrociata ottenuta con k -fold (k = 3) Uso altLabel Peso parole Uso vicini Precision Recall no binario no 86,02% 100% si binario no 96,77% 100% no tf-idf no 88,17% 100% no binario si 52,69% 100% si tf-idf no 93,55% 100% si binario si 54,84% 100% no tf-idf si 72,04% 100% si tf-idf si 92,47% 100% Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 26. Prestazioni Conclusioni Traduzioni di thesauri in SKOS Rappresentazione semantica dei descrittori Metodo di mappatura mediante tecniche di information retrieval, utilizzando l'apprendimento automatico per il mapping Risultati incoraggianti Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico
  • 27. Prestazioni Sviluppi futuri Dierenti criteri di selezione delle caratteristiche di un descrittore Dierente descrizione della semantica di un termine Gra Classicatori multiclasse per mapping di relazioni di equivalenza diverse Giacomo Bartoloni, Relatore: Dr. Enrico Francesconi Analisi e mappatura di thesauri con l'apprendimento automatico