SlideShare une entreprise Scribd logo
1  sur  17
Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia  Relatori: Dott. Lops Pasquale 	     Prof. Semeraro Giovanni 	     Dott. Musto Cataldo Laureando: Picariello Vincenzo
Outline Content-based Recommender systems FIRSt (Folksonomy-based Item Recommender System) Explicit Semantic Analysis  Wikiprep Matrice Termini-Concetti Sperimentazione Conclusioni e sviluppi futuri 2/17
Content-basedRecSys Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato Informazioni circa gli oggetti Informazioni sugli utenti Features dell’item Sistema di Raccomandazione Item raccomandati Profilo Utente 3/17
Motivazioni FIRSt – Folksonomy-based Item Recommender System Modello di classificazione bayesiano Limiti rappresentazione keyword-based Scarsa sovrapposizione tra documenti e profili Descrizioni testuali associate agli items troppo sintetiche Idea Arricchimento semantico  dei contenuti testuali Explicit Semantic Analysis (ESA) Rappresentazione della conoscenza di Wikipedia mediante matrice Termini-Concetti Arricchimento dei documenti mediante ESA ha dimostrato miglioramenti nel task di classificazione di testi 4/17
FIRSt FIRSt è un content-based recommender system Profile learner Recommender Approccio bayesiano P(ci|dj): probabilità che un documento dj appartenga alla categoria ci Teorema di Bayes 5/17
FIRSt 6/17
ExplicitSemanticAnalysis - 1 Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and Markovitch (2009) 7/17
ExplicitSemanticAnalysis - 2 Utilizzare gli articoli di Wikipedia per rappresentare i concetti Ogni parola è rappresentata come un vettore di articoli di Wikipedia Articolo 2 word Articolo 1 Articolo N 8/17
Perché Wikipedia Conoscenza generale ed accurata Sempre aggiornata Corpus esteso Articolo ≈ Concetto Wikipedia ≈ Ontologia Categorie: nodi per organizzare gli articoli 9/17
Wikiprep - 1 Dump Wikipedia 12 marzo 2010 9.654.328 pagine in 27Gb Rimozione Redirect, individuazione Outlink e Inlink 4.909.224 Articoli in 14 Gb	 Euristiche Concetti troppo specifici Outlink Inlink Pagine di Disambiguazione, Categorie, Template Articoli brevi 10/17
Wikiprep - 2 L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti risultati. 11/17
Matrice Termini-Concetti - 1 0.00409 Finestra da 100 elementi > E_sup-E_inf = (0,86636-0,830043) = 0,036317 E_sup-E_inf = (0,840227-0,004882) = 0,835345 5%(C3) = 0,043318 12/17
Matrice Termini-Concetti - 2 Matrice Termini/Concetti 					La semantica di un frammento di testo è il  					vettore medio (centroide) della semantica 					delle sue parole Programming language Indonesia I have been in Java island 0,36 0,34 java island 0,70 Programming language [0,36] Indonesia [0,52] Java island 13/17
Estrazione dei primi N Esiste già <INDONESIA,0.17> allora <INDONESIA,0.17+0.35=0.52> Arricchimento di documenti Sia BOW(doc) = {java(0.5), island (0.5)}  Sia BOW(doc) = {java(0.5), island (0.5), indonesia (0.52)}  <PRLANG,0.18> <INDONESIA,0.52> <INDONESIA,0.17> <PRLANG,0.18> 14/17
Sperimentazione ,[object Object]
520 film, 613 utenti, rating : <UserID,movieID,{1..5}>
Film rappresentato da diverse features

Contenu connexe

Similaire à Presentazione Picariello Vincenzo

Social Media Technologies, Part B of 2
Social Media Technologies, Part B of 2Social Media Technologies, Part B of 2
Social Media Technologies, Part B of 2Paolo Nesi
 
Il kit del perfetto tesista
Il kit del perfetto tesistaIl kit del perfetto tesista
Il kit del perfetto tesistabibliobioing
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...libriedocumenti
 
Corso risorse elettroniche per la ricerca 2 edizione
Corso risorse elettroniche per la ricerca 2 edizioneCorso risorse elettroniche per la ricerca 2 edizione
Corso risorse elettroniche per la ricerca 2 edizionebibliobioing
 
Biblioteconomia web 201010
Biblioteconomia web 201010Biblioteconomia web 201010
Biblioteconomia web 201010Lucia Bertini
 
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Paolo Nesi
 
I servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusI servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusNet7
 
I dati strutturati in Wordpress
I dati strutturati in WordpressI dati strutturati in Wordpress
I dati strutturati in WordpressStefano Torselli
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenziosimonardi
 
SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata  SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata KohaGruppoItaliano
 
Google Tips
Google TipsGoogle Tips
Google TipsTellima
 
Sviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activitySviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activityMichele Palumbo
 
Un tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e socialiUn tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e socialiFabio Rinnone
 
Lezione 8 Il Web Semantico
Lezione 8   Il Web SemanticoLezione 8   Il Web Semantico
Lezione 8 Il Web SemanticoStefano Epifani
 
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...Monica Daniele
 
ProQuest SciTech Collection Milano 19.9
ProQuest SciTech Collection Milano 19.9ProQuest SciTech Collection Milano 19.9
ProQuest SciTech Collection Milano 19.9ProQuest
 

Similaire à Presentazione Picariello Vincenzo (20)

Strategie Per Un Lor Federato
Strategie Per Un Lor FederatoStrategie Per Un Lor Federato
Strategie Per Un Lor Federato
 
Social Media Technologies, Part B of 2
Social Media Technologies, Part B of 2Social Media Technologies, Part B of 2
Social Media Technologies, Part B of 2
 
Il kit del perfetto tesista
Il kit del perfetto tesistaIl kit del perfetto tesista
Il kit del perfetto tesista
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
 
Corso risorse elettroniche per la ricerca 2 edizione
Corso risorse elettroniche per la ricerca 2 edizioneCorso risorse elettroniche per la ricerca 2 edizione
Corso risorse elettroniche per la ricerca 2 edizione
 
Biblioteconomia web 201010
Biblioteconomia web 201010Biblioteconomia web 201010
Biblioteconomia web 201010
 
Tesi garasi
Tesi garasiTesi garasi
Tesi garasi
 
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
 
I servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusI servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAus
 
I dati strutturati in Wordpress
I dati strutturati in WordpressI dati strutturati in Wordpress
I dati strutturati in Wordpress
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenzio
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenzio
 
SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata  SKOS, Nuovo Soggettario e Wikidata
SKOS, Nuovo Soggettario e Wikidata
 
Google Tips
Google TipsGoogle Tips
Google Tips
 
Sviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activitySviluppo di un Framework semantico per la contestualizzazione delle activity
Sviluppo di un Framework semantico per la contestualizzazione delle activity
 
Un tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e socialiUn tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e sociali
 
Lezione 8 Il Web Semantico
Lezione 8   Il Web SemanticoLezione 8   Il Web Semantico
Lezione 8 Il Web Semantico
 
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...
Intelligent Question Answering System nell'ambito del progetto di ricerca PIU...
 
Open Data for KnowDive Group
Open Data for KnowDive GroupOpen Data for KnowDive Group
Open Data for KnowDive Group
 
ProQuest SciTech Collection Milano 19.9
ProQuest SciTech Collection Milano 19.9ProQuest SciTech Collection Milano 19.9
ProQuest SciTech Collection Milano 19.9
 

Dernier

Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Associazione Digital Days
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Associazione Digital Days
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Associazione Digital Days
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Associazione Digital Days
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIinfogdgmi
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Associazione Digital Days
 

Dernier (6)

Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AI
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
 

Presentazione Picariello Vincenzo

  • 1. Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia Relatori: Dott. Lops Pasquale Prof. Semeraro Giovanni Dott. Musto Cataldo Laureando: Picariello Vincenzo
  • 2. Outline Content-based Recommender systems FIRSt (Folksonomy-based Item Recommender System) Explicit Semantic Analysis Wikiprep Matrice Termini-Concetti Sperimentazione Conclusioni e sviluppi futuri 2/17
  • 3. Content-basedRecSys Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato Informazioni circa gli oggetti Informazioni sugli utenti Features dell’item Sistema di Raccomandazione Item raccomandati Profilo Utente 3/17
  • 4. Motivazioni FIRSt – Folksonomy-based Item Recommender System Modello di classificazione bayesiano Limiti rappresentazione keyword-based Scarsa sovrapposizione tra documenti e profili Descrizioni testuali associate agli items troppo sintetiche Idea Arricchimento semantico dei contenuti testuali Explicit Semantic Analysis (ESA) Rappresentazione della conoscenza di Wikipedia mediante matrice Termini-Concetti Arricchimento dei documenti mediante ESA ha dimostrato miglioramenti nel task di classificazione di testi 4/17
  • 5. FIRSt FIRSt è un content-based recommender system Profile learner Recommender Approccio bayesiano P(ci|dj): probabilità che un documento dj appartenga alla categoria ci Teorema di Bayes 5/17
  • 7. ExplicitSemanticAnalysis - 1 Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and Markovitch (2009) 7/17
  • 8. ExplicitSemanticAnalysis - 2 Utilizzare gli articoli di Wikipedia per rappresentare i concetti Ogni parola è rappresentata come un vettore di articoli di Wikipedia Articolo 2 word Articolo 1 Articolo N 8/17
  • 9. Perché Wikipedia Conoscenza generale ed accurata Sempre aggiornata Corpus esteso Articolo ≈ Concetto Wikipedia ≈ Ontologia Categorie: nodi per organizzare gli articoli 9/17
  • 10. Wikiprep - 1 Dump Wikipedia 12 marzo 2010 9.654.328 pagine in 27Gb Rimozione Redirect, individuazione Outlink e Inlink 4.909.224 Articoli in 14 Gb Euristiche Concetti troppo specifici Outlink Inlink Pagine di Disambiguazione, Categorie, Template Articoli brevi 10/17
  • 11. Wikiprep - 2 L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti risultati. 11/17
  • 12. Matrice Termini-Concetti - 1 0.00409 Finestra da 100 elementi > E_sup-E_inf = (0,86636-0,830043) = 0,036317 E_sup-E_inf = (0,840227-0,004882) = 0,835345 5%(C3) = 0,043318 12/17
  • 13. Matrice Termini-Concetti - 2 Matrice Termini/Concetti La semantica di un frammento di testo è il vettore medio (centroide) della semantica delle sue parole Programming language Indonesia I have been in Java island 0,36 0,34 java island 0,70 Programming language [0,36] Indonesia [0,52] Java island 13/17
  • 14. Estrazione dei primi N Esiste già <INDONESIA,0.17> allora <INDONESIA,0.17+0.35=0.52> Arricchimento di documenti Sia BOW(doc) = {java(0.5), island (0.5)} Sia BOW(doc) = {java(0.5), island (0.5), indonesia (0.52)} <PRLANG,0.18> <INDONESIA,0.52> <INDONESIA,0.17> <PRLANG,0.18> 14/17
  • 15.
  • 16. 520 film, 613 utenti, rating : <UserID,movieID,{1..5}>
  • 17. Film rappresentato da diverse features
  • 19. Confronto tra 4 classi di profili
  • 21. Arricchimento 20, 50, 100 concetti Wikipedia
  • 22. 3Like (83% positivi) 3Dislike (56% positivi)
  • 25. Risultati Miglioramento della precision nei tre moduli di arricchimento. Arricchimento 20 concetti 16/17
  • 26. Conclusioni e Sviluppi futuri Arricchire la rappresentazione dei documenti attraverso concetti di Wikipedia Miglioramenti in termini di Precision del sistema Sviluppi futuri Feature Selection Applicare il multi-resolution approach per l’arricchimento Integrare il profilo nel modello dei Linked Data 17/17