Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Presentazione Picariello Vincenzo
1. Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia Relatori: Dott. Lops Pasquale Prof. Semeraro Giovanni Dott. Musto Cataldo Laureando: Picariello Vincenzo
2. Outline Content-based Recommender systems FIRSt (Folksonomy-based Item Recommender System) Explicit Semantic Analysis Wikiprep Matrice Termini-Concetti Sperimentazione Conclusioni e sviluppi futuri 2/17
3. Content-basedRecSys Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato Informazioni circa gli oggetti Informazioni sugli utenti Features dell’item Sistema di Raccomandazione Item raccomandati Profilo Utente 3/17
4. Motivazioni FIRSt – Folksonomy-based Item Recommender System Modello di classificazione bayesiano Limiti rappresentazione keyword-based Scarsa sovrapposizione tra documenti e profili Descrizioni testuali associate agli items troppo sintetiche Idea Arricchimento semantico dei contenuti testuali Explicit Semantic Analysis (ESA) Rappresentazione della conoscenza di Wikipedia mediante matrice Termini-Concetti Arricchimento dei documenti mediante ESA ha dimostrato miglioramenti nel task di classificazione di testi 4/17
5. FIRSt FIRSt è un content-based recommender system Profile learner Recommender Approccio bayesiano P(ci|dj): probabilità che un documento dj appartenga alla categoria ci Teorema di Bayes 5/17
7. ExplicitSemanticAnalysis - 1 Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and Markovitch (2009) 7/17
8. ExplicitSemanticAnalysis - 2 Utilizzare gli articoli di Wikipedia per rappresentare i concetti Ogni parola è rappresentata come un vettore di articoli di Wikipedia Articolo 2 word Articolo 1 Articolo N 8/17
9. Perché Wikipedia Conoscenza generale ed accurata Sempre aggiornata Corpus esteso Articolo ≈ Concetto Wikipedia ≈ Ontologia Categorie: nodi per organizzare gli articoli 9/17
10. Wikiprep - 1 Dump Wikipedia 12 marzo 2010 9.654.328 pagine in 27Gb Rimozione Redirect, individuazione Outlink e Inlink 4.909.224 Articoli in 14 Gb Euristiche Concetti troppo specifici Outlink Inlink Pagine di Disambiguazione, Categorie, Template Articoli brevi 10/17
11. Wikiprep - 2 L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti risultati. 11/17
13. Matrice Termini-Concetti - 2 Matrice Termini/Concetti La semantica di un frammento di testo è il vettore medio (centroide) della semantica delle sue parole Programming language Indonesia I have been in Java island 0,36 0,34 java island 0,70 Programming language [0,36] Indonesia [0,52] Java island 13/17
14. Estrazione dei primi N Esiste già <INDONESIA,0.17> allora <INDONESIA,0.17+0.35=0.52> Arricchimento di documenti Sia BOW(doc) = {java(0.5), island (0.5)} Sia BOW(doc) = {java(0.5), island (0.5), indonesia (0.52)} <PRLANG,0.18> <INDONESIA,0.52> <INDONESIA,0.17> <PRLANG,0.18> 14/17
26. Conclusioni e Sviluppi futuri Arricchire la rappresentazione dei documenti attraverso concetti di Wikipedia Miglioramenti in termini di Precision del sistema Sviluppi futuri Feature Selection Applicare il multi-resolution approach per l’arricchimento Integrare il profilo nel modello dei Linked Data 17/17