Presentazione Picariello Vincenzo

Tecniche di Explicit Semantic Analysis per l'arricchimento di documenti attraverso concetti di Wikipedia Relatori: Dott. Lops Pasquale Prof. Semeraro Giovanni Dott. Musto Cataldo Laureando: Picariello Vincenzo

Outline Content-based Recommender systems FIRSt (Folksonomy-based Item Recommender System) Explicit Semantic Analysis Wikiprep Matrice Termini-Concetti Sperimentazione Conclusioni e sviluppi futuri 2/17

Content-basedRecSys Fornisce agli utenti item di possibile interesse sulla base del gradimento espresso in passato Informazioni circa gli oggetti Informazioni sugli utenti Features dell’item Sistema di Raccomandazione Item raccomandati Profilo Utente 3/17

Motivazioni FIRSt – Folksonomy-based Item Recommender System Modello di classificazione bayesiano Limiti rappresentazione keyword-based Scarsa sovrapposizione tra documenti e profili Descrizioni testuali associate agli items troppo sintetiche Idea Arricchimento semantico dei contenuti testuali Explicit Semantic Analysis (ESA) Rappresentazione della conoscenza di Wikipedia mediante matrice Termini-Concetti Arricchimento dei documenti mediante ESA ha dimostrato miglioramenti nel task di classificazione di testi 4/17

FIRSt FIRSt è un content-based recommender system Profile learner Recommender Approccio bayesiano P(ci|dj): probabilità che un documento dj appartenga alla categoria ci Teorema di Bayes 5/17

ExplicitSemanticAnalysis - 1 Wikipedia-based Semantic Interpretation for Natural Language Processing Gabrilovich and Markovitch (2009) 7/17

ExplicitSemanticAnalysis - 2 Utilizzare gli articoli di Wikipedia per rappresentare i concetti Ogni parola è rappresentata come un vettore di articoli di Wikipedia Articolo 2 word Articolo 1 Articolo N 8/17

Perché Wikipedia Conoscenza generale ed accurata Sempre aggiornata Corpus esteso Articolo ≈ Concetto Wikipedia ≈ Ontologia Categorie: nodi per organizzare gli articoli 9/17

Wikiprep - 1 Dump Wikipedia 12 marzo 2010 9.654.328 pagine in 27Gb Rimozione Redirect, individuazione Outlink e Inlink 4.909.224 Articoli in 14 Gb Euristiche Concetti troppo specifici Outlink Inlink Pagine di Disambiguazione, Categorie, Template Articoli brevi 10/17

Wikiprep - 2 L’applicazione delle euristiche precedenti su un totale di 4.909.224 articoli ha portato ai seguenti risultati. 11/17

Matrice Termini-Concetti - 1 0.00409 Finestra da 100 elementi > E_sup-E_inf = (0,86636-0,830043) = 0,036317 E_sup-E_inf = (0,840227-0,004882) = 0,835345 5%(C3) = 0,043318 12/17

Matrice Termini-Concetti - 2 Matrice Termini/Concetti La semantica di un frammento di testo è il vettore medio (centroide) della semantica delle sue parole Programming language Indonesia I have been in Java island 0,36 0,34 java island 0,70 Programming language [0,36] Indonesia [0,52] Java island 13/17

Estrazione dei primi N Esiste già <INDONESIA,0.17> allora <INDONESIA,0.17+0.35=0.52> Arricchimento di documenti Sia BOW(doc) = {java(0.5), island (0.5)} Sia BOW(doc) = {java(0.5), island (0.5), indonesia (0.52)} <PRLANG,0.18> <INDONESIA,0.52> <INDONESIA,0.17> <PRLANG,0.18> 14/17

Sperimentazione ,[object Object]

520 film, 613 utenti, rating : <UserID,movieID,{1..5}>

Film rappresentato da diverse features

Presentazione Picariello Vincenzo

Recommandé

Recommandé

Contenu connexe

Similaire à Presentazione Picariello Vincenzo

Similaire à Presentazione Picariello Vincenzo (20)

Dernier

Dernier (6)

Presentazione Picariello Vincenzo