1. STaR: a Social Tag
Recommender
@ECML/PKDD Discovery Challenge 2009
Bled (Slovenia) - Settembre 09
Cataldo Musto
mercoledì 16 settembre 2009
2. ECML/PKDD Discovery Challenge 2009
• Discovery Challenge
• Competizione collaterale alla conferenza
• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag
Recommendation
• Dominio: www.bibsonomy.org
• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla
piattaforma
mercoledì 16 settembre 2009
3. Social Tagging
• Nel contesto del Web 2.0 si sta assistendo a una
sempre maggiore diffusione dei sistemi di Tagging
Collaborativo
• es) Flickr (www.flickr.com) , Delicious (http://
del.icio.us) , Bibsonomy (www.bibsonomy.org) ,
ecc.
• Un utente fruisce di una risorsa (testuale o
multimediale) e la annota con dei termini ritenuti
adatti a descriverne il contenuto sulla base del
proprio modello mentale
• Questa attività di annotazione collaborativa
permette di associare un insieme di tag
liberamente definito dagli utenti a ciascuna risorsa
fruibile sulla piattaforma. Questo insieme di tag è
detto folksonomia
mercoledì 16 settembre 2009
5. Folksonomie
• Una folksonomia è un modello di rappresentazione delle
informazioni costruito liberamente dagli utenti in modo
collaborativo
• Vantaggi: Curva di apprendimento molto rapida, gli utenti
possono immediatamente modellare gli oggetti utilizzando il
proprio lessico, facilità di ritrovamento dell’informazione
• Svantaggi: La rappresentazione delle informazioni nelle
folksonomie avviene in maniera puramente sintattica
• Problemi di sinonimia, polisemia e rappresentazione su differenti
livelli di astrazione
• es) Oggetti annotati con il tag “Apple” o “Rinascimento”
mercoledì 16 settembre 2009
6. Tag Recommender
• Componente che si occupa di filtrare lo spazio dei tag
suggerendo all’utente quelli più adatti a modellare una certa
risorsa
• Vantaggi: Condivisione del lessico, velocizzazione della tag
convergence, riduzione dei problemi di sinonimia, polisemia,
ecc.
• Modello di raccomandazione:
• Analisi del comportamento dell’utente
• Analisi del comportamento della comunità
• Analisi del contenuto
mercoledì 16 settembre 2009
7. STaR: a Social Tag
Recommender
• Concetti chiave
• Risorse “simili” possono essere modellate con tag
simili
• I tag precedentemente usati dall’utente per
modellare una certa classe di risorse devono essere
valorizzati nei meccanismi di raccomandazione
mercoledì 16 settembre 2009
8. STaR: a Social Tag
Recommender
• Modello di raccomandazione
• Preprocessing
• Indicizzazione di contenuti precedentemente taggati
• Filtraggio
• Ritrovamento di contenuti “simili” a quello da taggare
• Estrazione delle folksonomie sulle risorse simili
• Fusione delle folksonomie e pesatura dei tag
• Ordinamento e filtraggio dei tag candidati
mercoledì 16 settembre 2009
10. Preprocessing
• Indexer
• basato su Apache Lucene
• costruisce un indice personale per ciascun utente e un indice della comunità
• Query Processor
• si prende carico della risorsa da taggare
• processa la risorsa estraendo i metadati testuali necessari (titolo della
pagina, descrizione, ecc.)
• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente,
ecc.)
• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità
mercoledì 16 settembre 2009
11. Scenario, step 1
• Sostituzione della
funzione di
similarità di Lucene
con una
implementazione
Java della BM25
• Interpretazione
“probabilistica” del
modello di pesatura
TF/IDF
mercoledì 16 settembre 2009
13. Filtering
• Tag Extractor
• estrae le folksonomie per ciascuna delle
risorse simili restituite dall’Indice Personale e
dall’Indice Sociale
• fonde le folksonomie assegnando a ciascun tag
uno score
• direttamente proporzionale al numero di
occorrenze e alla similarità della risorsa
sorgente
• pesato a seconda che il tag provenga dalla
componente personale o sociale
• Filter
• filtra i tag che non raggiungono uno score
sufficiente e restituisce le raccomandazioni
mercoledì 16 settembre 2009
15. Discovery Challenge
• Test Set
• sorgente: www.bibsonomy.org
• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti
• 48 ore per produrre i risultati
• Metriche di riferimento: Precision,
Recall, F1-Measure
• calcolate sui primi cinque tag
• 16 diversi partecipanti
• 13 nazioni
mercoledì 16 settembre 2009
16. Risultati
http://www.kde.cs.uni-kassel.de/ws/dc09/results/
mercoledì 16 settembre 2009
17. Conclusioni
• Lo sviluppo di STaR è nato per scopi puramente didattici
• Confronto con gli altri partecipanti della Challenge
• Viaggio in Slovenia :)
• La validità del primo prototipo permette di delineare degli sviluppi futuri
• Il prototipo manca di una componente di estrazione automatica di tag a partire dal
contenuto.
• Applicazioni di STaR
• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali
• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente
• Migliore accuratezza in componenti di personalizzazione tag-based
• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo
produce profili più efficaci che portano a raccomandazioni migliori
mercoledì 16 settembre 2009
18. Recommender System
e Personalizzazione
Sviluppi futuri
Cataldo Musto
mercoledì 16 settembre 2009
19. Sviluppi futuri
• Miglioramento dei modelli di filtraggio
• Utilizzo di Linked Data
• Analisi dei Social Media per la
personalizzazione
• Interoperabilità di Profili Utente
mercoledì 16 settembre 2009
20. Miglioramento dei
modelli di filtraggio
• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di
Lucene invitano a riflettere
• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni
eccessive nei meccanismi di rappresentazione dei documenti
• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo
probabilistico o orientati a far emergere la caratterizzazione semantica latente
dei documenti
• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent
Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic
Vectors (legata ai principi della meccanica quantistica)
• L’utilizzo di queste tecniche in ambito di Information Filtering è senza
dubbio da investigare
mercoledì 16 settembre 2009
21. Utilizzo di Linked Data
• Termine coniato da Tim Berners-Lee
• Denota dati rilasciati dagli utenti e modellati
seguendo RDF o degli specifici microformati
• Garantisce interoperabilità e reasoning tra dati
• L’esempio più importante è DBPedia
• Un piccolo passo verso il Semantic Web
mercoledì 16 settembre 2009
23. Linked Data e
Recommender Systems
• Gli approcci più comuni alla raccomandazione sono legati
a interpretazioni di tipo probabilistico/frequentista
• es) Quante più volte un certo termine appare in
elementi graditi, tanto più è probabile che siano graditi
altri elementi simili a questo
• Problemi tipici: ridotta serendipità nelle
raccomandazioni
• L’integrazione di Linked Data potrebbe attivare dei
meccanismi di reasoning più raffinati per arricchire il
profilo con termini con termini correlati o classi più
astratte
mercoledì 16 settembre 2009
24. Analisi dei Social Media
• L’elicitazione delle preferenze dell’utente è uno degli
aspetti più delicati legati alla personalizzazione e
filtraggio
• L’utente spesso è poco motivato ad espletare
procedure di addestramento (es. votare un insieme
di film)
• I meccanismi di elicitazione impliciti (es.
osservazione del comportamento, analisi dei click,
ecc.) spesso ci forniscono dati troppo rumorosi
• La continua crescita dei Social Media
fornisce uno spunto per ovviare a
queste problematiche
mercoledì 16 settembre 2009
27. Analisi dei Social Media (4)
• I dati disponibili su queste piattaforme rappresentano un
buon compromesso
• Sono dati reali, perchè prodotti liberamente dagli utenti
• Forniscono informazioni esplicite sulle preferenze
• Acquisire e processare questi dati può portare a
miglioramenti nella costruzione dei profili e nella
generazione di raccomandazioni valide
mercoledì 16 settembre 2009
28. Interoperabilità tra profili utente
• I modelli attuali di raccomandazione non sono ancora così efficaci da
permettere la costruzione di un recommender “universale”
• Le informazioni acquisite in uno specifico dominio, però, possono
anche essere riutilizzate in altri ambiti
• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre
all’utente un viaggio
• es) Una buona recensione di un libro sulla fotografia potrebbe
suggerire di proporre all’utente degli accessori
• Cross-Domain Personalization
mercoledì 16 settembre 2009
29. Cross-Domain Personalization
• Alcune tendenze recenti sottolineano l’utilità di investire in
questo ambito (es. OpenID)
• L’obiettivo a lungo termine è quello di creare un’unica
“identità” per utente in cui integrare tutte le informazioni
• In contesti di filtragigo e personalizzazione, questi scopi
possono essere raggiunti in più modi
• Costruzione di profili analoghi
• Utilizzo di Standard per la Profilazione
mercoledì 16 settembre 2009
30. APML (www.apml.org)
• APML (www.apml.org)
• Attention Profiling Markup Language
• Linguaggio di modellazione XML-based
• Orientato alla costruzione di “profili di attenzione”
• Racchiude dati “impliciti” ed “espliciti” sulle attività
degli utenti in Rete
• Molto utile per scopi di filtraggio e
personalizzazione
mercoledì 16 settembre 2009