Seminario IBM - 17 set 09

STaR: a Social Tag
Recommender
@ECML/PKDD Discovery Challenge 2009
Bled (Slovenia) - Settembre 09

Cataldo Musto

mercoledì 16 settembre 2009

ECML/PKDD Discovery Challenge 2009

• Discovery Challenge

• Competizione collaterale alla conferenza

• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag
Recommendation

• Dominio: www.bibsonomy.org

• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla
piattaforma

Social Tagging
• Nel contesto del Web 2.0 si sta assistendo a una
sempre maggiore diffusione dei sistemi di Tagging
Collaborativo

• es) Flickr (www.ﬂickr.com) , Delicious (http://
del.icio.us) , Bibsonomy (www.bibsonomy.org) ,
ecc.

• Un utente fruisce di una risorsa (testuale o
multimediale) e la annota con dei termini ritenuti
adatti a descriverne il contenuto sulla base del
proprio modello mentale

• Questa attività di annotazione collaborativa
permette di associare un insieme di tag
liberamente deﬁnito dagli utenti a ciascuna risorsa
fruibile sulla piattaforma. Questo insieme di tag è
detto folksonomia

Tag Cloud


Folksonomie
• Una folksonomia è un modello di rappresentazione delle
informazioni costruito liberamente dagli utenti in modo
collaborativo

• Vantaggi: Curva di apprendimento molto rapida, gli utenti
possono immediatamente modellare gli oggetti utilizzando il
proprio lessico, facilità di ritrovamento dell’informazione

• Svantaggi: La rappresentazione delle informazioni nelle
folksonomie avviene in maniera puramente sintattica

• Problemi di sinonimia, polisemia e rappresentazione su differenti
livelli di astrazione

• es) Oggetti annotati con il tag “Apple” o “Rinascimento”

Tag Recommender
• Componente che si occupa di ﬁltrare lo spazio dei tag
suggerendo all’utente quelli più adatti a modellare una certa
risorsa

• Vantaggi: Condivisione del lessico, velocizzazione della tag
convergence, riduzione dei problemi di sinonimia, polisemia,
ecc.

• Modello di raccomandazione:
• Analisi del comportamento dell’utente
• Analisi del comportamento della comunità
• Analisi del contenuto

STaR: a Social Tag
Recommender
• Concetti chiave
• Risorse “simili” possono essere modellate con tag
simili
• I tag precedentemente usati dall’utente per
modellare una certa classe di risorse devono essere
valorizzati nei meccanismi di raccomandazione


STaR: a Social Tag
Recommender
• Modello di raccomandazione
• Preprocessing
• Indicizzazione di contenuti precedentemente taggati
• Filtraggio
• Ritrovamento di contenuti “simili” a quello da taggare
• Estrazione delle folksonomie sulle risorse simili
• Fusione delle folksonomie e pesatura dei tag
• Ordinamento e ﬁltraggio dei tag candidati

Architettura


Preprocessing
• Indexer

• basato su Apache Lucene

• costruisce un indice personale per ciascun utente e un indice della comunità

• Query Processor

• si prende carico della risorsa da taggare

• processa la risorsa estraendo i metadati testuali necessari (titolo della
pagina, descrizione, ecc.)

• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente,
ecc.)

• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità


Scenario, step 1
• Sostituzione della
funzione di
similarità di Lucene
con una
implementazione
Java della BM25

• Interpretazione
“probabilistica” del
modello di pesatura
TF/IDF


Filtering
• Tag Extractor

• estrae le folksonomie per ciascuna delle
risorse simili restituite dall’Indice Personale e
dall’Indice Sociale

• fonde le folksonomie assegnando a ciascun tag
uno score

• direttamente proporzionale al numero di
occorrenze e alla similarità della risorsa
sorgente

• pesato a seconda che il tag provenga dalla
componente personale o sociale

• Filter

• ﬁltra i tag che non raggiungono uno score
sufﬁciente e restituisce le raccomandazioni

Scenario, step 2


Discovery Challenge
• Test Set
• sorgente: www.bibsonomy.org
• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti
• 48 ore per produrre i risultati
• Metriche di riferimento: Precision,
Recall, F1-Measure

• calcolate sui primi cinque tag

• 16 diversi partecipanti

• 13 nazioni


Risultati

http://www.kde.cs.uni-kassel.de/ws/dc09/results/

Conclusioni
• Lo sviluppo di STaR è nato per scopi puramente didattici

• Confronto con gli altri partecipanti della Challenge

• Viaggio in Slovenia :)

• La validità del primo prototipo permette di delineare degli sviluppi futuri

• Il prototipo manca di una componente di estrazione automatica di tag a partire dal
contenuto.

• Applicazioni di STaR

• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali

• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente

• Migliore accuratezza in componenti di personalizzazione tag-based

• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo
produce profili più efficaci che portano a raccomandazioni migliori


Recommender System
e Personalizzazione
Sviluppi futuri

Cataldo Musto


Sviluppi futuri

• Miglioramento dei modelli di ﬁltraggio
• Utilizzo di Linked Data
• Analisi dei Social Media per la
personalizzazione
• Interoperabilità di Proﬁli Utente


Miglioramento dei
modelli di filtraggio
• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di
Lucene invitano a riflettere

• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni
eccessive nei meccanismi di rappresentazione dei documenti

• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo
probabilistico o orientati a far emergere la caratterizzazione semantica latente
dei documenti

• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent
Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic
Vectors (legata ai principi della meccanica quantistica)

• L’utilizzo di queste tecniche in ambito di Information Filtering è senza
dubbio da investigare


Utilizzo di Linked Data

• Termine coniato da Tim Berners-Lee
• Denota dati rilasciati dagli utenti e modellati
seguendo RDF o degli speciﬁci microformati
• Garantisce interoperabilità e reasoning tra dati
• L’esempio più importante è DBPedia
• Un piccolo passo verso il Semantic Web

Linked Data


Linked Data e
Recommender Systems
• Gli approcci più comuni alla raccomandazione sono legati
a interpretazioni di tipo probabilistico/frequentista

• es) Quante più volte un certo termine appare in
elementi graditi, tanto più è probabile che siano graditi
altri elementi simili a questo

• Problemi tipici: ridotta serendipità nelle
raccomandazioni

• L’integrazione di Linked Data potrebbe attivare dei
meccanismi di reasoning più rafﬁnati per arricchire il
proﬁlo con termini con termini correlati o classi più
astratte

Analisi dei Social Media
• L’elicitazione delle preferenze dell’utente è uno degli
aspetti più delicati legati alla personalizzazione e
ﬁltraggio

• L’utente spesso è poco motivato ad espletare
procedure di addestramento (es. votare un insieme
di ﬁlm)

• I meccanismi di elicitazione impliciti (es.
osservazione del comportamento, analisi dei click,
ecc.) spesso ci forniscono dati troppo rumorosi

• La continua crescita dei Social Media
fornisce uno spunto per ovviare a
queste problematiche


Analisi dei Social Media (2)



• I dati disponibili su queste piattaforme rappresentano un
buon compromesso

• Sono dati reali, perchè prodotti liberamente dagli utenti

• Forniscono informazioni esplicite sulle preferenze

• Acquisire e processare questi dati può portare a
miglioramenti nella costruzione dei proﬁli e nella
generazione di raccomandazioni valide


Interoperabilità tra profili utente
• I modelli attuali di raccomandazione non sono ancora così efficaci da
permettere la costruzione di un recommender “universale”

• Le informazioni acquisite in uno specifico dominio, però, possono
anche essere riutilizzate in altri ambiti

• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre
all’utente un viaggio

• es) Una buona recensione di un libro sulla fotografia potrebbe
suggerire di proporre all’utente degli accessori

• Cross-Domain Personalization

Cross-Domain Personalization

• Alcune tendenze recenti sottolineano l’utilità di investire in
questo ambito (es. OpenID)

• L’obiettivo a lungo termine è quello di creare un’unica
“identità” per utente in cui integrare tutte le informazioni

• In contesti di filtragigo e personalizzazione, questi scopi
possono essere raggiunti in più modi

• Costruzione di profili analoghi

• Utilizzo di Standard per la Profilazione


APML (www.apml.org)
• APML (www.apml.org)
• Attention Profiling Markup Language
• Linguaggio di modellazione XML-based
• Orientato alla costruzione di “profili di attenzione”
• Racchiude dati “impliciti” ed “espliciti” sulle attività
degli utenti in Rete
• Molto utile per scopi di filtraggio e
personalizzazione

APML (www.apml.org)


ﬁne


Seminario IBM - 17 set 09

Recommandé

Recommandé

Contenu connexe

Similaire à Seminario IBM - 17 set 09

Similaire à Seminario IBM - 17 set 09 (20)

Plus de Cataldo Musto

Plus de Cataldo Musto (20)

Seminario IBM - 17 set 09