SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
STaR: a Social Tag
                                Recommender
                              @ECML/PKDD Discovery Challenge 2009
                                  Bled (Slovenia) - Settembre 09




                                       Cataldo Musto

mercoledì 16 settembre 2009
ECML/PKDD Discovery Challenge 2009




               •     Discovery Challenge

                     •        Competizione collaterale alla conferenza

                              •   L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag
                                  Recommendation

                     •        Dominio: www.bibsonomy.org


                              •   Raccomandazione di tag per bookmark e BibTeX pubblicati sulla
                                  piattaforma
mercoledì 16 settembre 2009
Social Tagging
     •      Nel contesto del Web 2.0 si sta assistendo a una
            sempre maggiore diffusione dei sistemi di Tagging
            Collaborativo

           •      es) Flickr (www.flickr.com) , Delicious (http://
                  del.icio.us) , Bibsonomy (www.bibsonomy.org) ,
                  ecc.

           •      Un utente fruisce di una risorsa (testuale o
                  multimediale) e la annota con dei termini ritenuti
                  adatti a descriverne il contenuto sulla base del
                  proprio modello mentale

           •      Questa attività di annotazione collaborativa
                  permette di associare un insieme di tag
                  liberamente definito dagli utenti a ciascuna risorsa
                  fruibile sulla piattaforma. Questo insieme di tag è
                  detto folksonomia
mercoledì 16 settembre 2009
Tag Cloud




mercoledì 16 settembre 2009
Folksonomie
       •       Una folksonomia è un modello di rappresentazione delle
               informazioni costruito liberamente dagli utenti in modo
               collaborativo

             •       Vantaggi: Curva di apprendimento molto rapida, gli utenti
                     possono immediatamente modellare gli oggetti utilizzando il
                     proprio lessico, facilità di ritrovamento dell’informazione

             •       Svantaggi: La rappresentazione delle informazioni nelle
                     folksonomie avviene in maniera puramente sintattica

                   •          Problemi di sinonimia, polisemia e rappresentazione su differenti
                              livelli di astrazione

                   •          es) Oggetti annotati con il tag “Apple” o “Rinascimento”
mercoledì 16 settembre 2009
Tag Recommender
     •       Componente che si occupa di filtrare lo spazio dei tag
             suggerendo all’utente quelli più adatti a modellare una certa
             risorsa

           •       Vantaggi: Condivisione del lessico, velocizzazione della tag
                   convergence, riduzione dei problemi di sinonimia, polisemia,
                   ecc.

           • Modello di raccomandazione:
            • Analisi del comportamento dell’utente
            • Analisi del comportamento della comunità
            • Analisi del contenuto
mercoledì 16 settembre 2009
STaR: a Social Tag
                               Recommender
     • Concetti chiave
      • Risorse “simili” possono essere modellate con tag
                   simili
           • I tag precedentemente usati dall’utente per
                   modellare una certa classe di risorse devono essere
                   valorizzati nei meccanismi di raccomandazione



mercoledì 16 settembre 2009
STaR: a Social Tag
                               Recommender
     • Modello di raccomandazione
      • Preprocessing
        • Indicizzazione di contenuti precedentemente taggati
      • Filtraggio
        • Ritrovamento di contenuti “simili” a quello da taggare
        • Estrazione delle folksonomie sulle risorse simili
        • Fusione delle folksonomie e pesatura dei tag
        • Ordinamento e filtraggio dei tag candidati
mercoledì 16 settembre 2009
Architettura




mercoledì 16 settembre 2009
Preprocessing
      •       Indexer

            •       basato su Apache Lucene

            •       costruisce un indice personale per ciascun utente e un indice della comunità

      •       Query Processor

            •       si prende carico della risorsa da taggare

            •       processa la risorsa estraendo i metadati testuali necessari (titolo della
                    pagina, descrizione, ecc.)

            •       estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente,
                    ecc.)

            •       inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità

mercoledì 16 settembre 2009
Scenario, step 1
             •       Sostituzione della
                     funzione di
                     similarità di Lucene
                     con una
                     implementazione
                     Java della BM25

             •       Interpretazione
                     “probabilistica” del
                     modello di pesatura
                     TF/IDF


mercoledì 16 settembre 2009
Architettura




mercoledì 16 settembre 2009
Filtering
      •       Tag Extractor

            •       estrae le folksonomie per ciascuna delle
                    risorse simili restituite dall’Indice Personale e
                    dall’Indice Sociale

            •       fonde le folksonomie assegnando a ciascun tag
                    uno score

                  •       direttamente proporzionale al numero di
                          occorrenze e alla similarità della risorsa
                          sorgente

                  •       pesato a seconda che il tag provenga dalla
                          componente personale o sociale

      •       Filter

            •       filtra i tag che non raggiungono uno score
                    sufficiente e restituisce le raccomandazioni
mercoledì 16 settembre 2009
Scenario, step 2




mercoledì 16 settembre 2009
Discovery Challenge
                 • Test Set
                  • sorgente: www.bibsonomy.org
                  • 17.000 bookmark, 26.000 BibTeX, 1.600 utenti
                  • 48 ore per produrre i risultati
                  • Metriche di riferimento: Precision,
                              Recall, F1-Measure

                              •   calcolate sui primi cinque tag

                     •        16 diversi partecipanti

                     •        13 nazioni

mercoledì 16 settembre 2009
Risultati




                   http://www.kde.cs.uni-kassel.de/ws/dc09/results/
mercoledì 16 settembre 2009
Conclusioni
       •      Lo sviluppo di STaR è nato per scopi puramente didattici

             •      Confronto con gli altri partecipanti della Challenge

             •      Viaggio in Slovenia :)

       •      La validità del primo prototipo permette di delineare degli sviluppi futuri

             •      Il prototipo manca di una componente di estrazione automatica di tag a partire dal
                    contenuto.

       •      Applicazioni di STaR

             •      Miglioramento nell’efficacia della classificazione/browsing di documenti testuali

             •      Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente

             •      Migliore accuratezza in componenti di personalizzazione tag-based

                   •      Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo
                          produce profili più efficaci che portano a raccomandazioni migliori


mercoledì 16 settembre 2009
Recommender System
                     e Personalizzazione
                               Sviluppi futuri




                              Cataldo Musto

mercoledì 16 settembre 2009
Sviluppi futuri

                    • Miglioramento dei modelli di filtraggio
                    • Utilizzo di Linked Data
                    • Analisi dei Social Media per la
                              personalizzazione
                    • Interoperabilità di Profili Utente

mercoledì 16 settembre 2009
Miglioramento dei
                              modelli di filtraggio
     •       I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di
             Lucene invitano a riflettere

           •       Molti modelli, compresa la classica TF/IDF, portano a semplificazioni
                   eccessive nei meccanismi di rappresentazione dei documenti

           •       Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo
                   probabilistico o orientati a far emergere la caratterizzazione semantica latente
                   dei documenti

                 •       es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent
                         Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic
                         Vectors (legata ai principi della meccanica quantistica)

                 •       L’utilizzo di queste tecniche in ambito di Information Filtering è senza
                         dubbio da investigare

mercoledì 16 settembre 2009
Utilizzo di Linked Data

                 • Termine coniato da Tim Berners-Lee
                  • Denota dati rilasciati dagli utenti e modellati
                              seguendo RDF o degli specifici microformati
                       • Garantisce interoperabilità e reasoning tra dati
                       • L’esempio più importante è DBPedia
                 • Un piccolo passo verso il Semantic Web
mercoledì 16 settembre 2009
Linked Data




mercoledì 16 settembre 2009
Linked Data e
                 Recommender Systems
                 •       Gli approcci più comuni alla raccomandazione sono legati
                         a interpretazioni di tipo probabilistico/frequentista

                       •      es) Quante più volte un certo termine appare in
                              elementi graditi, tanto più è probabile che siano graditi
                              altri elementi simili a questo

                       •      Problemi tipici: ridotta serendipità nelle
                              raccomandazioni

                 •       L’integrazione di Linked Data potrebbe attivare dei
                         meccanismi di reasoning più raffinati per arricchire il
                         profilo con termini con termini correlati o classi più
                         astratte
mercoledì 16 settembre 2009
Analisi dei Social Media
                              •   L’elicitazione delle preferenze dell’utente è uno degli
                                  aspetti più delicati legati alla personalizzazione e
                                  filtraggio

                                  •   L’utente spesso è poco motivato ad espletare
                                      procedure di addestramento (es. votare un insieme
                                      di film)

                                  •   I meccanismi di elicitazione impliciti (es.
                                      osservazione del comportamento, analisi dei click,
                                      ecc.) spesso ci forniscono dati troppo rumorosi

                                  •   La continua crescita dei Social Media
                                      fornisce uno spunto per ovviare a
                                      queste problematiche

mercoledì 16 settembre 2009
Analisi dei Social Media (2)




mercoledì 16 settembre 2009
Analisi dei Social Media (3)




mercoledì 16 settembre 2009
Analisi dei Social Media (4)

           •       I dati disponibili su queste piattaforme rappresentano un
                   buon compromesso

                 •       Sono dati reali, perchè prodotti liberamente dagli utenti

                 •       Forniscono informazioni esplicite sulle preferenze

                 •       Acquisire e processare questi dati può portare a
                         miglioramenti nella costruzione dei profili e nella
                         generazione di raccomandazioni valide


mercoledì 16 settembre 2009
Interoperabilità tra profili utente
                 •       I modelli attuali di raccomandazione non sono ancora così efficaci da
                         permettere la costruzione di un recommender “universale”

                       •      Le informazioni acquisite in uno specifico dominio, però, possono
                              anche essere riutilizzate in altri ambiti

                       •      es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre
                              all’utente un viaggio

                       •      es) Una buona recensione di un libro sulla fotografia potrebbe
                              suggerire di proporre all’utente degli accessori

                       • Cross-Domain Personalization
mercoledì 16 settembre 2009
Cross-Domain Personalization

                       •      Alcune tendenze recenti sottolineano l’utilità di investire in
                              questo ambito (es. OpenID)

                       •      L’obiettivo a lungo termine è quello di creare un’unica
                              “identità” per utente in cui integrare tutte le informazioni

                       •      In contesti di filtragigo e personalizzazione, questi scopi
                              possono essere raggiunti in più modi

                              •   Costruzione di profili analoghi

                              •   Utilizzo di Standard per la Profilazione


mercoledì 16 settembre 2009
APML (www.apml.org)
     • APML (www.apml.org)
      • Attention Profiling Markup Language
      • Linguaggio di modellazione XML-based
      • Orientato alla costruzione di “profili di attenzione”
      • Racchiude dati “impliciti” ed “espliciti” sulle attività
                   degli utenti in Rete
           • Molto utile per scopi di filtraggio e
                   personalizzazione
mercoledì 16 settembre 2009
APML (www.apml.org)




mercoledì 16 settembre 2009
fine



mercoledì 16 settembre 2009

Contenu connexe

Similaire à Seminario IBM - 17 set 09

Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1
redazionispecialistiche
 
Svea ecollab-presentazione 2010.ppt
Svea ecollab-presentazione 2010.pptSvea ecollab-presentazione 2010.ppt
Svea ecollab-presentazione 2010.ppt
CSP Scarl
 
Soluzioni Microsoft per l'e-Learning
Soluzioni Microsoft per l'e-LearningSoluzioni Microsoft per l'e-Learning
Soluzioni Microsoft per l'e-Learning
DotNetMarche
 

Similaire à Seminario IBM - 17 set 09 (20)

Presentazione iws novembre 2015
Presentazione iws novembre 2015Presentazione iws novembre 2015
Presentazione iws novembre 2015
 
I servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusI servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAus
 
1 - Introduzione al corso 18/19
1 - Introduzione al corso 18/191 - Introduzione al corso 18/19
1 - Introduzione al corso 18/19
 
18 - Content sharing sites
18 - Content sharing sites18 - Content sharing sites
18 - Content sharing sites
 
Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1
 
Le fonti come classificarle e valutarle
Le fonti come classificarle e valutarleLe fonti come classificarle e valutarle
Le fonti come classificarle e valutarle
 
1 - Introduzione al corso 19/20
1 - Introduzione al corso 19/201 - Introduzione al corso 19/20
1 - Introduzione al corso 19/20
 
Svea ecollab-presentazione 2010.ppt
Svea ecollab-presentazione 2010.pptSvea ecollab-presentazione 2010.ppt
Svea ecollab-presentazione 2010.ppt
 
1 - Introduzione al corso 17/18
1 - Introduzione al corso 17/181 - Introduzione al corso 17/18
1 - Introduzione al corso 17/18
 
Informatica umanistica 2016 - 3
Informatica umanistica   2016 - 3Informatica umanistica   2016 - 3
Informatica umanistica 2016 - 3
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
Lezione 2-12 contenuti generati dagli utenti
Lezione 2-12 contenuti generati dagli utentiLezione 2-12 contenuti generati dagli utenti
Lezione 2-12 contenuti generati dagli utenti
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
C#, imparare a programmare e sopravvivere
C#, imparare a programmare e sopravvivereC#, imparare a programmare e sopravvivere
C#, imparare a programmare e sopravvivere
 
scratch_parte1.pptx
scratch_parte1.pptxscratch_parte1.pptx
scratch_parte1.pptx
 
Soluzioni Microsoft per l'e-Learning
Soluzioni Microsoft per l'e-LearningSoluzioni Microsoft per l'e-Learning
Soluzioni Microsoft per l'e-Learning
 
7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17
 
Meta lib guida-bureggio[1]
Meta lib guida-bureggio[1]Meta lib guida-bureggio[1]
Meta lib guida-bureggio[1]
 
Informatica umanistica 2016 - 4
Informatica umanistica   2016 - 4Informatica umanistica   2016 - 4
Informatica umanistica 2016 - 4
 

Plus de Cataldo Musto

Semantic Holistic User Modeling for Personalized Access to Digital Content an...
Semantic Holistic User Modeling for Personalized Access to Digital Content an...Semantic Holistic User Modeling for Personalized Access to Digital Content an...
Semantic Holistic User Modeling for Personalized Access to Digital Content an...
Cataldo Musto
 

Plus de Cataldo Musto (20)

MyrrorBot: a Digital Assistant Based on Holistic User Models for Personalize...
MyrrorBot: a Digital Assistant Based on Holistic User Models forPersonalize...MyrrorBot: a Digital Assistant Based on Holistic User Models forPersonalize...
MyrrorBot: a Digital Assistant Based on Holistic User Models for Personalize...
 
Fairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical EvaluationFairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
 
Intelligenza Artificiale e Social Media - Monitoraggio della Farnesina e La M...
Intelligenza Artificiale e Social Media - Monitoraggio della Farnesina e La M...Intelligenza Artificiale e Social Media - Monitoraggio della Farnesina e La M...
Intelligenza Artificiale e Social Media - Monitoraggio della Farnesina e La M...
 
Exploring the Effects of Natural Language Justifications in Food Recommender ...
Exploring the Effects of Natural Language Justifications in Food Recommender ...Exploring the Effects of Natural Language Justifications in Food Recommender ...
Exploring the Effects of Natural Language Justifications in Food Recommender ...
 
Exploiting Distributional Semantics Models for Natural Language Context-aware...
Exploiting Distributional Semantics Models for Natural Language Context-aware...Exploiting Distributional Semantics Models for Natural Language Context-aware...
Exploiting Distributional Semantics Models for Natural Language Context-aware...
 
Towards a Knowledge-aware Food Recommender System Exploiting Holistic User Mo...
Towards a Knowledge-aware Food Recommender System Exploiting Holistic User Mo...Towards a Knowledge-aware Food Recommender System Exploiting Holistic User Mo...
Towards a Knowledge-aware Food Recommender System Exploiting Holistic User Mo...
 
Towards Queryable User Profiles: Introducing Conversational Agents in a Platf...
Towards Queryable User Profiles: Introducing Conversational Agents in a Platf...Towards Queryable User Profiles: Introducing Conversational Agents in a Platf...
Towards Queryable User Profiles: Introducing Conversational Agents in a Platf...
 
Hybrid Semantics aware Recommendations Exploiting Knowledge Graph Embeddings
Hybrid Semantics aware Recommendations Exploiting Knowledge Graph EmbeddingsHybrid Semantics aware Recommendations Exploiting Knowledge Graph Embeddings
Hybrid Semantics aware Recommendations Exploiting Knowledge Graph Embeddings
 
Natural Language Justifications for Recommender Systems Exploiting Text Summa...
Natural Language Justifications for Recommender Systems Exploiting Text Summa...Natural Language Justifications for Recommender Systems Exploiting Text Summa...
Natural Language Justifications for Recommender Systems Exploiting Text Summa...
 
L'IA per l'Empowerment del Cittadino: Hate Map, Myrror, PA Risponde
L'IA per l'Empowerment del Cittadino: Hate Map, Myrror, PA RispondeL'IA per l'Empowerment del Cittadino: Hate Map, Myrror, PA Risponde
L'IA per l'Empowerment del Cittadino: Hate Map, Myrror, PA Risponde
 
Explanation Strategies - Advances in Content-based Recommender System
Explanation Strategies - Advances in Content-based Recommender SystemExplanation Strategies - Advances in Content-based Recommender System
Explanation Strategies - Advances in Content-based Recommender System
 
Justifying Recommendations through Aspect-based Sentiment Analysis of Users R...
Justifying Recommendations through Aspect-based Sentiment Analysis of Users R...Justifying Recommendations through Aspect-based Sentiment Analysis of Users R...
Justifying Recommendations through Aspect-based Sentiment Analysis of Users R...
 
ExpLOD: un framework per la generazione di spiegazioni per recommender system...
ExpLOD: un framework per la generazione di spiegazioni per recommender system...ExpLOD: un framework per la generazione di spiegazioni per recommender system...
ExpLOD: un framework per la generazione di spiegazioni per recommender system...
 
Myrror: una piattaforma per Holistic User Modeling e Quantified Self
Myrror: una piattaforma per Holistic User Modeling e Quantified SelfMyrror: una piattaforma per Holistic User Modeling e Quantified Self
Myrror: una piattaforma per Holistic User Modeling e Quantified Self
 
Semantic Holistic User Modeling for Personalized Access to Digital Content an...
Semantic Holistic User Modeling for Personalized Access to Digital Content an...Semantic Holistic User Modeling for Personalized Access to Digital Content an...
Semantic Holistic User Modeling for Personalized Access to Digital Content an...
 
Holistic User Modeling for Personalized Services in Smart Cities
Holistic User Modeling for Personalized Services in Smart CitiesHolistic User Modeling for Personalized Services in Smart Cities
Holistic User Modeling for Personalized Services in Smart Cities
 
A Framework for Holistic User Modeling Merging Heterogeneous Digital Footprints
A Framework for Holistic User Modeling Merging Heterogeneous Digital FootprintsA Framework for Holistic User Modeling Merging Heterogeneous Digital Footprints
A Framework for Holistic User Modeling Merging Heterogeneous Digital Footprints
 
eHealth, mHealth in Otorinolaringoiatria: innovazioni dirompenti o disastrose?
eHealth, mHealth in Otorinolaringoiatria: innovazioni dirompenti o disastrose?eHealth, mHealth in Otorinolaringoiatria: innovazioni dirompenti o disastrose?
eHealth, mHealth in Otorinolaringoiatria: innovazioni dirompenti o disastrose?
 
Semantics-aware Recommender Systems Exploiting Linked Open Data and Graph-bas...
Semantics-aware Recommender Systems Exploiting Linked Open Data and Graph-bas...Semantics-aware Recommender Systems Exploiting Linked Open Data and Graph-bas...
Semantics-aware Recommender Systems Exploiting Linked Open Data and Graph-bas...
 
Il Linguaggio dell'Odio sui Social Network
Il Linguaggio dell'Odio sui Social NetworkIl Linguaggio dell'Odio sui Social Network
Il Linguaggio dell'Odio sui Social Network
 

Seminario IBM - 17 set 09

  • 1. STaR: a Social Tag Recommender @ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09 Cataldo Musto mercoledì 16 settembre 2009
  • 2. ECML/PKDD Discovery Challenge 2009 • Discovery Challenge • Competizione collaterale alla conferenza • L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation • Dominio: www.bibsonomy.org • Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma mercoledì 16 settembre 2009
  • 3. Social Tagging • Nel contesto del Web 2.0 si sta assistendo a una sempre maggiore diffusione dei sistemi di Tagging Collaborativo • es) Flickr (www.flickr.com) , Delicious (http:// del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc. • Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale • Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia mercoledì 16 settembre 2009
  • 4. Tag Cloud mercoledì 16 settembre 2009
  • 5. Folksonomie • Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo • Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione • Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica • Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione • es) Oggetti annotati con il tag “Apple” o “Rinascimento” mercoledì 16 settembre 2009
  • 6. Tag Recommender • Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa • Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc. • Modello di raccomandazione: • Analisi del comportamento dell’utente • Analisi del comportamento della comunità • Analisi del contenuto mercoledì 16 settembre 2009
  • 7. STaR: a Social Tag Recommender • Concetti chiave • Risorse “simili” possono essere modellate con tag simili • I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione mercoledì 16 settembre 2009
  • 8. STaR: a Social Tag Recommender • Modello di raccomandazione • Preprocessing • Indicizzazione di contenuti precedentemente taggati • Filtraggio • Ritrovamento di contenuti “simili” a quello da taggare • Estrazione delle folksonomie sulle risorse simili • Fusione delle folksonomie e pesatura dei tag • Ordinamento e filtraggio dei tag candidati mercoledì 16 settembre 2009
  • 10. Preprocessing • Indexer • basato su Apache Lucene • costruisce un indice personale per ciascun utente e un indice della comunità • Query Processor • si prende carico della risorsa da taggare • processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.) • estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.) • inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità mercoledì 16 settembre 2009
  • 11. Scenario, step 1 • Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25 • Interpretazione “probabilistica” del modello di pesatura TF/IDF mercoledì 16 settembre 2009
  • 13. Filtering • Tag Extractor • estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale • fonde le folksonomie assegnando a ciascun tag uno score • direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente • pesato a seconda che il tag provenga dalla componente personale o sociale • Filter • filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni mercoledì 16 settembre 2009
  • 14. Scenario, step 2 mercoledì 16 settembre 2009
  • 15. Discovery Challenge • Test Set • sorgente: www.bibsonomy.org • 17.000 bookmark, 26.000 BibTeX, 1.600 utenti • 48 ore per produrre i risultati • Metriche di riferimento: Precision, Recall, F1-Measure • calcolate sui primi cinque tag • 16 diversi partecipanti • 13 nazioni mercoledì 16 settembre 2009
  • 16. Risultati http://www.kde.cs.uni-kassel.de/ws/dc09/results/ mercoledì 16 settembre 2009
  • 17. Conclusioni • Lo sviluppo di STaR è nato per scopi puramente didattici • Confronto con gli altri partecipanti della Challenge • Viaggio in Slovenia :) • La validità del primo prototipo permette di delineare degli sviluppi futuri • Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto. • Applicazioni di STaR • Miglioramento nell’efficacia della classificazione/browsing di documenti testuali • Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente • Migliore accuratezza in componenti di personalizzazione tag-based • Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori mercoledì 16 settembre 2009
  • 18. Recommender System e Personalizzazione Sviluppi futuri Cataldo Musto mercoledì 16 settembre 2009
  • 19. Sviluppi futuri • Miglioramento dei modelli di filtraggio • Utilizzo di Linked Data • Analisi dei Social Media per la personalizzazione • Interoperabilità di Profili Utente mercoledì 16 settembre 2009
  • 20. Miglioramento dei modelli di filtraggio • I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere • Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti • Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti • es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica) • L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare mercoledì 16 settembre 2009
  • 21. Utilizzo di Linked Data • Termine coniato da Tim Berners-Lee • Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati • Garantisce interoperabilità e reasoning tra dati • L’esempio più importante è DBPedia • Un piccolo passo verso il Semantic Web mercoledì 16 settembre 2009
  • 22. Linked Data mercoledì 16 settembre 2009
  • 23. Linked Data e Recommender Systems • Gli approcci più comuni alla raccomandazione sono legati a interpretazioni di tipo probabilistico/frequentista • es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo • Problemi tipici: ridotta serendipità nelle raccomandazioni • L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte mercoledì 16 settembre 2009
  • 24. Analisi dei Social Media • L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio • L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film) • I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi • La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche mercoledì 16 settembre 2009
  • 25. Analisi dei Social Media (2) mercoledì 16 settembre 2009
  • 26. Analisi dei Social Media (3) mercoledì 16 settembre 2009
  • 27. Analisi dei Social Media (4) • I dati disponibili su queste piattaforme rappresentano un buon compromesso • Sono dati reali, perchè prodotti liberamente dagli utenti • Forniscono informazioni esplicite sulle preferenze • Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide mercoledì 16 settembre 2009
  • 28. Interoperabilità tra profili utente • I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale” • Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti • es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio • es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori • Cross-Domain Personalization mercoledì 16 settembre 2009
  • 29. Cross-Domain Personalization • Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID) • L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni • In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi • Costruzione di profili analoghi • Utilizzo di Standard per la Profilazione mercoledì 16 settembre 2009
  • 30. APML (www.apml.org) • APML (www.apml.org) • Attention Profiling Markup Language • Linguaggio di modellazione XML-based • Orientato alla costruzione di “profili di attenzione” • Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete • Molto utile per scopi di filtraggio e personalizzazione mercoledì 16 settembre 2009