Mars 2015
Pertinence a Priori Basée
sur la Diversité et la
Temporalité des Signaux
Sociaux
Ismail BADACHE
Mohand BOUGHANEM...
Plan de la présentation
4
1
3
2
5
Introduction
Etat de l’art
Approche Proposée
Evaluation expérimentale
Conclusion
CORIA 2015 3
1.1 Chiffres Internet
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expéri...
CORIA 2015 4
1.2 Chiffres Réseaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation...
CORIA 2015 5
1.3 Schéma de Notre Approche
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation...
CORIA 2015 6
1.4 Exemple de Ressource Contenant des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Concl...
CORIA 2015 7
1.5 Questions de Recherche
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation e...
CORIA 2015 8
2. Etat de l’Art
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimenta...
CORIA 2015 9
3.1 Modèle de Langue
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérim...
CORIA 2015 10
3.2 Estimation de P(D)
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expé...
CORIA 2015 11
3.2 Estimation de P(D) : Temporalité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Co...
CORIA 2015 12
3.2.1 Date du Signal
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expéri...
CORIA 2015 13
3.2.2 Âge de la Ressource
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation e...
CORIA 2015 14
3.3 Estimation de P(D) : Diversité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conc...
CORIA 2015 15
4.1 Objectifs de l’Evaluation
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluati...
CORIA 2015 16
4.2 Description de la Collection de Test
Champ Description Statut
ID identifiant du film (le document). -
Ti...
CORIA 2015 17
4.2 Description de la Collection de Test
ACEBOOK
J’aime
Partage
Commentaire
Date du Signal
WITTER
Tweet
GOOG...
CORIA 2015 18
4.2 Description de la Collection de Test
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion...
CORIA 2015 19
4.3 Résultats : Temporalité des Signaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Con...
CORIA 2015 20
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.3 Résultats...
CORIA 2015 21
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5....
CORIA 2015 22
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5....
CORIA 2015 23
5. Conclusion
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale...
http://www.irit.fr/~Ismail.Badache/
https://twitter.com/Ismail_badache
Merci @ACM et @CORIA2015 pour l’aide financière
Prochain SlideShare
Chargement dans…5
×

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

459 vues

Publié le

RÉSUMÉ. Les signaux sociaux associés aux ressources web peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource indépendamment de la requête. Dans cet article, nous nous intéressons particulièrement à la temporalité associée à ces signaux ainsi qu’à leur diversité. Nous supposons que l’importance a priori d’un document (ressource) dépend non seulement de la qualité de ces signaux mais aussi de la date de leur création, leur diversité ainsi que la date de publication de la ressource. De ce fait, plutôt que d’estimer cette importance (probabilité) a priori par un simple comptage des signaux liés au document, nous intégrons également la date de publication de la ressource, pour ne pas pénaliser les nouvelles ressources, les dates des signaux pour privilégier les signaux récents, ainsi que la diversité de ces signaux. Nous évaluons la performance de notre approche sur la collection d’IMDb contenant 167438 ressources et leurs données sociales collectées à partir de plusieurs réseaux sociaux. Nos résultats montrent l’intérêt des signaux temporellement sensibilisés à la sélection des ressources pertinentes.

ABSTRACT. Social signals associated with web resources can be considered as an additional information that can play a role to measure a priori importance of the resource regardless of the query. In this paper, we are particularly interested in the temporality associated with these signals and their diversity. We assume that the a priori importance of a document (resource) depends not only on the quality of these signals, but also on the dates of their creation, their diversity and the publication date of the resource. Therefore, rather than estimating the significance (probability) a priori by simply counting the number of signals associated to a resource, we also integrate the publication date of the resource, to avoid penalizing recent resources, the date of signals to boost recent actions, as well as their diversity. We evaluate the effectiveness of our approach on IMDb dataset containing 167438 resources and their social data collected from social networks. Our experiments show the interest of temporally-aware signals at capturing relevant resources.

MOTS-CLÉS : Signaux sociaux, Date du signal, Date de Publication de la ressource, Diversité.

KEYWORDS: Social signals, Signal date, Resource publication date, Diversity.

Publié dans : Médias sociaux
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
459
Sur SlideShare
0
Issues des intégrations
0
Intégrations
55
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

  1. 1. Mars 2015 Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux Ismail BADACHE Mohand BOUGHANEM CORIA 2015
  2. 2. Plan de la présentation 4 1 3 2 5 Introduction Etat de l’art Approche Proposée Evaluation expérimentale Conclusion
  3. 3. CORIA 2015 3 1.1 Chiffres Internet 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 1,2 1,4 1,7 2,4 3,025 2011 2012 2013 2014 2015 Nombre d’internautes 86% 80% 83% 18% 12% Canada USA France Afrique Asie du sud Taux % de pénétration d’Internet dans le Monde Temps passé sur Internet Dans le monde :  4,8 heures par jour via un ordinateur.  2,1 heures via un mobile. En France :  4,1 heures par jour via un ordinateur.  1 heure via un mobile. Chaque minute sur Internet  2 millions de recherches Google sont effectuées.  204 millions de mails sont envoyés.  3472 images sont épinglées sur Pinterest.  216000 photos sont partagées sur Instagram.  347222 photos sont partagées sur WhatsApp.  72 heures de vidéo sont téléchargées sur YouTube. 70% des internautes sont des utilisateurs quotidiens 822 240 nouveaux sites Internet sont mis en ligne chaque jour Source: blogdumoderateur.com
  4. 4. CORIA 2015 4 1.2 Chiffres Réseaux Sociaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Contenu social par 1 min 50000 Publications 2,3 Millions J’aime ~410 GO de données Facebook Nombre d’utilisateurs actifs Décembre 2014 Source: blogdumoderateur.com quantcast.com semiocast.com % Partages dans les RS
  5. 5. CORIA 2015 5 1.3 Schéma de Notre Approche 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Ressources WebRéseaux Sociaux J’aime (Frequence, Temps) Commentaire(Frequence, Temps) Partage (Frequence, Temps) +1 (Frequence, Temps) Pertinence Sociale Pertinence Thématique Pertinence Globale Actions relevant d'activités sociales (Signaux Sociaux)
  6. 6. CORIA 2015 6 1.4 Exemple de Ressource Contenant des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Date de la capture : 13/03/2015 à 16h48
  7. 7. CORIA 2015 7 1.5 Questions de Recherche 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Comment estimer la diversité des signaux sociaux au sein d’une ressource ? 2 Quel est l’impact de la diversité et du temps associés aux signaux sociaux sur la performance de la RI ? 3 Comment prendre en compte les signaux sociaux et leur date de création ainsi que la date de la ressource pour estimer la probabilité a priori de la ressource ? 1
  8. 8. CORIA 2015 8 2. Etat de l’Art 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Sources d’évidence Propriétés Modèles Auteurs Critères sociaux indépendamment du temps • Nombre de : clicks, votes, enregistrement et recommandation. Popularité Importance Combinaison linéaire (Karweg et al., 2011) • Nombre de : j’aime, j’aime pas, commentaire sur YouTube et nombre de lecture d’un titre sur Last.fm. Importance Apprentissage et Combinaison linéaire (Chelaru et al., 2012) (Khodaei et al. 2012) • Nombre de retweet. Popularité Technique d’apprentissage (Yang et al., 2012) (Hong et al., 2011) Critères sociaux sensibles au temps • Analyse des signaux sociaux pour classer l’intérêt des utilisateurs en 5 classes : recent, ongoing, seasonal, past et random. Intérêt temporel Etude statistique (Khodaei et Alonso, 2012) • Exploiter le clic temporelle appelé ClickBuzz pour mesurer l’intérêt d’un document à travers le temps. Buzz dans le temps Technique d’apprentissage (Inagaki et al., 2010)
  9. 9. CORIA 2015 9 3.1 Modèle de Langue 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Un document D peut être représenté à la fois par un ensemble de mots- clés 𝐷 𝑚={𝑚1, 𝑚2, … 𝑚 𝑛} et des caractéristiques non-textuelles. • 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document indépendamment de son contenu textuel. • Dans notre approche : un document (ressource) est représenté par un ensemble de mots-clés 𝐷 𝑚 et un ensemble de caractéristiques sociales 𝐷𝑠={𝑎1, 𝑎2, … 𝑎 𝑚}. Probabilité a priori du document D Modèle textuel Requête/Contenu 𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 ∙ 𝑃 𝑄 𝐷) 𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 𝒔 ∙ 𝑃 𝑄 𝐷)
  10. 10. CORIA 2015 10 3.2 Estimation de P(D) 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Une manière simple d’estimer la probabilité a priori est d’effectuer un simple comptage du nombre d’actions effectuées sur une ressource. • 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance : 𝑃 𝐷 = 𝑎 𝑖∈𝐴 𝑃(𝑎𝑖) 𝑃 𝑎𝑖 = 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷) 𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷) 𝑃 𝐷 = 𝑎 𝑖∈𝐴 𝐶𝑜𝑢𝑛𝑡 𝑎𝑖, 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶) 𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇 • Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C en utilisant Dirichlet.
  11. 11. CORIA 2015 11 3.2 Estimation de P(D) : Temporalité des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Le temps T intervient à deux niveaux dans notre approche. Il représente deux types de dimensions temporelles : 1. L’historique de chaque signal (action), soit 𝑇𝑎 𝑖 = {𝑡1,𝑎𝑖 , 𝑡2,𝑎 𝑖 ,... 𝑡 𝑘,𝑎 𝑖 } l’ensemble de k moments (date) à laquelle une action ai a été produite. Un instant de temps 𝑡 𝑘,𝑎 𝑖 représente la date et l’heure (datetime) de l’action effectuée par un utilisateur u sur une ressource D. 2. La date de publication de la ressource, soit 𝑇 𝐷 = {𝑡 𝐷1 , 𝑡 𝐷2 ,... 𝑡 𝐷 𝑛 } l’ensemble de n date à laquelle chaque ressource D de la collection R a été créée. 𝑡 𝐷 est la date de publication de la ressource D, cette date est fournie en format datetime.
  12. 12. CORIA 2015 12 3.2.1 Date du Signal 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝐶𝑜𝑢𝑛𝑡𝑡 𝑎 𝑡𝑗,𝑎 𝑖 , 𝐷 = 𝑗=1 𝑘 𝑓 𝑡𝑗,𝑎 𝑖 , 𝐷 𝑓 𝑡𝑗,𝑎 𝑖 , 𝐷 = 𝑒𝑥𝑝 − ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖 ∥2 2𝜎2 • Nous supposons que les ressources associées aux signaux frais devraient être favorisées par rapport à ceux qui sont associées à des signaux anciens. • Nous utilisons une pondération exponentielle (noyau Gaussien) qui boosterait d’avantage les signaux récents vis-à-vis les vieux signaux. • Plus la distance euclidienne relative au temps ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖 ∥2 augmente, plus la valeur du noyau Gaussien diminue.
  13. 13. CORIA 2015 13 3.2.2 Âge de la Ressource 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝐶𝑜𝑢𝑛𝑡𝑡 𝐷 𝑎𝑖, 𝐷 = 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷) 𝐴𝑔𝑒(𝐷) 𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 − ‖𝑡 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡 𝐷‖2 2𝜎2 • Une vieille ressource a une plus grande chance d’avoir un grand nombre d’interactions par rapport à une ressource publiée récemment. Donc, pour résoudre ce problème, nous proposons de normaliser la distribution des signaux sociaux associés à une ressource par la date de publication de la ressource. On divise le nombre de signaux par l’âge de la ressource. • La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une fonction exponentielle (noyau Gaussien).
  14. 14. CORIA 2015 14 3.3 Estimation de P(D) : Diversité des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝑃 𝐷 = 𝑎 𝑖 ∈ 𝐴 𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐸𝑞𝑢𝑖𝑡 𝐷 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐸𝑞𝑢𝑖𝑡 𝐷 = 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 (𝐷) 𝑙𝑜𝑔(𝑚) Avec m représente le nombre de signaux sociaux étudiés. 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐷 = − 𝑖=1 𝑚 𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖 • Une ressource dominée par un seul signal doit être défavorisée par rapport à une ressource ayant une équi-répartition des signaux. On propose d’évaluer cette diversité en utilisant l’indice de diversité de Shannon. • L’indice de Shannon est souvent accompagné par l’indice d’équitabilité de Piélou. Donc :
  15. 15. CORIA 2015 15 4.1 Objectifs de l’Evaluation 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 1) Etudier l’impact de la temporalité des signaux sociaux (date du signal et l’âge de la ressource) sur la performance de la RI. 2) Etudier l’apport de la prise en compte de la diversité des signaux au sein de la ressource. • Cadre d’évaluation : - Utilisation de la collection INEX IMDb. - Collecter des signaux sociaux et leur caractéristiques temporelles pour chaque document IMDb et monter l’expérimentation.
  16. 16. CORIA 2015 16 4.2 Description de la Collection de Test Champ Description Statut ID identifiant du film (le document). - Title le titre du film. indexé Year l’année de sortie du film. indexé Rated classement des films selon le type du contenu. - Released date de réalisation du film. indexé Runtime durée du film. indexé Genre genre de film (Action, Drame, etc.). indexé Director le directeur du projet du film. indexé Writer les écrivains et les scénaristes du film. indexé Actors les acteurs principaux du film. indexé Plot résumé textuel du film. indexé Poster le lien URL de l’affiche du film. - url le lien URL qui mène à la source originale du document. - UGC Les différents signaux sociaux récupérés. - 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.2.1 Contenu Textuel : INEX IMDb 2011
  17. 17. CORIA 2015 17 4.2 Description de la Collection de Test ACEBOOK J’aime Partage Commentaire Date du Signal WITTER Tweet GOOGLE+ Mention +1 Partage LINKED DELICIOUS Bookmark 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux Fig 1. Pourcentage de distribution des signaux dans les documents
  18. 18. CORIA 2015 18 4.2 Description de la Collection de Test 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Réseau social Signaux Somme Min Max Moyenne Facebook J’aime 2478498 0 76842 85.8027 Partage 2718918 0 43918 94.1258 Commentaire 2845169 0 62281 98.4964 Twitter Tweet 499232 0 12223 17.2830 Google+ +1 73392 0 1475 2.5407 Delicious Bookmark 26143 0 986 0.9050 LinkedIn Partage 42787 0 29988 1.4812 4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb - 30 Requêtes et leur Qrels issus d’INEX IMDb. - 1000 premiers documents retournés par chaque requête.
  19. 19. CORIA 2015 19 4.3 Résultats : Temporalité des Signaux Sociaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous Base (B) : Sans Prise en Compte de Diversité et du Temps P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous Avec Prise en Compte de la Date de Publication de la Ressource P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 Lucene Solr ML.Hiemstra Base (A) : Sans Probabilité a Priori P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 Partage Commentaire Avec Prise en Compte de la Date de l’Action P@10 P@20 nDCG MAP
  20. 20. CORIA 2015 20 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.3 Résultats : Diversité des Signaux Sociaux 0 0,1 0,2 0,3 0,4 0,5 Lucene Solr ML.Hiemstra Base (A) : Sans Probabilité a Priori P@10 P@20 nDCG MAP 0 0,2 0,4 0,6 0,8 TotalFacebook Tous Base (B) : Sans Prise en Compte de Diversité et du Temps P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de Diversité P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de Diversité et la Date de Publication de la Ressource P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de la Date de Publication P@10 P@20 nDCG MAP
  21. 21. CORIA 2015 21 4.4 Analyse Quantitative et Qualitative des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Tableau 1. Statistiques sur la distribution des signaux dans les documents (pertinents et non-pertinents) retournés par les 30 requêtes
  22. 22. CORIA 2015 22 4.4 Analyse Quantitative et Qualitative des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Fig 3. Pourcentage des documents pertinents contenants des signaux Fig 2. Pourcentage des signaux dans les documents pertinents
  23. 23. CORIA 2015 23 5. Conclusion 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Modèle de recherche d’information sociale - Evidence thématique (Modèle de langue) - Evidence sociale : 1) Signaux sociaux. 2) Temporalité des signaux. 3) Diversité des signaux. • Expérimentation sur une collection IMDb - Amélioration significative par rapport aux modèles de base. • Perspectives - Intégration d’autres critères sociaux. - Etude approfondie sur l’impact du temps de chaque action. - Comparer le modèle proposé avec d’autres modèles sociaux.
  24. 24. http://www.irit.fr/~Ismail.Badache/ https://twitter.com/Ismail_badache Merci @ACM et @CORIA2015 pour l’aide financière

×