Intégration des facteurs temps et autorité   sociale dans un modèle bayésien de           recherche de tweets  Lamjed Ben ...
Modèle bayésien de recherche de tweets     Plan1.   Service de microblogage2.   Recherche des tweets3.   Topologie du rése...
Service de microblogage        Microblog?“   Un service de microblogage est à la fois un moyen de    communication et un s...
Service de microblogage          Tweet, retweet et hashtag ?“    Jack Dorsey 21 Mars 06  1ier Tweetinviting coworkers    ...
Service de microblogageRéseau social d’information                              5
Recherche des tweets       RI dans les microblogs• Utilisateur submergé par l’énorme quantité des tweets   – Flux soutenu ...
Recherche des tweets        Recherche de tweets“   tâche de recherche en temps réel où lutilisateur souhaite accéder    à ...
Recherche des tweets     Synthèse des travaux1. Contexte spatio-temporel TwitterStand (Sankaranarayanan J. et al, 2009)   ...
Recherche des tweets    Synthèse des travaux3. La structure du réseau social   – Indegree, Retweet et Mention influence (C...
Recherche des tweets        Contributions                                         Thématique•    Facteurs de pertinence   ...
Topologie du réseau bayésien        Requête, termes, configurations•    Nœud requête q  0,1               – événements ...
Topologie du réseau bayésien   Tweets• Nœud tweet t j  – variable aléatoire : t j  0,1  – événements: ti , ti• Nœuds as...
Topologie du réseau bayésien   Périodes, blogueurs• Nœud Période oe  – variable aléatoire : oe  0,1  – évènements : oe ...
Topologie du réseau bayésien      Réseau bayésien            qk1         k2        k3                                     ...
Estimation des probabilités conditionnelles      Évaluation de la requête                                                 ...
Estimation des probabilités conditionnelles       Configuration des termes                                             ...
Estimation des probabilités conditionnelles       Requête                                                            ...
Estimation des probabilités conditionnelles       Tweet (évidence thématique)                                           ...
Estimation des probabilités conditionnelles       Tweet (évidence temporelle)                                           ...
Estimation des probabilités conditionnelles       Période                                                            ...
Estimation des probabilités conditionnelles       Tweet (évidence sociale)                                             ...
Estimation de la pertinence            Blogueur                                                            P(t j | q)...
Évaluation expérimentale    TREC Microblog 2011• Collection de tweets   Tweets           16 141 812     Blogueurs         ...
Évaluation expérimentale        TREC Microblog 2011•   Tâche de «Recherche en temps réel » (49 requêtes)    –     Tweets l...
Évaluation expérimentale        Indexation et Filtrage•   Plateforme NESTOR    –     Recherche en temps réel    –     Déte...
Évaluation expérimentale          Modèles de référenceBNTS                 Notre modèle bayésien de croyance pour le rech...
Évaluation expérimentale      Paramétrage du modèle•    Importance des fréquences des termes (BNTS.K)    p @ 30           ...
Évaluation expérimentale               Paramétrage du modèle •             Taille de la fenêtre temporelle (BNTS.KO)p @ 30...
Évaluation expérimentale         Facteurs de pertinencep @ 30             BNTS        BNTS.K             BNTS.KO          ...
Évaluation expérimentale         Facteurs de pertinence       isiFDL   DFReeKLIM30     BNTS    Médiane   Nestor   BM25   D...
Modèle de recherche de tweets        Conclusion et perspectives•   Modèle de recherche de tweets    –     Évidence thémati...
Merci pour votre attention!       http://twitter.com/amjedbj
Prochain SlideShare
Chargement dans…5
×

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

854 vues

Publié le

Lamjed Ben Jabeur, Lynda Tamine, Mohand Boughanem.
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets.
Dans : Conférence francophone en Recherche d'Information et Applications (CORIA 2012), Bordeaux, 21/03/12-23/03/12, LABRI, p. 301-316, 2012 ftp://ftp.irit.fr/IRIT/SIG/BenJabeur_CORIA2012.pdf


Cet article présente une approche sociale pour la recherche d’information dans les
microblogs intégrant diverses sources d’évidence au sein d’un réseau bayésien. Notre contribution
consiste à étendre la notion classique de pertinence, basée sur la similarité textuelle, par
de nouveaux facteurs tels que l’importance sociale des blogueurs et la magnitude temporelle
des microblogs. Dans ce papier, l’importance sociale d’un blogueur est assimilée à son influence
dans le réseau et est évaluée par un score de PageRank déduit sur le réseau de diffusion
des microblogs. Nous proposons d’estimer la magnitude temporelle selon le nombre de voisins
temporels qui incluent les termes de la requête. Afin de valider notre approche, une évaluation
expérimentale à été menée sur la collection de microblogs de référence TREC Tweets2011. Les
résultats montrent que notre modèle présente un gain de 24% par rapport à la médiane des
résultats officiels de TREC Microblog 2011.

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
854
Sur SlideShare
0
Issues des intégrations
0
Intégrations
17
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

  1. 1. Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem IRIT, Université Paul Sabatier
  2. 2. Modèle bayésien de recherche de tweets Plan1. Service de microblogage2. Recherche des tweets3. Topologie du réseau bayésien4. Estimation des probabilités conditionnelles5. Evaluation expérimentale6. Conclusion et perspectives 2
  3. 3. Service de microblogage Microblog?“ Un service de microblogage est à la fois un moyen de communication et un système de collaboration qui permet le partage et la diffusion des messages textuels. Il permet aux utilisateurs de communiquer des informations sur leurs statuts, ” activités, pensées et opinions [Java et al.2009].• Article de microblog – Court (140 caractères) 1 milliards Publications par semaine – Soumis en temps réel 50 millions Publications par jour – Motivation sociale 177 million Publications en mars 2011 – Appareil mobile +106 millions Utilisateurs 3
  4. 4. Service de microblogage Tweet, retweet et hashtag ?“ Jack Dorsey 21 Mars 06  1ier Tweetinviting coworkers #oilspill“ Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010In honor of oil-soaked birds, tweets are now gurgles. http://bit.ly/cIhZNf“ Wendys 8 Juin 2011  Golden Tweet Award 2011RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd “ CORIA11 16 mars 2010 CORIA 2011 : Université dAvignon #CORIA11 http://yfrog.com/h3y ““ MohBoughanem 17 Mars 2010 MohBoughanem CORIA11 17 Mars @coria2011 bien visualisé, vite trouvé2010 @coria2011 bien visualisé, vite trouvé 4
  5. 5. Service de microblogageRéseau social d’information 5
  6. 6. Recherche des tweets RI dans les microblogs• Utilisateur submergé par l’énorme quantité des tweets – Flux soutenu des publications – Enorme quantité de données – Diverses sources d’information Difficulté daccès aux publications intéressantes• Les tâches de la RI dans les microblogs – Recherche de personnes et suggestion des abonnements – Extraction des tendances – La recherche d’opinions – La recherche de tweets 6
  7. 7. Recherche des tweets Recherche de tweets“ tâche de recherche en temps réel où lutilisateur souhaite accéder à linformation la plus récente, mais aussi la plus pertinente à une requête (Ounis et al., 2011). ”“ Recherche ad-hoc où le besoin en information est représenté par une requête à un moment spécifique (Ounis et al., 2011). ”• Objectifs et utilité – Obtenir une information crédible et précise – Accéder aux dernières actualités en temps réel – Suivre un évènement à distance – Collecter divers points de vue 7
  8. 8. Recherche des tweets Synthèse des travaux1. Contexte spatio-temporel TwitterStand (Sankaranarayanan J. et al, 2009) TweetSieve (Grinev M et al, 2009)2. Caractéristiques des microblogs – Abonnements, tweets, retweets, réponses, hashtags, URLs – Combinaison linéaire (Nagmoti et al., 2010) – Apprentissage de fonctions dordonnancement (Duan Y et al., 2010) 8
  9. 9. Recherche des tweets Synthèse des travaux3. La structure du réseau social – Indegree, Retweet et Mention influence (Cha et al., 2010).,TweetRank, FollowerRank (Nagmoti et al., 2010). – Autorité (Kwak et al., 2010) – Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010), Popularité (Duan et al.,2010) 9
  10. 10. Recherche des tweets Contributions Thématique• Facteurs de pertinence – Occurrence des termes – Magnitude temporelle – Influence sociale Temporelle Sociale• Réseau Bayésien de croyance (Silva et al., 2000) 10
  11. 11. Topologie du réseau bayésien Requête, termes, configurations• Nœud requête q  0,1   – événements q q : ,• Termes – l’univers de discours : U  k1 , k2 ,..., kn – variable aléatoire : ki   ,1 0 – évènements: ki , ki  – configuration des termes k exemple : k1 , k 2  k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 ) ( 11
  12. 12. Topologie du réseau bayésien Tweets• Nœud tweet t j – variable aléatoire : t j  0,1 – événements: ti , ti• Nœuds associés au tweet t j – évidence thématique : t kj – évidence temporelle : t oj – évidence sociale : t sj 12
  13. 13. Topologie du réseau bayésien Périodes, blogueurs• Nœud Période oe – variable aléatoire : oe  0,1 – évènements : oe , oe  oe temps (t ) t t o  o  e 2 e 2• Nœud Blogueur u f – Variable aléatoire : u f  0,1 – Evénements : u f , u f 13
  14. 14. Topologie du réseau bayésien Réseau bayésien qk1 k2 k3 o1 o2 u1 u1tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 14
  15. 15. Estimation des probabilités conditionnelles Évaluation de la requête    q P(t j | q)   P(q | k ) P(t j | k )P(k )  k     k1 k2 k3 P(t j | q)   P(q | k ) P(tkj | k )P(toj | k ) P(t sj | k ) P(k )  k o1 o2 u1 u1tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 15
  16. 16. Estimation des probabilités conditionnelles Configuration des termes     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1P(k )  n 2 16
  17. 17. Estimation des probabilités conditionnelles Requête     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   1, si on(ki , q)  on(ki , k ), ki P(q | k )   0, sin on 17
  18. 18. Estimation des probabilités conditionnelles Tweet (évidence thématique)     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1 tf ki ,t j  P(t kj | k )   k   tf ki ,t j ki k t j 1 0,8 a=0,1 0,6 a=0,25 0,4 a=0,5 a=0,75 0,2 a=1 0 18 0 5 10
  19. 19. Estimation des probabilités conditionnelles Tweet (évidence temporelle)     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(toj | k )  P(toj | oe ) P(oe | k )  P(toj | oe ) P(oe | k ) 1   oe (t j )P(toj | oe )   (oe ) 19
  20. 20. Estimation des probabilités conditionnelles Période     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  P(toj | k )  P(toj | oe ) P(oe | k ) tweets   df  ki ,oe 30 20 ki ,on( ki , k ) 1P(oe | k )   df ki k1 10 t2  ki ,on( ki , k ) 1 0 1 termes 2 3 4 5 temps 20
  21. 21. Estimation des probabilités conditionnelles Tweet (évidence sociale)     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(tsj | k )  P(tsj | u f ) P(u f | k )  P(tsj | u f ) P(u f | k ) 1P(t sj | u f )   (u f ) 21
  22. 22. Estimation de la pertinence Blogueur     P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  P(t sj | k )  P(t sj | u f ) P(u f | k ) P(u f | k)  P(u f )  Inf (u f ) U3Calcule de PageRank sur le réseau de retweet u1 1 Inf Gk 1 (ui ) Inf (ui )  d G k  (1  d )  w j ,i u2 U u j ,e ( u j ,ui )E O(u j ) u4  (u j )   (u j ) w j ,i   (u j ) 22
  23. 23. Évaluation expérimentale TREC Microblog 2011• Collection de tweets Tweets 16 141 812 Blogueurs 5 356 432 Retweets 1 128 179 Relations des retweets 1 060 551 Tweet 1 860 112 Réseau social des retweets: nœuds 5 495 081 Termes 7 781 775 Réseau social des retweets: arcs 1 024 914 Hashtags 455 179 Composante géante 11.12% Fréquence des termes Hashtags Longueur (termes) 1.5E8 1.5E 7 1.5E 6 0 5 10 0 5 10 0 20 23 Distributions des fréquences, des hashtags et des longueurs des tweets
  24. 24. Évaluation expérimentale TREC Microblog 2011• Tâche de «Recherche en temps réel » (49 requêtes) – Tweets les plus récents. – Tweets postérieurs à la date de la requête. – Tweets triés par ordre chronologique inverse. – Tweets édités; Tweets en anglais.• Classement des systèmes (184 systèmes ) – Type de collection (HTML ou JSON). – Données externes (Web, blogs…etc.). – Information antérieur à la date de la requête.• Mesures d’évaluation – p@30 (officielle) – MAP – ALL Rel, High Rel 24
  25. 25. Évaluation expérimentale Indexation et Filtrage• Plateforme NESTOR – Recherche en temps réel – Détection des mentions, des hashtags et des retweets en forme déclarative « RT @user » – Indentification des langues et tokenisation multilingue – Extraction et analyse des réseaux sociaux – etc.• Filtrage des tweets – Supprimer les tweets dans une langue autre que l’anglais – Supprimer les retweets et les tweets de conversation – Supprimer les tweets au-delà de la 30ème position 25
  26. 26. Évaluation expérimentale Modèles de référenceBNTS  Notre modèle bayésien de croyance pour le recherche des tweetsBNTS-K  Modèle BNTS, composantes temporelle et sociale désactivéesBNTS.KO  Modèle BNTS, composante sociale désactivéeBNTS.KS  Modèle BNTS, composante temporelle désactivéeNestor  * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012)isiFDL  * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le classement de TREC Microblog 2011 (Metzler et al., 2011)DFReeKLIM30  * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le classement de TREC Microblog 2011 (Amati et al., 2011)Disjunctive  * Modèle thématique disjonctif basé sur le système de RI LuceneBM25  Modèle thématique d’Okapi BM25 Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels 26
  27. 27. Évaluation expérimentale Paramétrage du modèle• Importance des fréquences des termes (BNTS.K) p @ 30  1 tf ki ,t j    0,35 P(t kj | k )    0,3 k ki k t j tf ki ,t j 0,25 0,2 0,15 0,1 0,05 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1  27
  28. 28. Évaluation expérimentale Paramétrage du modèle • Taille de la fenêtre temporelle (BNTS.KO)p @ 30 0,32  t t  oe :  oe  , oe   0,315  2 2 0,31 0,305 0,3 0,295 jours 0,29 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 28 t
  29. 29. Évaluation expérimentale Facteurs de pertinencep @ 30 BNTS BNTS.K BNTS.KO BNTS.KS 10,90,80,70,60,50,40,30,20,1 0 Toutes les requêtes MB001 MB010 MB027 “BBC World Service "Egyptian protesters "Reduce energy 29 staff cuts” attack museum" consumption"
  30. 30. Évaluation expérimentale Facteurs de pertinence isiFDL DFReeKLIM30 BNTS Médiane Nestor BM25 Disjunctive 0,50,45 0,40,35 0,30,25 0,20,15 0,10,05 * *** *** −30% −28% 24% 57% 180% 223% −17% −32% 12% 22% 5% 13% 0 p@30 MAP 30
  31. 31. Modèle de recherche de tweets Conclusion et perspectives• Modèle de recherche de tweets – Évidence thématique – Évidence sociale – Évidence temporelle• Intégration des facteurs de pertinence dans un réseau bayésien de croyance• Gain de 24% par rapport à la médiane TREC‘11• Perspectives – Détecter automatiquement la taille de la fenêtre temporelle – Adapter la combinaison des différentes sources d’évidence selon la nature de la requête 31
  32. 32. Merci pour votre attention! http://twitter.com/amjedbj

×