SlideShare une entreprise Scribd logo
1  sur  32
Intégration des facteurs temps et autorité
   sociale dans un modèle bayésien de
           recherche de tweets

  Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem
  IRIT, Université Paul Sabatier
Modèle bayésien de recherche de tweets

     Plan

1.   Service de microblogage
2.   Recherche des tweets
3.   Topologie du réseau bayésien
4.   Estimation des probabilités conditionnelles
5.   Evaluation expérimentale
6.   Conclusion et perspectives




                                                   2
Service de microblogage

        Microblog?

“   Un service de microblogage est à la fois un moyen de
    communication et un système de collaboration qui permet le
    partage et la diffusion des messages textuels. Il permet aux
    utilisateurs de communiquer des informations sur leurs statuts,

                                                       ”
    activités, pensées et opinions [Java et al.2009].

• Article de microblog
    –   Court (140 caractères)
                                      1 milliards   Publications par semaine
    –   Soumis en temps réel           50 millions Publications par jour
    –   Motivation sociale              177 million Publications en mars 2011
    –   Appareil mobile              +106 millions Utilisateurs

                                                                                3
Service de microblogage

          Tweet, retweet et hashtag ?

“
    Jack Dorsey 21 Mars 06  1ier Tweet
inviting coworkers                                                           #oilspill


“
    Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010
In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf



“
    Wendy's 8 Juin 2011  Golden Tweet Award 2011
RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd




                  “
                       CORIA11 16 mars 2010
                   CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y




                                   ““
                                      MohBoughanem 17 Mars 2010
                                          MohBoughanem      CORIA11 17 Mars
                                    @coria2011 bien visualisé, vite trouvé2010
                                          @coria2011 bien visualisé, vite trouvé         4
Service de microblogage

Réseau social d’information




                              5
Recherche des tweets

       RI dans les microblogs

• Utilisateur submergé par l’énorme quantité des tweets
   – Flux soutenu des publications
   – Enorme quantité de données
   – Diverses sources d’information
       Difficulté d'accès aux publications intéressantes

• Les tâches de la RI dans les microblogs
   –   Recherche de personnes et suggestion des abonnements
   –   Extraction des tendances
   –   La recherche d’opinions
   –   La recherche de tweets
                                                              6
Recherche des tweets

        Recherche de tweets

“   tâche de recherche en temps réel où l'utilisateur souhaite accéder
    à l'information la plus récente, mais aussi la plus pertinente à
    une requête (Ounis et al., 2011).
                                     ”
“   Recherche ad-hoc où le besoin en information est représenté par
    une requête à un moment spécifique (Ounis et al., 2011).
                                                             ”
• Objectifs et utilité
    –   Obtenir une information crédible et précise
    –   Accéder aux dernières actualités en temps réel
    –   Suivre un évènement à distance
    –   Collecter divers points de vue
                                                                         7
Recherche des tweets

     Synthèse des travaux

1. Contexte spatio-temporel
 TwitterStand (Sankaranarayanan J. et al, 2009)   TweetSieve (Grinev M et al, 2009)




2. Caractéristiques des microblogs
   – Abonnements, tweets, retweets, réponses, hashtags, URLs
   – Combinaison linéaire (Nagmoti et al., 2010)
   – Apprentissage de fonctions d'ordonnancement (Duan Y et
      al., 2010)
                                                                                      8
Recherche des tweets

    Synthèse des travaux

3. La structure du réseau social
   – Indegree, Retweet et Mention influence (Cha et al.,
     2010).,TweetRank, FollowerRank (Nagmoti et al., 2010).
   – Autorité (Kwak et al., 2010)
   – Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010),
     Popularité (Duan et al.,2010)




                                                                       9
Recherche des tweets

        Contributions
                                         Thématique
•    Facteurs de pertinence
    –     Occurrence des termes
    –     Magnitude temporelle
    –     Influence sociale




                                  Temporelle   Sociale
• Réseau Bayésien de croyance
    (Silva et al., 2000)


                                                         10
Topologie du réseau bayésien

        Requête, termes, configurations

•    Nœud requête q  0,1           
    – événements q q
                  :  ,
• Termes
    –     l’univers de discours : U  k1 , k2 ,..., kn
    –     variable aléatoire : ki   ,1
                                      0
    –     évènements: ki , ki       
    –     configuration des termes k
         exemple :      k1 , k 2
        
        k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 )
             (
                                                               11
Topologie du réseau bayésien

   Tweets

• Nœud tweet t j
  – variable aléatoire : t j  0,1
  – événements: ti , ti


• Nœuds associés au tweet t j
  – évidence thématique : t kj
  – évidence temporelle : t oj
  – évidence sociale : t sj

                                       12
Topologie du réseau bayésien

   Périodes, blogueurs

• Nœud Période oe
  – variable aléatoire : oe  0,1
  – évènements : oe , oe
                                               oe           temps (t )

                                         t                 t
                                  o                o 
                                   e
                                         2            e
                                                            2

• Nœud Blogueur u f
  – Variable aléatoire : u f  0,1
  – Evénements : u f , u f
                                                                      13
Topologie du réseau bayésien

      Réseau bayésien
            q



k1         k2        k3




                                          o1              o2               u1         u1




tk1        tk2       tk3
                               to3             to2        to3        ts1        ts2   ts3




                                     t1              t2         t3                          14
Estimation des probabilités conditionnelles

      Évaluation de la requête
                                                                
            q
                               P(t j | q)   P(q | k ) P(t j | k )P(k )
                                             
                                                 k
                                                                                          
k1          k2        k3       P(t j | q)   P(q | k ) P(tkj | k )P(toj | k ) P(t sj | k ) P(k )
                                             
                                                 k




                                           o1              o2               u1            u1




tk1        tk2        tk3
                                to3             to2        to3        ts1        ts2      ts3




                                      t1              t2         t3                             15
Estimation des probabilités conditionnelles

       Configuration des termes
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k




       1
P(k )  n
       2




                                                                      16
Estimation des probabilités conditionnelles

       Requête
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k



                                                          
        1,                 si      on(ki , q)  on(ki , k ), ki
 P(q | k )  
             0,              sin on




                                                                      17
Estimation des probabilités conditionnelles

       Tweet (évidence thématique)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k




              1                        tf ki ,t j  
P(t kj | k )  
               k
                              
                                           tf ki ,t j
                          ki k t j


                                               1
                                            0,8                                a=0,1
                                            0,6                                a=0,25
                                            0,4                                a=0,5
                                                                               a=0,75
                                            0,2
                                                                               a=1
                                               0
                                                                                       18
                                                   0                  5   10
Estimation des probabilités conditionnelles

       Tweet (évidence temporelle)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                                          
P(toj | k )  P(toj | oe ) P(oe | k )  P(toj | oe ) P(oe | k )



                      1   oe (t j )
P(toj | oe ) 
                            (oe )




                                                                      19
Estimation des probabilités conditionnelles

       Période
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                 
P(toj | k )  P(toj | oe ) P(oe | k )

                                                  tweets

                            df    ki ,oe
                                                30

                                                20
                     ki ,on( ki , k ) 1
P(oe | k ) 
                               df ki
                                                                                           k1
                                                10
                                                                                           t2
                                
                       ki ,on( ki , k ) 1       0
                                                      1                               termes
                                                              2       3   4       5
                                                                          temps

                                                                                           20
Estimation des probabilités conditionnelles

       Tweet (évidence sociale)
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
              k


                                                              
P(tsj | k )  P(tsj | u f ) P(u f | k )  P(tsj | u f ) P(u f | k )


                    1
P(t sj | u f ) 
                  (u f )




                                                                      21
Estimation de la pertinence

            Blogueur
                                                            
P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
              
                   k


                                     
P(t sj | k )  P(t sj | u f ) P(u f | k )

        
P(u f | k)  P(u f )  Inf (u f )
                                                                            U3
Calcule de PageRank sur le réseau de retweet
                                                                  u1
               1                                Inf Gk 1 (ui )
 Inf (ui )  d
     G
      k
                  (1  d )  w j ,i                                   u2
               U           u j ,e ( u j ,ui )E   O(u j )
                                                                            u4

             (u j )   (u j )
 w j ,i 
                  (u j )
                                                                                 22
Évaluation expérimentale

    TREC Microblog 2011

• Collection de tweets
   Tweets           16 141 812     Blogueurs                               5 356 432
   Retweets          1 128 179     Relations des retweets                  1 060 551
   Tweet             1 860 112     Réseau social des retweets: nœuds       5 495 081
   Termes            7 781 775     Réseau social des retweets: arcs        1 024 914
   Hashtags           455 179      Composante géante                         11.12%


       Fréquence des termes            Hashtags                 Longueur (termes)

                       1.5E8                      1.5E 7                          1.5E 6




   0            5          10 0            5           10   0                20
                                                                                           23
         Distributions des fréquences, des hashtags et des longueurs des tweets
Évaluation expérimentale

        TREC Microblog 2011
•   Tâche de «Recherche en temps réel » (49 requêtes)
    –     Tweets les plus récents.
    –     Tweets postérieurs à la date de la requête.
    –     Tweets triés par ordre chronologique inverse.
    –     Tweets édités; Tweets en anglais.
•   Classement des systèmes (184 systèmes )
    –     Type de collection (HTML ou JSON).
    –     Données externes (Web, blogs…etc.).
    –     Information antérieur à la date de la requête.
•   Mesures d’évaluation
    –     p@30 (officielle)
    –     MAP
    –     ALL Rel, High Rel
                                                           24
Évaluation expérimentale

        Indexation et Filtrage
•   Plateforme NESTOR
    –     Recherche en temps réel
    –     Détection des mentions, des hashtags et des retweets en
          forme déclarative « RT @user »
    –     Indentification des langues et tokenisation multilingue
    –     Extraction et analyse des réseaux sociaux
    –     etc.
•   Filtrage des tweets
    –     Supprimer les tweets dans une langue autre que l’anglais
    –     Supprimer les retweets et les tweets de conversation
    –     Supprimer les tweets au-delà de la 30ème position
                                                                     25
Évaluation expérimentale

          Modèles de référence
BNTS                 Notre modèle bayésien de croyance pour le recherche des tweets
BNTS-K               Modèle BNTS, composantes temporelle et sociale désactivées
BNTS.KO              Modèle BNTS, composante sociale désactivée
BNTS.KS              Modèle BNTS, composante temporelle désactivée
Nestor          * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012)
isiFDL          * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le
                   classement de TREC Microblog 2011 (Metzler et al., 2011)
DFReeKLIM30     * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le
                   classement de TREC Microblog 2011 (Amati et al., 2011)
Disjunctive     * Modèle thématique disjonctif basé sur le système de RI Lucene
BM25                 Modèle thématique d’Okapi BM25

 Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels




                                                                                                26
Évaluation expérimentale

      Paramétrage du modèle

•    Importance des fréquences des termes (BNTS.K)
    p @ 30
                                                                                 1                 tf ki ,t j  
                                                                                         
    0,35
                                                                   P(t kj | k )          
     0,3                                                                          k   ki k t j      tf ki ,t j

    0,25

     0,2

    0,15

     0,1

    0,05

      0
           0   0,1   0,2   0,3   0,4       0,5   0,6   0,7   0,8   0,9     1

                                                                                                                   27
Évaluation expérimentale

               Paramétrage du modèle

 •             Taille de la fenêtre temporelle (BNTS.KO)
p @ 30
  0,32
                                                                           t      t 
                                                                oe :  oe  , oe  
 0,315                                                                     2       2

  0,31


 0,305


     0,3


 0,295

                                                                                 jours
  0,29

           0     1   2    3   4   5    6   7    8   9   10 11 12 13 14 15 16 17
                                                                                           28
                                               t
Évaluation expérimentale

         Facteurs de pertinence
p @ 30             BNTS        BNTS.K             BNTS.KO             BNTS.KS
  1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
  0
      Toutes les requêtes        MB001                 MB010                    MB027
                             “BBC World Service     "Egyptian protesters    "Reduce energy   29
                                 staff cuts”          attack museum"         consumption"
Évaluation expérimentale

         Facteurs de pertinence
       isiFDL   DFReeKLIM30     BNTS    Médiane   Nestor   BM25   Disjunctive
 0,5

0,45

 0,4

0,35

 0,3

0,25

 0,2

0,15

 0,1

0,05                         * *** ***
        −30% −28%     24%   57% 180% 223%     −17% −32%     12% 22%   5% 13%
  0
                     p@30                                  MAP
                                                                                30
Modèle de recherche de tweets

        Conclusion et perspectives
•   Modèle de recherche de tweets
    –     Évidence thématique
    –     Évidence sociale
    –     Évidence temporelle
•   Intégration des facteurs de pertinence dans un réseau
    bayésien de croyance
•   Gain de 24% par rapport à la médiane TREC‘11
•   Perspectives
    –     Détecter automatiquement la taille de la fenêtre temporelle
    –     Adapter la combinaison des différentes sources d’évidence
          selon la nature de la requête

                                                                        31
Merci pour votre attention!




       http://twitter.com/amjedbj

Contenu connexe

En vedette

Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information SocialeIsmail BADACHE
 
Master Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMaster Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMedia Perspectives
 
Rethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticRethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticAlexandre Passant
 
Web-scale semantic search
Web-scale semantic searchWeb-scale semantic search
Web-scale semantic searchEdgar Meij
 
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011](Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011]Guillaume Cabanac
 
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxBarometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxHelloWork
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Lamjed Ben Jabeur
 
Moederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMoederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMedia Perspectives
 
Recomendación película: Los goonies
Recomendación película: Los gooniesRecomendación película: Los goonies
Recomendación película: Los gooniesantorome3
 
Mod 3
Mod 3Mod 3
Mod 3cefic
 
La performance de mon site internet
La performance de mon site internetLa performance de mon site internet
La performance de mon site internetotlcf
 
Cefic.redac. de inf. modulo 4
Cefic.redac. de inf.   modulo 4Cefic.redac. de inf.   modulo 4
Cefic.redac. de inf. modulo 4cefic
 
Dr.villasante
Dr.villasanteDr.villasante
Dr.villasantecefic
 
Dr. felix
Dr. felixDr. felix
Dr. felixcefic
 

En vedette (20)

Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information Sociale
 
Master Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de RijkeMaster Minds on Data Science - Maarten de Rijke
Master Minds on Data Science - Maarten de Rijke
 
Rethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed SemanticRethinking Microblogging: Open Distributed Semantic
Rethinking Microblogging: Open Distributed Semantic
 
Web-scale semantic search
Web-scale semantic searchWeb-scale semantic search
Web-scale semantic search
 
Clustering
ClusteringClustering
Clustering
 
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011](Micro)Blog : un sujet de recherche actuel [08/02/2011]
(Micro)Blog : un sujet de recherche actuel [08/02/2011]
 
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociauxBarometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
Barometre RegionsJob/Bringr : les conversations "emploi" sur les réseaux sociaux
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
 
Moederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het LabMoederpresentatie Cross Media Cafe - Uit het Lab
Moederpresentatie Cross Media Cafe - Uit het Lab
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
Recomendación película: Los goonies
Recomendación película: Los gooniesRecomendación película: Los goonies
Recomendación película: Los goonies
 
Mod 3
Mod 3Mod 3
Mod 3
 
La performance de mon site internet
La performance de mon site internetLa performance de mon site internet
La performance de mon site internet
 
Cefic.redac. de inf. modulo 4
Cefic.redac. de inf.   modulo 4Cefic.redac. de inf.   modulo 4
Cefic.redac. de inf. modulo 4
 
Dr.villasante
Dr.villasanteDr.villasante
Dr.villasante
 
Ppt ag 2011 rh-modif regl-tarifs
Ppt ag 2011 rh-modif regl-tarifsPpt ag 2011 rh-modif regl-tarifs
Ppt ag 2011 rh-modif regl-tarifs
 
Bkb Flash Labelvie 02 04 2010
Bkb Flash Labelvie 02 04 2010Bkb Flash Labelvie 02 04 2010
Bkb Flash Labelvie 02 04 2010
 
Kit de jeu
Kit de jeuKit de jeu
Kit de jeu
 
Dr. felix
Dr. felixDr. felix
Dr. felix
 
WebQuest
WebQuestWebQuest
WebQuest
 

Plus de Lamjed Ben Jabeur

Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Lamjed Ben Jabeur
 
IRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesIRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesLamjed Ben Jabeur
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science ProjectLamjed Ben Jabeur
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Lamjed Ben Jabeur
 
A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...Lamjed Ben Jabeur
 
An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...Lamjed Ben Jabeur
 

Plus de Lamjed Ben Jabeur (6)

Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
 
IRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queriesIRIT at clef 2015: A product search model for head queries
IRIT at clef 2015: A product search model for head queries
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science Project
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...
 
A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...A social model for Literature Access: Towards a weighted social network of au...
A social model for Literature Access: Towards a weighted social network of au...
 
An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...An Exploratory Study on Using Social Information Networks for Flexible Litera...
An Exploratory Study on Using Social Information Networks for Flexible Litera...
 

Dernier

PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneTxaruka
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film françaisTxaruka
 
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfBibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfBibdoc 37
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Aux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAmar LAKEL, PhD
 
Calendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilCalendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilfrizzole
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfSylvianeBachy
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursStagiaireLearningmat
 
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfBibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfBibdoc 37
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film françaisTxaruka
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxMartin M Flynn
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfbdp12
 
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24BenotGeorges3
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Gabriel Gay-Para
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxJCAC
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 37
 

Dernier (18)

PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienne
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film français
 
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfBibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Aux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècle
 
Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024
 
Calendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilCalendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avril
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceurs
 
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfBibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film français
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
 
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
 

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

  • 1. Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem IRIT, Université Paul Sabatier
  • 2. Modèle bayésien de recherche de tweets Plan 1. Service de microblogage 2. Recherche des tweets 3. Topologie du réseau bayésien 4. Estimation des probabilités conditionnelles 5. Evaluation expérimentale 6. Conclusion et perspectives 2
  • 3. Service de microblogage Microblog? “ Un service de microblogage est à la fois un moyen de communication et un système de collaboration qui permet le partage et la diffusion des messages textuels. Il permet aux utilisateurs de communiquer des informations sur leurs statuts, ” activités, pensées et opinions [Java et al.2009]. • Article de microblog – Court (140 caractères) 1 milliards Publications par semaine – Soumis en temps réel 50 millions Publications par jour – Motivation sociale 177 million Publications en mars 2011 – Appareil mobile +106 millions Utilisateurs 3
  • 4. Service de microblogage Tweet, retweet et hashtag ? “ Jack Dorsey 21 Mars 06  1ier Tweet inviting coworkers #oilspill “ Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010 In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf “ Wendy's 8 Juin 2011  Golden Tweet Award 2011 RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd “ CORIA11 16 mars 2010 CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y ““ MohBoughanem 17 Mars 2010 MohBoughanem CORIA11 17 Mars @coria2011 bien visualisé, vite trouvé2010 @coria2011 bien visualisé, vite trouvé 4
  • 5. Service de microblogage Réseau social d’information 5
  • 6. Recherche des tweets RI dans les microblogs • Utilisateur submergé par l’énorme quantité des tweets – Flux soutenu des publications – Enorme quantité de données – Diverses sources d’information Difficulté d'accès aux publications intéressantes • Les tâches de la RI dans les microblogs – Recherche de personnes et suggestion des abonnements – Extraction des tendances – La recherche d’opinions – La recherche de tweets 6
  • 7. Recherche des tweets Recherche de tweets “ tâche de recherche en temps réel où l'utilisateur souhaite accéder à l'information la plus récente, mais aussi la plus pertinente à une requête (Ounis et al., 2011). ” “ Recherche ad-hoc où le besoin en information est représenté par une requête à un moment spécifique (Ounis et al., 2011). ” • Objectifs et utilité – Obtenir une information crédible et précise – Accéder aux dernières actualités en temps réel – Suivre un évènement à distance – Collecter divers points de vue 7
  • 8. Recherche des tweets Synthèse des travaux 1. Contexte spatio-temporel TwitterStand (Sankaranarayanan J. et al, 2009) TweetSieve (Grinev M et al, 2009) 2. Caractéristiques des microblogs – Abonnements, tweets, retweets, réponses, hashtags, URLs – Combinaison linéaire (Nagmoti et al., 2010) – Apprentissage de fonctions d'ordonnancement (Duan Y et al., 2010) 8
  • 9. Recherche des tweets Synthèse des travaux 3. La structure du réseau social – Indegree, Retweet et Mention influence (Cha et al., 2010).,TweetRank, FollowerRank (Nagmoti et al., 2010). – Autorité (Kwak et al., 2010) – Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010), Popularité (Duan et al.,2010) 9
  • 10. Recherche des tweets Contributions Thématique • Facteurs de pertinence – Occurrence des termes – Magnitude temporelle – Influence sociale Temporelle Sociale • Réseau Bayésien de croyance (Silva et al., 2000) 10
  • 11. Topologie du réseau bayésien Requête, termes, configurations • Nœud requête q  0,1   – événements q q : , • Termes – l’univers de discours : U  k1 , k2 ,..., kn – variable aléatoire : ki   ,1 0 – évènements: ki , ki  – configuration des termes k exemple : k1 , k 2  k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 ) ( 11
  • 12. Topologie du réseau bayésien Tweets • Nœud tweet t j – variable aléatoire : t j  0,1 – événements: ti , ti • Nœuds associés au tweet t j – évidence thématique : t kj – évidence temporelle : t oj – évidence sociale : t sj 12
  • 13. Topologie du réseau bayésien Périodes, blogueurs • Nœud Période oe – variable aléatoire : oe  0,1 – évènements : oe , oe  oe temps (t ) t t o  o  e 2 e 2 • Nœud Blogueur u f – Variable aléatoire : u f  0,1 – Evénements : u f , u f 13
  • 14. Topologie du réseau bayésien Réseau bayésien q k1 k2 k3 o1 o2 u1 u1 tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 14
  • 15. Estimation des probabilités conditionnelles Évaluation de la requête    q P(t j | q)   P(q | k ) P(t j | k )P(k )  k      k1 k2 k3 P(t j | q)   P(q | k ) P(tkj | k )P(toj | k ) P(t sj | k ) P(k )  k o1 o2 u1 u1 tk1 tk2 tk3 to3 to2 to3 ts1 ts2 ts3 t1 t2 t3 15
  • 16. Estimation des probabilités conditionnelles Configuration des termes      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1 P(k )  n 2 16
  • 17. Estimation des probabilités conditionnelles Requête      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   1, si on(ki , q)  on(ki , k ), ki P(q | k )   0, sin on 17
  • 18. Estimation des probabilités conditionnelles Tweet (évidence thématique)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k  1 tf ki ,t j   P(t kj | k )   k   tf ki ,t j ki k t j 1 0,8 a=0,1 0,6 a=0,25 0,4 a=0,5 a=0,75 0,2 a=1 0 18 0 5 10
  • 19. Estimation des probabilités conditionnelles Tweet (évidence temporelle)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k    P(toj | k )  P(toj | oe ) P(oe | k )  P(toj | oe ) P(oe | k ) 1   oe (t j ) P(toj | oe )   (oe ) 19
  • 20. Estimation des probabilités conditionnelles Période      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(toj | k )  P(toj | oe ) P(oe | k ) tweets   df  ki ,oe 30 20 ki ,on( ki , k ) 1 P(oe | k )   df ki k1 10 t2  ki ,on( ki , k ) 1 0 1 termes 2 3 4 5 temps 20
  • 21. Estimation des probabilités conditionnelles Tweet (évidence sociale)      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k    P(tsj | k )  P(tsj | u f ) P(u f | k )  P(tsj | u f ) P(u f | k ) 1 P(t sj | u f )   (u f ) 21
  • 22. Estimation de la pertinence Blogueur      P(t j | q)   P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )  k   P(t sj | k )  P(t sj | u f ) P(u f | k )  P(u f | k)  P(u f )  Inf (u f ) U3 Calcule de PageRank sur le réseau de retweet u1 1 Inf Gk 1 (ui ) Inf (ui )  d G k  (1  d )  w j ,i u2 U u j ,e ( u j ,ui )E O(u j ) u4  (u j )   (u j ) w j ,i   (u j ) 22
  • 23. Évaluation expérimentale TREC Microblog 2011 • Collection de tweets Tweets 16 141 812 Blogueurs 5 356 432 Retweets 1 128 179 Relations des retweets 1 060 551 Tweet 1 860 112 Réseau social des retweets: nœuds 5 495 081 Termes 7 781 775 Réseau social des retweets: arcs 1 024 914 Hashtags 455 179 Composante géante 11.12% Fréquence des termes Hashtags Longueur (termes) 1.5E8 1.5E 7 1.5E 6 0 5 10 0 5 10 0 20 23 Distributions des fréquences, des hashtags et des longueurs des tweets
  • 24. Évaluation expérimentale TREC Microblog 2011 • Tâche de «Recherche en temps réel » (49 requêtes) – Tweets les plus récents. – Tweets postérieurs à la date de la requête. – Tweets triés par ordre chronologique inverse. – Tweets édités; Tweets en anglais. • Classement des systèmes (184 systèmes ) – Type de collection (HTML ou JSON). – Données externes (Web, blogs…etc.). – Information antérieur à la date de la requête. • Mesures d’évaluation – p@30 (officielle) – MAP – ALL Rel, High Rel 24
  • 25. Évaluation expérimentale Indexation et Filtrage • Plateforme NESTOR – Recherche en temps réel – Détection des mentions, des hashtags et des retweets en forme déclarative « RT @user » – Indentification des langues et tokenisation multilingue – Extraction et analyse des réseaux sociaux – etc. • Filtrage des tweets – Supprimer les tweets dans une langue autre que l’anglais – Supprimer les retweets et les tweets de conversation – Supprimer les tweets au-delà de la 30ème position 25
  • 26. Évaluation expérimentale Modèles de référence BNTS  Notre modèle bayésien de croyance pour le recherche des tweets BNTS-K  Modèle BNTS, composantes temporelle et sociale désactivées BNTS.KO  Modèle BNTS, composante sociale désactivée BNTS.KS  Modèle BNTS, composante temporelle désactivée Nestor  * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012) isiFDL  * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le classement de TREC Microblog 2011 (Metzler et al., 2011) DFReeKLIM30  * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le classement de TREC Microblog 2011 (Amati et al., 2011) Disjunctive  * Modèle thématique disjonctif basé sur le système de RI Lucene BM25  Modèle thématique d’Okapi BM25  Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels 26
  • 27. Évaluation expérimentale Paramétrage du modèle • Importance des fréquences des termes (BNTS.K) p @ 30  1 tf ki ,t j    0,35 P(t kj | k )    0,3 k ki k t j tf ki ,t j 0,25 0,2 0,15 0,1 0,05 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1  27
  • 28. Évaluation expérimentale Paramétrage du modèle • Taille de la fenêtre temporelle (BNTS.KO) p @ 30 0,32  t t  oe :  oe  , oe   0,315  2 2 0,31 0,305 0,3 0,295 jours 0,29 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 28 t
  • 29. Évaluation expérimentale Facteurs de pertinence p @ 30 BNTS BNTS.K BNTS.KO BNTS.KS 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Toutes les requêtes MB001 MB010 MB027 “BBC World Service "Egyptian protesters "Reduce energy 29 staff cuts” attack museum" consumption"
  • 30. Évaluation expérimentale Facteurs de pertinence isiFDL DFReeKLIM30 BNTS Médiane Nestor BM25 Disjunctive 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 * *** *** −30% −28% 24% 57% 180% 223% −17% −32% 12% 22% 5% 13% 0 p@30 MAP 30
  • 31. Modèle de recherche de tweets Conclusion et perspectives • Modèle de recherche de tweets – Évidence thématique – Évidence sociale – Évidence temporelle • Intégration des facteurs de pertinence dans un réseau bayésien de croyance • Gain de 24% par rapport à la médiane TREC‘11 • Perspectives – Détecter automatiquement la taille de la fenêtre temporelle – Adapter la combinaison des différentes sources d’évidence selon la nature de la requête 31
  • 32. Merci pour votre attention! http://twitter.com/amjedbj