Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

Intégration des facteurs temps et autorité
sociale dans un modèle bayésien de
recherche de tweets

Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem
IRIT, Université Paul Sabatier

Modèle bayésien de recherche de tweets

Plan

1. Service de microblogage
2. Recherche des tweets
3. Topologie du réseau bayésien
4. Estimation des probabilités conditionnelles
5. Evaluation expérimentale
6. Conclusion et perspectives

2

Service de microblogage

Microblog?

“ Un service de microblogage est à la fois un moyen de
communication et un système de collaboration qui permet le
partage et la diffusion des messages textuels. Il permet aux
utilisateurs de communiquer des informations sur leurs statuts,

”
activités, pensées et opinions [Java et al.2009].

• Article de microblog
– Court (140 caractères)
1 milliards Publications par semaine
– Soumis en temps réel 50 millions Publications par jour
– Motivation sociale 177 million Publications en mars 2011
– Appareil mobile +106 millions Utilisateurs

3


Tweet, retweet et hashtag ?

“
Jack Dorsey 21 Mars 06  1ier Tweet
inviting coworkers #oilspill

“
Stephen Colbert 21 Juin 2010  Golden Tweet Award 2010
In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf

“
Wendy's 8 Juin 2011  Golden Tweet Award 2011
RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd

“
CORIA11 16 mars 2010
CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y

““
MohBoughanem 17 Mars 2010
MohBoughanem CORIA11 17 Mars
@coria2011 bien visualisé, vite trouvé2010
@coria2011 bien visualisé, vite trouvé 4


Réseau social d’information

5

Recherche des tweets

RI dans les microblogs

• Utilisateur submergé par l’énorme quantité des tweets
– Flux soutenu des publications
– Enorme quantité de données
– Diverses sources d’information
Difficulté d'accès aux publications intéressantes

• Les tâches de la RI dans les microblogs
– Recherche de personnes et suggestion des abonnements
– Extraction des tendances
– La recherche d’opinions
– La recherche de tweets
6


Recherche de tweets

“ tâche de recherche en temps réel où l'utilisateur souhaite accéder
à l'information la plus récente, mais aussi la plus pertinente à
une requête (Ounis et al., 2011).
”
“ Recherche ad-hoc où le besoin en information est représenté par
une requête à un moment spécifique (Ounis et al., 2011).
”
• Objectifs et utilité
– Obtenir une information crédible et précise
– Accéder aux dernières actualités en temps réel
– Suivre un évènement à distance
– Collecter divers points de vue
7


Synthèse des travaux

1. Contexte spatio-temporel
TwitterStand (Sankaranarayanan J. et al, 2009) TweetSieve (Grinev M et al, 2009)

2. Caractéristiques des microblogs
– Abonnements, tweets, retweets, réponses, hashtags, URLs
– Combinaison linéaire (Nagmoti et al., 2010)
– Apprentissage de fonctions d'ordonnancement (Duan Y et
al., 2010)
8


Synthèse des travaux

3. La structure du réseau social
– Indegree, Retweet et Mention influence (Cha et al.,
2010).,TweetRank, FollowerRank (Nagmoti et al., 2010).
– Autorité (Kwak et al., 2010)
– Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010),
Popularité (Duan et al.,2010)

9


Contributions
Thématique
• Facteurs de pertinence
– Occurrence des termes
– Magnitude temporelle
– Influence sociale

Temporelle Sociale
• Réseau Bayésien de croyance
(Silva et al., 2000)

10

Topologie du réseau bayésien

Requête, termes, configurations

• Nœud requête q  0,1  
– événements q q
: ,
• Termes
– l’univers de discours : U  k1 , k2 ,..., kn
– variable aléatoire : ki   ,1
0
– évènements: ki , ki 
– configuration des termes k
exemple : k1 , k 2

k   k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 )
(
11


Tweets

• Nœud tweet t j
– variable aléatoire : t j  0,1
– événements: ti , ti

• Nœuds associés au tweet t j
– évidence thématique : t kj
– évidence temporelle : t oj
– évidence sociale : t sj

12


Périodes, blogueurs

• Nœud Période oe
– variable aléatoire : oe  0,1
– évènements : oe , oe
 oe temps (t )

t t
o  o 
e
2 e
2

• Nœud Blogueur u f
– Variable aléatoire : u f  0,1
– Evénements : u f , u f
13


Réseau bayésien
q

k1 k2 k3

o1 o2 u1 u1

tk1 tk2 tk3
to3 to2 to3 ts1 ts2 ts3

t1 t2 t3 14


Requête
    

k


 1, si on(ki , q)  on(ki , k ), ki
P(q | k )  
0, sin on

17


Tweet (évidence thématique)
    

k

 1 tf ki ,t j  
P(t kj | k )  
k
 
tf ki ,t j
ki k t j

1
0,8 a=0,1
0,6 a=0,25
0,4 a=0,5
a=0,75
0,2
a=1
0
18
0 5 10


Période
    

k

 
P(toj | k )  P(toj | oe ) P(oe | k )

tweets

  df  ki ,oe
30

20
ki ,on( ki , k ) 1
P(oe | k ) 
 df ki
k1
10
t2

ki ,on( ki , k ) 1 0
1 termes
2 3 4 5
temps

20

Estimation de la pertinence

Blogueur
    

k

 
P(t sj | k )  P(t sj | u f ) P(u f | k )


P(u f | k)  P(u f )  Inf (u f )
U3
Calcule de PageRank sur le réseau de retweet
u1
1 Inf Gk 1 (ui )
Inf (ui )  d
G
k
 (1  d )  w j ,i u2
U u j ,e ( u j ,ui )E O(u j )
u4

 (u j )   (u j )
w j ,i 
 (u j )
22

Évaluation expérimentale

TREC Microblog 2011

• Collection de tweets
Tweets 16 141 812 Blogueurs 5 356 432
Retweets 1 128 179 Relations des retweets 1 060 551
Tweet 1 860 112 Réseau social des retweets: nœuds 5 495 081
Termes 7 781 775 Réseau social des retweets: arcs 1 024 914
Hashtags 455 179 Composante géante 11.12%

Fréquence des termes Hashtags Longueur (termes)

1.5E8 1.5E 7 1.5E 6

0 5 10 0 5 10 0 20
23
Distributions des fréquences, des hashtags et des longueurs des tweets


TREC Microblog 2011
• Tâche de «Recherche en temps réel » (49 requêtes)
– Tweets les plus récents.
– Tweets postérieurs à la date de la requête.
– Tweets triés par ordre chronologique inverse.
– Tweets édités; Tweets en anglais.
• Classement des systèmes (184 systèmes )
– Type de collection (HTML ou JSON).
– Données externes (Web, blogs…etc.).
– Information antérieur à la date de la requête.
• Mesures d’évaluation
– p@30 (officielle)
– MAP
– ALL Rel, High Rel
24


Indexation et Filtrage
• Plateforme NESTOR
– Recherche en temps réel
– Détection des mentions, des hashtags et des retweets en
forme déclarative « RT @user »
– Indentification des langues et tokenisation multilingue
– Extraction et analyse des réseaux sociaux
– etc.
• Filtrage des tweets
– Supprimer les tweets dans une langue autre que l’anglais
– Supprimer les retweets et les tweets de conversation
– Supprimer les tweets au-delà de la 30ème position
25


Modèles de référence
BNTS  Notre modèle bayésien de croyance pour le recherche des tweets
BNTS-K  Modèle BNTS, composantes temporelle et sociale désactivées
BNTS.KO  Modèle BNTS, composante sociale désactivée
BNTS.KS  Modèle BNTS, composante temporelle désactivée
Nestor  * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012)
isiFDL  * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le
classement de TREC Microblog 2011 (Metzler et al., 2011)
DFReeKLIM30  * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le
classement de TREC Microblog 2011 (Amati et al., 2011)
Disjunctive  * Modèle thématique disjonctif basé sur le système de RI Lucene
BM25  Modèle thématique d’Okapi BM25

 Seuil à 30 tweets;  Seuil automatique;  Aucun Seuil ; * Résulats officiels

26


Paramétrage du modèle

• Importance des fréquences des termes (BNTS.K)
p @ 30
 1 tf ki ,t j  

0,35
P(t kj | k )   
0,3 k ki k t j tf ki ,t j

0,25

0,2

0,15

0,1

0,05

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

 27


Paramétrage du modèle

• Taille de la fenêtre temporelle (BNTS.KO)
p @ 30
0,32
 t t 
oe :  oe  , oe  
0,315  2 2

0,31

0,305

0,3

0,295

jours
0,29

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
28
t


Facteurs de pertinence
p @ 30 BNTS BNTS.K BNTS.KO BNTS.KS
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Toutes les requêtes MB001 MB010 MB027
“BBC World Service "Egyptian protesters "Reduce energy 29
staff cuts” attack museum" consumption"


Facteurs de pertinence
isiFDL DFReeKLIM30 BNTS Médiane Nestor BM25 Disjunctive
0,5

0,45

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05 * *** ***
−30% −28% 24% 57% 180% 223% −17% −32% 12% 22% 5% 13%
0
p@30 MAP
30

Modèle de recherche de tweets

Conclusion et perspectives
• Modèle de recherche de tweets
– Évidence thématique
– Évidence sociale
– Évidence temporelle
• Intégration des facteurs de pertinence dans un réseau
bayésien de croyance
• Gain de 24% par rapport à la médiane TREC‘11
• Perspectives
– Détecter automatiquement la taille de la fenêtre temporelle
– Adapter la combinaison des différentes sources d’évidence
selon la nature de la requête

31

Merci pour votre attention!

http://twitter.com/amjedbj

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Lamjed Ben Jabeur

Plus de Lamjed Ben Jabeur (6)

Dernier

Dernier (8)

Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets