Leveraging social relevance: Using social networks to enhance literature access and microblog search
(Exploitation des réseaux sociaux pour l'accès à la littérature et la recherche des microblogs)
Thesis submitted for the degree of Doctor of Philosophy
Thesis defended on October 8th, 2013
Ph.D: Lamjed Ben Jabeur
Supervisor: Prof. Lynda Tamine, University of Toulouse 3 Paul Sabatier
Advisor: Prof. Mohand Boughanem, University of Toulouse 3 Paul Sabatier
Abstract(EN)
We propose in this work to integrate the social information network in the retrieval process and exploit the social relations between social actors as a source of evidence to measure the relevance of a document in response to a query. Two social information retrieval models have been proposed in different application frameworks: literature access and microblog retrieval. The main contributions of each model are detailed in the following.
* A social information model for flexible literature access
We proposed a generic social information retrieval model for literature access. This model represents scientific papers within a social network and evaluates their importance according to the position of respective authors in the network. Compared to previous approaches, this model incorporates new social entities represented by annotators and social annotations (tags). In addition to co-authorships, this model includes two other types of social relationships: citation and social annotation. Finally, we propose to weight these relationships according to the position of authors in the social network and their mutual collaborations.
* A social model for information retrieval for microblog search
We proposed a microblog retrieval model that evaluates the quality of tweets in two contexts: the social context and temporal context. The quality of a tweet is estimated by the social importance of the corresponding blogger. In particular, blogger's importance is calculated by the applying PageRank algorithm on the network of social influence. With the same aim, the quality of a tweet is evaluated according to its date of publication. Tweets submitted in periods of activity of query terms are then characterized by a greater importance. Finally, we propose to integrate the social importance of blogger and the temporal magnitude tweets as well as other relevance factors using a Bayesian network model.
Résumé (FR)
Nous proposons dans cette thèse d'intégrer le réseau social d'information dans le processus de recherche d'information afin d'utiliser les relations sociales entre les acteurs sociaux comme une source d'évidence pour mesurer la pertinence d'un document en réponse à une requête. Deux modèles de recherche d'information sociale ont été proposés à des cadres applicatifs différents : la recherche d'information bibliographique et la recherche d'information dans les microblogs.
An Exploratory Study on Using Social Information Networks for Flexible Litera...
Leveraging social relevance: Using social networks to enhance literature access and microblog searchr thesis
1. Leveraging social relevance:
Using social networks to enhance literature access
and microblog search
Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs
Lamjed BEN JABEUR
Directeurs de thèse
Lynda Tamine & Mohand Boughanem
2. Plan de la présentation
Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs
1 Recherche d'information sociale : Contexte et problématiques
Contributions de la thèse
2 Identification des acteurs sociaux prominents
3 Modèle de réseaux bayésiens pour la recherche de tweets
4 Modèle de recherche d'information sociale pour l'accès à la littérature
5 Conclusion et perspectives
2
4. 1.1
Émergence du Web social
Vers un « Réseau des personnes »
1972
1990 1994
ARPANET WWW E-commerce
1995
1998
1999 2001 2003
Annuaire Recherche Blogs Wiki
Réseaux sociaux
Recherche d'information sociale
4
5. 1.2
Émergence du Web social
Utilisateurs des réseaux sociaux
Nombre d’utilisateurs (109)
Consommateurs de contenu social
Pourcentage d’utilisateurs par catégorie
Vidéo
2014
2013
Contenu social (États-Unis)
2012
États-Unis
2011
Monde
42,6%
Réseau social
1.85
1.66
1.43
1.2
68%
Blog
Wiki
67,0%
50,5%
47,2%
Source: eMarketer, Janvier 2009
Réseaux sociaux les plus populaires
50 millions d’utilisateurs
Facebook
Twitter
LinkedIn
Source: Wikipedia, Juillet 2013
Recherche d'information sociale
5
6. 1,3
Recherche d’information sociale
Scénarii de recherche
Réseau social
Interactions & contenu social
blog, photo, vidéo,
note, opinion, wiki,
commentaires, tags,
microblog, ODP, clics
marque-page,
Information & ressources
HTML
HTML
HTML
HTML
requête
HTML
HTML
Système de Recherche d’Information
HTML
HTML
HTML
HTML
HTML
1 Exploitation de contenu social et des réseau sociaux
2 Recherche dans le contenu social
3 Recherche de personnes
Contributions
1 Recherche dans les Microblogs
Recherche dans le contenu social
2 Accès à la littérature
Exploitation de contenu social et des réseau sociaux
Recherche d'information sociale
6
7. 1,5
Services de microblogage
Définition et caractéristiques
“
Un service de microblogage est à la fois un moyen de communication et un
système de collaboration qui permet le partage et la diffusion des messages
textuels. Il permet aux utilisateurs de communiquer des informations sur leurs
statuts, activités, pensées et opinions (Java et al.2009).
”
Article de microblog
Court (140 caractères)
Soumis en temps réel
Motivation sociale
Appareil mobile
300 milliards
Publications
500 millions Publications par jour
218 millions Utilisateurs actifs mensuels
100 millions Utilisateurs actifs journaliers
3 Octobre 2013
Recherche d'information sociale
7
8. 1,6
Services de microblogage
Exemple : élections présidentielles américaines 2012
Retweet
Barack Obama @BarackObama
Four more years. pic.twitter.com/bAJE6Vom
Mention
Retweeted by Jack Dorsey
David Cameron @David_Cameron
7 Nov 2012
809,104 RETWEETS 301,873 FAVORITES
7 Nov 2012
Warm congratulations to my friend @BarackObama. Look forward
to continuing to work together.
2,239 RETWEETS 480 FAVORITES
Réponse
Alicia Keys @alciciakeys
@BarackObama WE did it!!!
Hashtag
View conversation
Twitter Government @gov
7 Nov 2012
467 RETWEETS 242 FAVORITES
7 Nov 2012
With 20 million tweets, Election Day just became the most tweeted about
event
URL (photo, video, blog, etc) in US political history. #election2012 6,082 RETWEETS 695 FAVORITES
Barack Obama @BarackObama
Four more years. pic.twitter.com/bAJE6Vom
View photo
7 Nov 2012
809,104 RETWEETS 301,873 FAVORITES
Recherche d'information sociale
8
10. 1,7
Recherche d’information dans les microblogs
Tâches de recherche d’information
With 20 million tweets, Election Day just became the most
tweeted about event in US political history. #election2012
CNN election night coverage
@justinbieber
25-06-2011
@cnn
Barack Obama Wins Re-Election
@BarackObama
Warm congratulations to my
friend @BarackObama
Four more years
@bob
@BarackObama WE did it!!!
07-11-2012
election
Recherche d'information sociale
10
12. 2,2
Réseau social
Réseau d’abonnement
Président
Premier ministre
Barack Obama
David Cameron
32 215 616 ABONNÉS
Star
Alicia Keys
13 869 943 ABONNÉS
328 840 ABONNÉS
CEO Twitter
Jack Dorsey
2 331 304 ABONNÉS
Relation sociales:
Abonnements (Weng et al., 2010)
Retweets (Conover et al., 2011
Service Twitter
Twitter Government
402 317 ABONNÉS
Réponses (Sousa et al., 2010)
Mentions (Conover et al., 2011)
Acteurs sociaux prominents
12
13. 2,3
Influence sociale
Définition & propriétés
Popularité
Autorité
Barack Obama
32 215 616 ABONNÉS
Alicia Keys
13 869 943 ABONNÉS
David Cameron
328 840 ABONNÉS
(Nagmoti et al. 2010)
Conversation
(Kwak et al. 2010; Duan et al., 2010; Weng et al. 2010)
Diffusion de l’information
URL
@
@
@
@
URL
@
@
(Cha et al., 2010; Pal and Counts, 2011)
URL
URL
URL
(Bakshy et al. 2011)
Acteurs sociaux prominents
13
14. 2,4
Réseau social des microbloggeurs
Topologie et pondération des relations sociales
Multi-graph
𝐺 ≔ (𝑈, 𝐸, Σ 𝐸 , 𝑙 𝑒 , 𝑤)
𝑈 : microbloggeurs
u2
𝐸: relation sociales
Σ 𝐸 : abonnement, retweet, mention
f
1
u2
𝑤 : poids des relations
𝑤 𝑓 𝑢 𝑖, 𝑢𝑗
𝑂 𝑢 𝑖 , 𝑓 ∩ 𝑂 𝑢 𝑗 , 𝑓 ∪ {𝑢 𝑖 }
=
𝑂(𝑢 𝑖 , 𝑓)
m
0,5
f 0,5
𝑙 𝐸 : étiquette sur les arcs
Abonnement
u2
f
1
f
1
Retweet
𝑤 𝑟 𝑢 𝑖, 𝑢𝑗
f
1
u2
m
1
f
1
r
0,5 f
1
u2
Mention
𝑇 𝑢 𝑗 ∩ 𝑅− 𝑢 𝑖
=
𝑇 𝑢𝑖
𝑤 𝑚 𝑢 𝑖, 𝑢𝑗 =
𝑀+ 𝑢 𝑖 ∩ 𝑅− 𝑢 𝑗
𝑀+ 𝑢 𝑖
Acteurs sociaux prominents
14
15. 2,5
Indentification d’acteurs prominents
Influenceurs du réseau social
Acteurs prominents
Algorithme PageRank
1 Influenceurs
Inspirer le réseau social
2 Leaders
Engager une communauté
3 Débatteurs
Initier un débat
Algorithmes
1 InfRank
2 LeadRank
3 DisucssRank
Acteurs sociaux prominents
15
16. 2,5
Indentification d’acteurs prominents
Influenceurs du réseau social
Algorithmes
m
f
r
1 InfRank
Popularity
f
P
m
2 LeadRank
P
f
r
r
P
P
f
3 DiscussRank
P
m
P
f
Comparaison
Poids initial
Diffusion des poids
Abonnement
Retweet
Mention
Abonnement
Retweet
Mention
Popularité
InfRank
Attraction
LeadRank
Interlocuteurs
DiscussRank
Acteurs sociaux prominents
16
22. 3,1
Recherche d’information sociale
Recherche dans le contenu social
Réseau Social
Interactions & contenu social
blog, photo, vidéo,
note, opinion, wiki,
commentaires, tags,
microblog, ODP, clics
marque-page,
Information & ressources
HTML
HTML
HTML
requête
HTML
HTML
HTML
Système de Recherche d’Information
HTML
2 RI dans le contenu social
Recherche de tweets
22
23. 3,2
Recherche de tweets
Facteurs de pertinence
Contenu
Combinaison des facteurs
Approche de combinaison linéaire
Approche unifiée
Apprentissage automatique
Réinjection de pertinence
Temps
Social
Recherche de tweets
23
24. 3,3
Modèle de recherche de tweets
Intégration des facteurs temps et influence sociale
Thématique
Temporelle
Sociale
Modèle de réseau Bayésien pour la recherche de tweets
Réseau Bayésien d’influence
Réseau Bayésien de croyance
Recherche de tweets
24
25. 3,4
Réseau d’inférence Bayésien
Topologie
q
Requête
P(q t i ) P(q | k )P(k | t i ) P( t i | u k ) P(u k )
Termes
k1
k2
k3
k
P(q t j ) P(q | k )P( t j | u k ) P(u k )
k
Tweets
t1
Microbloggeurs
t2
u1
t3
P(k i | t j ) P(k i | t j )
k |on(i,k ) 1
k i |on(i,k ) 0
i
u2
Recherche de tweets
25
26. 3,5
Réseau de croyance bayésien
Topologie du réseau
q
k1
P(t j | q) P(q | k ) P(t j | k )P(k )
k2
P(t j | q) P(q | k ) P(tkj | k )P(t sj | k ) P(toj | k ) P(k )
k
k3
k
o1
tk1
tk2
tk3
to3
o2
to2
t1
u1
to3
t2
ts1
u1
ts2
ts3
t3
Recherche de tweets
28
27. 3,6
Evaluation de la requête
Pertinence thématique
P(t j | k )
tf ki ,t j
1
P(t j | k )
t ) tf
| q | ki ( q j
k i ,t j
1
0,8
0,6
tf ki ,t j
0,4
1
3
β=1/2
5
β=1/3
7
β=1/4
9
β=1/5
Recherche de tweets
11
β=1/6
27
28. 3,6
Evaluation de la requête
Pertinence temporelle
P(t oj|k ) P(t oj|oe )P(oe|k )
30
25
20
log ( o o ) df k ,o
e
s
e
P(oe | k )
log ( q os ) df k
15
10
5
0
1
2
3
Obama & Elec
4
Elec
5
Obama
Recherche de tweets
28
30. 3,7
Évaluation expérimentale
TREC Microblog 2011 - 2012
16
tweets
16
5,3
1
49
59
184
jours
millions
Blogueurs
Retweets
Requêtes
groupes
systèmes
millions
millions
(Ounis et al., 2011)
Conditions de pertinence
Mesure d’évaluation
Tweets postérieurs à la date de la requête.
Nouveau tweets seulement (retweets)
Tweets en anglais
Ordre chronologique inverse.
P@30 (Officielle)
MAP, ROC
Fréquence des termes
0
5
10
Longueur (termes)
0
10
20
Hashtags
0
5
Recherche de tweets
10
30
31. 3,7
Évaluation expérimentale
Collection « Arab Spring »
Jugements de pertinence
Les 20 premiers tweets de chaque système (trié par score)
Prise en compte des retweet
Multilingue (Anglais, Français et Arabe)
Thématique
Temporel
Social
« Number of protesters in Tahrir »
« Tunisian revolution »
…etc,
« ElBaradei arrives in Egypt »
« Clashes in Tahrir »
« SMS Down Egypt »
« Wael Ghonim »
« Mubarak…»
…etc,
(Teevan et al., 2011)
25
Requêtes
Mesure d’évaluation
P@10
P@20
Recherche de tweets
31
39. 4,1
Recherche d’information sociale
Exploitation des réseaux sociaux
Réseau Social
Interactions & contenu social
blog, photo, vidéo,
note, opinion, wiki,
commentaires, tags,
microblog, ODP, clics
marque-page,
Information & ressources
HTML
HTML
HTML
HTML
requête
HTML
HTML
Système de Recherche d’Information
HTML
HTML
HTML
HTML
HTML
1 Exploitation de contenu social et des réseau sociaux
Accès à littérature
39
40. 4,2
Modèle social de RI bibliographique
Combinaison de la pertinence thématique et de la pertinence sociale
Articles scientifiques
Auteurs
Annotateurs
CombMax
BM25
SRI classique
Pertinence
thématique
SoRank
SoRank
Expertise - Autorité
Combinaison linéaire
Expertise - Autorité
Pertinence
Sociale
Pertinence
Globale
𝑅𝑒𝑙 𝑑, 𝑄, 𝐺 =∝ 𝑅𝑒𝑙 𝑑, 𝑄 + 1 −∝ 𝑆 𝑑 (𝑑, 𝑄, 𝐺)
Accès à littérature
40
43. 5,1
Contributions
Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs
Modélisation des réseaux sociaux
Évaluation de la pertinence sociale
Intégration des facteurs de pertinence
Identification des acteurs sociaux prominents
Pertinence des leaders
Impact du profil social sur l’évaluation pertinence
Intégration des facteurs temps et importance sociale
Approche de combinaison linéaire, approche unifié
Pertinence thématique est primordiale
Conclusion
43
44. 5,2
Perspectives
Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs
Problème de disponibilité de graph social
Protocole d’évaluation des acteurs sociaux prominents
Optimisation des temps de calcul
Détection de profil de la requête
Longueur optimale d’une période
Poids d’expertise
Approche unifiée pour l’accès à la littérature
A long terme
Ordonnancement de plusieurs entités
Leaders des compagnes électorales
Conclusion
44
45. MERCI POUR VOTRE ATTENTION!
Suivez-moi sur Twitter
@amjedbj
Téléchargez cette présentation sur : slideshare.net/amjedbj
irit.fr/~Lamjed.Ben-Jabeur/thesis.pdf