Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

Mars 2015
Pertinence a Priori Basée
sur la Diversité et la
Temporalité des Signaux
Sociaux
Ismail BADACHE
Mohand BOUGHANEM
CORIA 2015

Plan de la présentation
4
1
3
2
5
Introduction
Etat de l’art
Approche Proposée
Evaluation expérimentale
Conclusion

CORIA 2015 3
1.1 Chiffres Internet
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
1,2 1,4 1,7
2,4
3,025
2011 2012 2013 2014 2015
Nombre d’internautes
86% 80% 83%
18% 12%
Canada USA France Afrique Asie du sud
Taux % de pénétration d’Internet dans le Monde
Temps passé sur Internet
Dans le monde :
 4,8 heures par jour via un ordinateur.
 2,1 heures via un mobile.
En France :
 4,1 heures par jour via un ordinateur.
 1 heure via un mobile.
Chaque minute sur Internet
 2 millions de recherches Google sont effectuées.
 204 millions de mails sont envoyés.
 3472 images sont épinglées sur Pinterest.
 216000 photos sont partagées sur Instagram.
 347222 photos sont partagées sur WhatsApp.
 72 heures de vidéo sont téléchargées sur YouTube.
70% des internautes sont des utilisateurs quotidiens
822 240 nouveaux sites Internet sont mis en ligne chaque jour
Source:
blogdumoderateur.com

CORIA 2015 4
1.2 Chiffres Réseaux Sociaux
Contenu social par 1 min
50000 Publications
2,3 Millions J’aime
~410 GO de données
Facebook
Nombre d’utilisateurs actifs Décembre 2014
Source:
blogdumoderateur.com
quantcast.com
semiocast.com
% Partages dans les RS

CORIA 2015 5
1.3 Schéma de Notre Approche
Ressources WebRéseaux Sociaux
J’aime (Frequence, Temps)
Commentaire(Frequence, Temps)
Partage (Frequence, Temps)
+1 (Frequence, Temps)
Pertinence Sociale Pertinence Thématique
Pertinence
Globale
Actions relevant d'activités sociales
(Signaux Sociaux)

CORIA 2015 6
1.4 Exemple de Ressource Contenant des Signaux
Date de la capture : 13/03/2015 à 16h48

CORIA 2015 7
1.5 Questions de Recherche
Comment estimer la diversité des signaux sociaux au sein d’une
ressource ?
2
Quel est l’impact de la diversité et du temps associés aux signaux
sociaux sur la performance de la RI ?
3
Comment prendre en compte les signaux sociaux et leur date de
création ainsi que la date de la ressource pour estimer la probabilité a
priori de la ressource ?
1

CORIA 2015 8
2. Etat de l’Art
Sources d’évidence Propriétés Modèles Auteurs
Critères sociaux indépendamment du temps
• Nombre de : clicks, votes, enregistrement et
recommandation.
Popularité
Importance
Combinaison
linéaire
(Karweg et al., 2011)
• Nombre de : j’aime, j’aime pas,
commentaire sur YouTube et nombre de
lecture d’un titre sur Last.fm.
Importance
Apprentissage
et
Combinaison
linéaire
(Chelaru et al., 2012)
(Khodaei et al. 2012)
• Nombre de retweet. Popularité
Technique
d’apprentissage
(Yang et al., 2012)
(Hong et al., 2011)
Critères sociaux sensibles au temps
• Analyse des signaux sociaux pour classer
l’intérêt des utilisateurs en 5 classes : recent,
ongoing, seasonal, past et random.
Intérêt
temporel
Etude
statistique
(Khodaei et Alonso,
2012)
• Exploiter le clic temporelle appelé ClickBuzz
pour mesurer l’intérêt d’un document à
travers le temps.
Buzz dans le
temps
Technique
d’apprentissage
(Inagaki et al., 2010)

CORIA 2015 9
3.1 Modèle de Langue
• Un document D peut être représenté à la fois par un ensemble de mots-
clés 𝐷 𝑚={𝑚1, 𝑚2, … 𝑚 𝑛} et des caractéristiques non-textuelles.
• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document
indépendamment de son contenu textuel.
• Dans notre approche : un document (ressource) est représenté par un
ensemble de mots-clés 𝐷 𝑚 et un ensemble de caractéristiques sociales
𝐷𝑠={𝑎1, 𝑎2, … 𝑎 𝑚}.
Probabilité a priori du
document D
Modèle textuel
Requête/Contenu
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘
𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 𝒔 ∙ 𝑃 𝑄 𝐷)

CORIA 2015 10
3.2 Estimation de P(D)
• Une manière simple d’estimer la probabilité a priori est d’effectuer un
simple comptage du nombre d’actions effectuées sur une ressource.
• 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance :
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝑃(𝑎𝑖)
𝑃 𝑎𝑖 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷)
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝐶𝑜𝑢𝑛𝑡 𝑎𝑖, 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶)
𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇
• Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C
en utilisant Dirichlet.

CORIA 2015 11
3.2 Estimation de P(D) : Temporalité des Signaux
• Le temps T intervient à deux niveaux dans notre approche. Il représente
deux types de dimensions temporelles :
1. L’historique de chaque signal (action), soit 𝑇𝑎 𝑖
= {𝑡1,𝑎𝑖
, 𝑡2,𝑎 𝑖
,... 𝑡 𝑘,𝑎 𝑖
}
l’ensemble de k moments (date) à laquelle une action ai a été produite.
Un instant de temps 𝑡 𝑘,𝑎 𝑖
représente la date et l’heure (datetime) de
l’action effectuée par un utilisateur u sur une ressource D.
2. La date de publication de la ressource, soit 𝑇 𝐷 = {𝑡 𝐷1
, 𝑡 𝐷2
,... 𝑡 𝐷 𝑛
}
l’ensemble de n date à laquelle chaque ressource D de la collection R a
été créée. 𝑡 𝐷 est la date de publication de la ressource D, cette date est
fournie en format datetime.

CORIA 2015 12
3.2.1 Date du Signal
𝐶𝑜𝑢𝑛𝑡𝑡 𝑎
𝑡𝑗,𝑎 𝑖
, 𝐷 =
𝑗=1
𝑘
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷 = 𝑒𝑥𝑝 −
∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2
2𝜎2
• Nous supposons que les ressources associées aux signaux frais devraient
être favorisées par rapport à ceux qui sont associées à des signaux anciens.
• Nous utilisons une pondération exponentielle (noyau Gaussien) qui
boosterait d’avantage les signaux récents vis-à-vis les vieux signaux.
• Plus la distance euclidienne relative au temps ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2 augmente,
plus la valeur du noyau Gaussien diminue.

CORIA 2015 13
3.2.2 Âge de la Ressource
𝐶𝑜𝑢𝑛𝑡𝑡 𝐷
𝑎𝑖, 𝐷 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐴𝑔𝑒(𝐷)
𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 −
‖𝑡 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡 𝐷‖2
2𝜎2
• Une vieille ressource a une plus grande chance d’avoir un grand nombre
d’interactions par rapport à une ressource publiée récemment. Donc, pour
résoudre ce problème, nous proposons de normaliser la distribution des
signaux sociaux associés à une ressource par la date de publication de la
ressource. On divise le nombre de signaux par l’âge de la ressource.
• La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une
fonction exponentielle (noyau Gaussien).

CORIA 2015 14
3.3 Estimation de P(D) : Diversité des Signaux
𝑃 𝐷 =
𝑎 𝑖 ∈ 𝐴
𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷 =
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 (𝐷)
𝑙𝑜𝑔(𝑚)
Avec m représente le nombre de signaux sociaux étudiés.
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐷 = −
𝑖=1
𝑚
𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖
• Une ressource dominée par un seul signal doit être défavorisée par rapport
à une ressource ayant une équi-répartition des signaux. On propose
d’évaluer cette diversité en utilisant l’indice de diversité de Shannon.
• L’indice de Shannon est souvent accompagné par l’indice d’équitabilité
de Piélou.
Donc :

CORIA 2015 15
4.1 Objectifs de l’Evaluation
1) Etudier l’impact de la temporalité des signaux sociaux (date du signal
et l’âge de la ressource) sur la performance de la RI.
2) Etudier l’apport de la prise en compte de la diversité des signaux au
sein de la ressource.
• Cadre d’évaluation :
- Utilisation de la collection INEX IMDb.
- Collecter des signaux sociaux et leur caractéristiques temporelles
pour chaque document IMDb et monter l’expérimentation.

CORIA 2015 16
4.2 Description de la Collection de Test
Champ Description Statut
ID identifiant du film (le document). -
Title le titre du film. indexé
Year l’année de sortie du film. indexé
Rated classement des films selon le type du contenu. -
Released date de réalisation du film. indexé
Runtime durée du film. indexé
Genre genre de film (Action, Drame, etc.). indexé
Director le directeur du projet du film. indexé
Writer les écrivains et les scénaristes du film. indexé
Actors les acteurs principaux du film. indexé
Plot résumé textuel du film. indexé
Poster le lien URL de l’affiche du film. -
url le lien URL qui mène à la source originale du document. -
UGC Les différents signaux sociaux récupérés. -
4.2.1 Contenu Textuel : INEX IMDb 2011

CORIA 2015 17
ACEBOOK
J’aime
Partage
Commentaire
Date du Signal
WITTER
Tweet
GOOGLE+
Mention +1
Partage
LINKED
DELICIOUS
Bookmark
4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux
Fig 1. Pourcentage de distribution des signaux dans les documents

CORIA 2015 18
Réseau social Signaux Somme Min Max Moyenne
Facebook
J’aime 2478498 0 76842 85.8027
Partage 2718918 0 43918 94.1258
Commentaire 2845169 0 62281 98.4964
Twitter Tweet 499232 0 12223 17.2830
Google+ +1 73392 0 1475 2.5407
Delicious Bookmark 26143 0 986 0.9050
LinkedIn Partage 42787 0 29988 1.4812
4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb
- 30 Requêtes et leur Qrels issus d’INEX IMDb.
- 1000 premiers documents retournés par chaque requête.

CORIA 2015 19
4.3 Résultats : Temporalité des Signaux Sociaux
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Base (B) : Sans Prise en Compte de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Avec Prise en Compte de la Date de Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité
a Priori
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
Partage Commentaire
Avec Prise en Compte de
la Date de l’Action
P@10 P@20 nDCG MAP

CORIA 2015 20
4.3 Résultats : Diversité des Signaux Sociaux
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité a
Priori
P@10 P@20 nDCG MAP
0
0,2
0,4
0,6
0,8
TotalFacebook Tous
Base (B) : Sans Prise en Compte
de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité et la Date de
Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de la
Date de Publication
P@10 P@20 nDCG MAP

CORIA 2015 21
4.4 Analyse Quantitative et Qualitative des Signaux
Tableau 1. Statistiques sur la distribution des signaux dans les documents
(pertinents et non-pertinents) retournés par les 30 requêtes

CORIA 2015 22
4.4 Analyse Quantitative et Qualitative des Signaux
Fig 3. Pourcentage des documents pertinents contenants des signaux
Fig 2. Pourcentage des signaux dans les documents pertinents

CORIA 2015 23
5. Conclusion
• Modèle de recherche d’information sociale
- Evidence thématique (Modèle de langue)
- Evidence sociale :
1) Signaux sociaux.
2) Temporalité des signaux.
3) Diversité des signaux.
• Expérimentation sur une collection IMDb
- Amélioration significative par rapport aux modèles de base.
• Perspectives
- Intégration d’autres critères sociaux.
- Etude approfondie sur l’impact du temps de chaque action.
- Comparer le modèle proposé avec d’autres modèles sociaux.

http://www.irit.fr/~Ismail.Badache/
https://twitter.com/Ismail_badache
Merci @ACM et @CORIA2015 pour l’aide financière

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

Recommandé

Recommandé

Contenu connexe

Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux (20)

Plus de Ismail BADACHE

Plus de Ismail BADACHE (13)

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux