SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Mars 2015
Pertinence a Priori Basée
sur la Diversité et la
Temporalité des Signaux
Sociaux
Ismail BADACHE
Mohand BOUGHANEM
CORIA 2015
Plan de la présentation
4
1
3
2
5
Introduction
Etat de l’art
Approche Proposée
Evaluation expérimentale
Conclusion
CORIA 2015 3
1.1 Chiffres Internet
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
1,2 1,4 1,7
2,4
3,025
2011 2012 2013 2014 2015
Nombre d’internautes
86% 80% 83%
18% 12%
Canada USA France Afrique Asie du sud
Taux % de pénétration d’Internet dans le Monde
Temps passé sur Internet
Dans le monde :
 4,8 heures par jour via un ordinateur.
 2,1 heures via un mobile.
En France :
 4,1 heures par jour via un ordinateur.
 1 heure via un mobile.
Chaque minute sur Internet
 2 millions de recherches Google sont effectuées.
 204 millions de mails sont envoyés.
 3472 images sont épinglées sur Pinterest.
 216000 photos sont partagées sur Instagram.
 347222 photos sont partagées sur WhatsApp.
 72 heures de vidéo sont téléchargées sur YouTube.
70% des internautes sont des utilisateurs quotidiens
822 240 nouveaux sites Internet sont mis en ligne chaque jour
Source:
blogdumoderateur.com
CORIA 2015 4
1.2 Chiffres Réseaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Contenu social par 1 min
50000 Publications
2,3 Millions J’aime
~410 GO de données
Facebook
Nombre d’utilisateurs actifs Décembre 2014
Source:
blogdumoderateur.com
quantcast.com
semiocast.com
% Partages dans les RS
CORIA 2015 5
1.3 Schéma de Notre Approche
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Ressources WebRéseaux Sociaux
J’aime (Frequence, Temps)
Commentaire(Frequence, Temps)
Partage (Frequence, Temps)
+1 (Frequence, Temps)
Pertinence Sociale Pertinence Thématique
Pertinence
Globale
Actions relevant d'activités sociales
(Signaux Sociaux)
CORIA 2015 6
1.4 Exemple de Ressource Contenant des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Date de la capture : 13/03/2015 à 16h48
CORIA 2015 7
1.5 Questions de Recherche
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Comment estimer la diversité des signaux sociaux au sein d’une
ressource ?
2
Quel est l’impact de la diversité et du temps associés aux signaux
sociaux sur la performance de la RI ?
3
Comment prendre en compte les signaux sociaux et leur date de
création ainsi que la date de la ressource pour estimer la probabilité a
priori de la ressource ?
1
CORIA 2015 8
2. Etat de l’Art
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Sources d’évidence Propriétés Modèles Auteurs
Critères sociaux indépendamment du temps
• Nombre de : clicks, votes, enregistrement et
recommandation.
Popularité
Importance
Combinaison
linéaire
(Karweg et al., 2011)
• Nombre de : j’aime, j’aime pas,
commentaire sur YouTube et nombre de
lecture d’un titre sur Last.fm.
Importance
Apprentissage
et
Combinaison
linéaire
(Chelaru et al., 2012)
(Khodaei et al. 2012)
• Nombre de retweet. Popularité
Technique
d’apprentissage
(Yang et al., 2012)
(Hong et al., 2011)
Critères sociaux sensibles au temps
• Analyse des signaux sociaux pour classer
l’intérêt des utilisateurs en 5 classes : recent,
ongoing, seasonal, past et random.
Intérêt
temporel
Etude
statistique
(Khodaei et Alonso,
2012)
• Exploiter le clic temporelle appelé ClickBuzz
pour mesurer l’intérêt d’un document à
travers le temps.
Buzz dans le
temps
Technique
d’apprentissage
(Inagaki et al., 2010)
CORIA 2015 9
3.1 Modèle de Langue
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Un document D peut être représenté à la fois par un ensemble de mots-
clés 𝐷 𝑚={𝑚1, 𝑚2, … 𝑚 𝑛} et des caractéristiques non-textuelles.
• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document
indépendamment de son contenu textuel.
• Dans notre approche : un document (ressource) est représenté par un
ensemble de mots-clés 𝐷 𝑚 et un ensemble de caractéristiques sociales
𝐷𝑠={𝑎1, 𝑎2, … 𝑎 𝑚}.
Probabilité a priori du
document D
Modèle textuel
Requête/Contenu
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘
𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 𝒔 ∙ 𝑃 𝑄 𝐷)
CORIA 2015 10
3.2 Estimation de P(D)
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Une manière simple d’estimer la probabilité a priori est d’effectuer un
simple comptage du nombre d’actions effectuées sur une ressource.
• 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance :
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝑃(𝑎𝑖)
𝑃 𝑎𝑖 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷)
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝐶𝑜𝑢𝑛𝑡 𝑎𝑖, 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶)
𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇
• Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C
en utilisant Dirichlet.
CORIA 2015 11
3.2 Estimation de P(D) : Temporalité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Le temps T intervient à deux niveaux dans notre approche. Il représente
deux types de dimensions temporelles :
1. L’historique de chaque signal (action), soit 𝑇𝑎 𝑖
= {𝑡1,𝑎𝑖
, 𝑡2,𝑎 𝑖
,... 𝑡 𝑘,𝑎 𝑖
}
l’ensemble de k moments (date) à laquelle une action ai a été produite.
Un instant de temps 𝑡 𝑘,𝑎 𝑖
représente la date et l’heure (datetime) de
l’action effectuée par un utilisateur u sur une ressource D.
2. La date de publication de la ressource, soit 𝑇 𝐷 = {𝑡 𝐷1
, 𝑡 𝐷2
,... 𝑡 𝐷 𝑛
}
l’ensemble de n date à laquelle chaque ressource D de la collection R a
été créée. 𝑡 𝐷 est la date de publication de la ressource D, cette date est
fournie en format datetime.
CORIA 2015 12
3.2.1 Date du Signal
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝐶𝑜𝑢𝑛𝑡𝑡 𝑎
𝑡𝑗,𝑎 𝑖
, 𝐷 =
𝑗=1
𝑘
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷 = 𝑒𝑥𝑝 −
∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2
2𝜎2
• Nous supposons que les ressources associées aux signaux frais devraient
être favorisées par rapport à ceux qui sont associées à des signaux anciens.
• Nous utilisons une pondération exponentielle (noyau Gaussien) qui
boosterait d’avantage les signaux récents vis-à-vis les vieux signaux.
• Plus la distance euclidienne relative au temps ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2 augmente,
plus la valeur du noyau Gaussien diminue.
CORIA 2015 13
3.2.2 Âge de la Ressource
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝐶𝑜𝑢𝑛𝑡𝑡 𝐷
𝑎𝑖, 𝐷 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐴𝑔𝑒(𝐷)
𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 −
‖𝑡 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡 𝐷‖2
2𝜎2
• Une vieille ressource a une plus grande chance d’avoir un grand nombre
d’interactions par rapport à une ressource publiée récemment. Donc, pour
résoudre ce problème, nous proposons de normaliser la distribution des
signaux sociaux associés à une ressource par la date de publication de la
ressource. On divise le nombre de signaux par l’âge de la ressource.
• La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une
fonction exponentielle (noyau Gaussien).
CORIA 2015 14
3.3 Estimation de P(D) : Diversité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝑃 𝐷 =
𝑎 𝑖 ∈ 𝐴
𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷 =
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 (𝐷)
𝑙𝑜𝑔(𝑚)
Avec m représente le nombre de signaux sociaux étudiés.
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐷 = −
𝑖=1
𝑚
𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖
• Une ressource dominée par un seul signal doit être défavorisée par rapport
à une ressource ayant une équi-répartition des signaux. On propose
d’évaluer cette diversité en utilisant l’indice de diversité de Shannon.
• L’indice de Shannon est souvent accompagné par l’indice d’équitabilité
de Piélou.
Donc :
CORIA 2015 15
4.1 Objectifs de l’Evaluation
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
1) Etudier l’impact de la temporalité des signaux sociaux (date du signal
et l’âge de la ressource) sur la performance de la RI.
2) Etudier l’apport de la prise en compte de la diversité des signaux au
sein de la ressource.
• Cadre d’évaluation :
- Utilisation de la collection INEX IMDb.
- Collecter des signaux sociaux et leur caractéristiques temporelles
pour chaque document IMDb et monter l’expérimentation.
CORIA 2015 16
4.2 Description de la Collection de Test
Champ Description Statut
ID identifiant du film (le document). -
Title le titre du film. indexé
Year l’année de sortie du film. indexé
Rated classement des films selon le type du contenu. -
Released date de réalisation du film. indexé
Runtime durée du film. indexé
Genre genre de film (Action, Drame, etc.). indexé
Director le directeur du projet du film. indexé
Writer les écrivains et les scénaristes du film. indexé
Actors les acteurs principaux du film. indexé
Plot résumé textuel du film. indexé
Poster le lien URL de l’affiche du film. -
url le lien URL qui mène à la source originale du document. -
UGC Les différents signaux sociaux récupérés. -
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.2.1 Contenu Textuel : INEX IMDb 2011
CORIA 2015 17
4.2 Description de la Collection de Test
ACEBOOK
J’aime
Partage
Commentaire
Date du Signal
WITTER
Tweet
GOOGLE+
Mention +1
Partage
LINKED
DELICIOUS
Bookmark
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux
Fig 1. Pourcentage de distribution des signaux dans les documents
CORIA 2015 18
4.2 Description de la Collection de Test
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Réseau social Signaux Somme Min Max Moyenne
Facebook
J’aime 2478498 0 76842 85.8027
Partage 2718918 0 43918 94.1258
Commentaire 2845169 0 62281 98.4964
Twitter Tweet 499232 0 12223 17.2830
Google+ +1 73392 0 1475 2.5407
Delicious Bookmark 26143 0 986 0.9050
LinkedIn Partage 42787 0 29988 1.4812
4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb
- 30 Requêtes et leur Qrels issus d’INEX IMDb.
- 1000 premiers documents retournés par chaque requête.
CORIA 2015 19
4.3 Résultats : Temporalité des Signaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Base (B) : Sans Prise en Compte de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Avec Prise en Compte de la Date de Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité
a Priori
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
Partage Commentaire
Avec Prise en Compte de
la Date de l’Action
P@10 P@20 nDCG MAP
CORIA 2015 20
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.3 Résultats : Diversité des Signaux Sociaux
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité a
Priori
P@10 P@20 nDCG MAP
0
0,2
0,4
0,6
0,8
TotalFacebook Tous
Base (B) : Sans Prise en Compte
de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité et la Date de
Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de la
Date de Publication
P@10 P@20 nDCG MAP
CORIA 2015 21
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Tableau 1. Statistiques sur la distribution des signaux dans les documents
(pertinents et non-pertinents) retournés par les 30 requêtes
CORIA 2015 22
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Fig 3. Pourcentage des documents pertinents contenants des signaux
Fig 2. Pourcentage des signaux dans les documents pertinents
CORIA 2015 23
5. Conclusion
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Modèle de recherche d’information sociale
- Evidence thématique (Modèle de langue)
- Evidence sociale :
1) Signaux sociaux.
2) Temporalité des signaux.
3) Diversité des signaux.
• Expérimentation sur une collection IMDb
- Amélioration significative par rapport aux modèles de base.
• Perspectives
- Intégration d’autres critères sociaux.
- Etude approfondie sur l’impact du temps de chaque action.
- Comparer le modèle proposé avec d’autres modèles sociaux.
http://www.irit.fr/~Ismail.Badache/
https://twitter.com/Ismail_badache
Merci @ACM et @CORIA2015 pour l’aide financière

Contenu connexe

Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

Scénographie des controverses 2013 à Sciences Po, Ecole de la Com
Scénographie des controverses 2013 à Sciences Po, Ecole de la ComScénographie des controverses 2013 à Sciences Po, Ecole de la Com
Scénographie des controverses 2013 à Sciences Po, Ecole de la ComStéphane Rouilly
 
Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaRobert Viseur
 
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine Lallemand
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine LallemandBlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine Lallemand
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine LallemandCarine Lallemand
 
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMAND
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMANDGuérilla UX, "quick" mais pas "dirty" par Carine LALLEMAND
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMANDLa Cuisine du Web
 
Veille diaporama
Veille   diaporamaVeille   diaporama
Veille diaporamaNMignot
 
RCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéRCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéSafe Software
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05map8slide
 
Recherche et veille documentaire
Recherche et veille documentaireRecherche et veille documentaire
Recherche et veille documentaireFrançois Magnan
 
Veille documentaire et outils de communication du web 2.0
Veille documentaire et outils de communication du web 2.0Veille documentaire et outils de communication du web 2.0
Veille documentaire et outils de communication du web 2.0Claire Chignard
 
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...Mathieu Castonguay
 
Carnet de bord AP projet seconde 2015-16
Carnet de bord AP projet seconde 2015-16 Carnet de bord AP projet seconde 2015-16
Carnet de bord AP projet seconde 2015-16 Claudie Merlet
 
Compte-Rendu rencontre du groupe Culture du Datalab
Compte-Rendu rencontre du groupe Culture du DatalabCompte-Rendu rencontre du groupe Culture du Datalab
Compte-Rendu rencontre du groupe Culture du DatalabDatalab_PDL
 
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyseDiffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyseAdrien Guille
 
Veille documentaire et outils du web 2.0
Veille documentaire et outils du web 2.0Veille documentaire et outils du web 2.0
Veille documentaire et outils du web 2.0Claire Chignard
 

Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux (20)

2016 dan8002 formation_documentaire
2016 dan8002 formation_documentaire2016 dan8002 formation_documentaire
2016 dan8002 formation_documentaire
 
Veille et curation synthèse
Veille et curation synthèseVeille et curation synthèse
Veille et curation synthèse
 
Digital lab brief
Digital lab   briefDigital lab   brief
Digital lab brief
 
Scénographie des controverses 2013 à Sciences Po, Ecole de la Com
Scénographie des controverses 2013 à Sciences Po, Ecole de la ComScénographie des controverses 2013 à Sciences Po, Ecole de la Com
Scénographie des controverses 2013 à Sciences Po, Ecole de la Com
 
Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015
 
Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de Wikipedia
 
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine Lallemand
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine LallemandBlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine Lallemand
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine Lallemand
 
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMAND
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMANDGuérilla UX, "quick" mais pas "dirty" par Carine LALLEMAND
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMAND
 
Veille diaporama
Veille   diaporamaVeille   diaporama
Veille diaporama
 
RCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéRCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversité
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05
 
Recherche et veille documentaire
Recherche et veille documentaireRecherche et veille documentaire
Recherche et veille documentaire
 
Veille documentaire et outils de communication du web 2.0
Veille documentaire et outils de communication du web 2.0Veille documentaire et outils de communication du web 2.0
Veille documentaire et outils de communication du web 2.0
 
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...
Comment élaborer des méthodes et procédures d'élagage pour une bibliothèque p...
 
Carnet de bord AP projet seconde 2015-16
Carnet de bord AP projet seconde 2015-16 Carnet de bord AP projet seconde 2015-16
Carnet de bord AP projet seconde 2015-16
 
Compte-Rendu rencontre du groupe Culture du Datalab
Compte-Rendu rencontre du groupe Culture du DatalabCompte-Rendu rencontre du groupe Culture du Datalab
Compte-Rendu rencontre du groupe Culture du Datalab
 
Analyse des traces
Analyse des tracesAnalyse des traces
Analyse des traces
 
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyseDiffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
 
Recherche de citations
Recherche de citationsRecherche de citations
Recherche de citations
 
Veille documentaire et outils du web 2.0
Veille documentaire et outils du web 2.0Veille documentaire et outils du web 2.0
Veille documentaire et outils du web 2.0
 

Plus de Ismail BADACHE

Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Ismail BADACHE
 
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Ismail BADACHE
 
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Ismail BADACHE
 
Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Ismail BADACHE
 
Emotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingEmotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingIsmail BADACHE
 
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Ismail BADACHE
 
Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsIsmail BADACHE
 
Détection de contradiction dans les commentaires
Détection de contradiction dans les commentairesDétection de contradiction dans les commentaires
Détection de contradiction dans les commentairesIsmail BADACHE
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Ismail BADACHE
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014Ismail BADACHE
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceIsmail BADACHE
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a searchIsmail BADACHE
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information SocialeIsmail BADACHE
 

Plus de Ismail BADACHE (13)

Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?
 
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
 
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
 
Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?
 
Emotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingEmotional Social Signals for Search Ranking
Emotional Social Signals for Search Ranking
 
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
 
Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in Reviews
 
Détection de contradiction dans les commentaires
Détection de contradiction dans les commentairesDétection de contradiction dans les commentaires
Détection de contradiction dans les commentaires
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a Resource
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a search
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information Sociale
 

Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

  • 1. Mars 2015 Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux Ismail BADACHE Mohand BOUGHANEM CORIA 2015
  • 2. Plan de la présentation 4 1 3 2 5 Introduction Etat de l’art Approche Proposée Evaluation expérimentale Conclusion
  • 3. CORIA 2015 3 1.1 Chiffres Internet 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 1,2 1,4 1,7 2,4 3,025 2011 2012 2013 2014 2015 Nombre d’internautes 86% 80% 83% 18% 12% Canada USA France Afrique Asie du sud Taux % de pénétration d’Internet dans le Monde Temps passé sur Internet Dans le monde :  4,8 heures par jour via un ordinateur.  2,1 heures via un mobile. En France :  4,1 heures par jour via un ordinateur.  1 heure via un mobile. Chaque minute sur Internet  2 millions de recherches Google sont effectuées.  204 millions de mails sont envoyés.  3472 images sont épinglées sur Pinterest.  216000 photos sont partagées sur Instagram.  347222 photos sont partagées sur WhatsApp.  72 heures de vidéo sont téléchargées sur YouTube. 70% des internautes sont des utilisateurs quotidiens 822 240 nouveaux sites Internet sont mis en ligne chaque jour Source: blogdumoderateur.com
  • 4. CORIA 2015 4 1.2 Chiffres Réseaux Sociaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Contenu social par 1 min 50000 Publications 2,3 Millions J’aime ~410 GO de données Facebook Nombre d’utilisateurs actifs Décembre 2014 Source: blogdumoderateur.com quantcast.com semiocast.com % Partages dans les RS
  • 5. CORIA 2015 5 1.3 Schéma de Notre Approche 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Ressources WebRéseaux Sociaux J’aime (Frequence, Temps) Commentaire(Frequence, Temps) Partage (Frequence, Temps) +1 (Frequence, Temps) Pertinence Sociale Pertinence Thématique Pertinence Globale Actions relevant d'activités sociales (Signaux Sociaux)
  • 6. CORIA 2015 6 1.4 Exemple de Ressource Contenant des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Date de la capture : 13/03/2015 à 16h48
  • 7. CORIA 2015 7 1.5 Questions de Recherche 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Comment estimer la diversité des signaux sociaux au sein d’une ressource ? 2 Quel est l’impact de la diversité et du temps associés aux signaux sociaux sur la performance de la RI ? 3 Comment prendre en compte les signaux sociaux et leur date de création ainsi que la date de la ressource pour estimer la probabilité a priori de la ressource ? 1
  • 8. CORIA 2015 8 2. Etat de l’Art 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Sources d’évidence Propriétés Modèles Auteurs Critères sociaux indépendamment du temps • Nombre de : clicks, votes, enregistrement et recommandation. Popularité Importance Combinaison linéaire (Karweg et al., 2011) • Nombre de : j’aime, j’aime pas, commentaire sur YouTube et nombre de lecture d’un titre sur Last.fm. Importance Apprentissage et Combinaison linéaire (Chelaru et al., 2012) (Khodaei et al. 2012) • Nombre de retweet. Popularité Technique d’apprentissage (Yang et al., 2012) (Hong et al., 2011) Critères sociaux sensibles au temps • Analyse des signaux sociaux pour classer l’intérêt des utilisateurs en 5 classes : recent, ongoing, seasonal, past et random. Intérêt temporel Etude statistique (Khodaei et Alonso, 2012) • Exploiter le clic temporelle appelé ClickBuzz pour mesurer l’intérêt d’un document à travers le temps. Buzz dans le temps Technique d’apprentissage (Inagaki et al., 2010)
  • 9. CORIA 2015 9 3.1 Modèle de Langue 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Un document D peut être représenté à la fois par un ensemble de mots- clés 𝐷 𝑚={𝑚1, 𝑚2, … 𝑚 𝑛} et des caractéristiques non-textuelles. • 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document indépendamment de son contenu textuel. • Dans notre approche : un document (ressource) est représenté par un ensemble de mots-clés 𝐷 𝑚 et un ensemble de caractéristiques sociales 𝐷𝑠={𝑎1, 𝑎2, … 𝑎 𝑚}. Probabilité a priori du document D Modèle textuel Requête/Contenu 𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 ∙ 𝑃 𝑄 𝐷) 𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 𝒔 ∙ 𝑃 𝑄 𝐷)
  • 10. CORIA 2015 10 3.2 Estimation de P(D) 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Une manière simple d’estimer la probabilité a priori est d’effectuer un simple comptage du nombre d’actions effectuées sur une ressource. • 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance : 𝑃 𝐷 = 𝑎 𝑖∈𝐴 𝑃(𝑎𝑖) 𝑃 𝑎𝑖 = 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷) 𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷) 𝑃 𝐷 = 𝑎 𝑖∈𝐴 𝐶𝑜𝑢𝑛𝑡 𝑎𝑖, 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶) 𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇 • Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C en utilisant Dirichlet.
  • 11. CORIA 2015 11 3.2 Estimation de P(D) : Temporalité des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Le temps T intervient à deux niveaux dans notre approche. Il représente deux types de dimensions temporelles : 1. L’historique de chaque signal (action), soit 𝑇𝑎 𝑖 = {𝑡1,𝑎𝑖 , 𝑡2,𝑎 𝑖 ,... 𝑡 𝑘,𝑎 𝑖 } l’ensemble de k moments (date) à laquelle une action ai a été produite. Un instant de temps 𝑡 𝑘,𝑎 𝑖 représente la date et l’heure (datetime) de l’action effectuée par un utilisateur u sur une ressource D. 2. La date de publication de la ressource, soit 𝑇 𝐷 = {𝑡 𝐷1 , 𝑡 𝐷2 ,... 𝑡 𝐷 𝑛 } l’ensemble de n date à laquelle chaque ressource D de la collection R a été créée. 𝑡 𝐷 est la date de publication de la ressource D, cette date est fournie en format datetime.
  • 12. CORIA 2015 12 3.2.1 Date du Signal 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝐶𝑜𝑢𝑛𝑡𝑡 𝑎 𝑡𝑗,𝑎 𝑖 , 𝐷 = 𝑗=1 𝑘 𝑓 𝑡𝑗,𝑎 𝑖 , 𝐷 𝑓 𝑡𝑗,𝑎 𝑖 , 𝐷 = 𝑒𝑥𝑝 − ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖 ∥2 2𝜎2 • Nous supposons que les ressources associées aux signaux frais devraient être favorisées par rapport à ceux qui sont associées à des signaux anciens. • Nous utilisons une pondération exponentielle (noyau Gaussien) qui boosterait d’avantage les signaux récents vis-à-vis les vieux signaux. • Plus la distance euclidienne relative au temps ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖 ∥2 augmente, plus la valeur du noyau Gaussien diminue.
  • 13. CORIA 2015 13 3.2.2 Âge de la Ressource 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝐶𝑜𝑢𝑛𝑡𝑡 𝐷 𝑎𝑖, 𝐷 = 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷) 𝐴𝑔𝑒(𝐷) 𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 − ‖𝑡 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡 𝐷‖2 2𝜎2 • Une vieille ressource a une plus grande chance d’avoir un grand nombre d’interactions par rapport à une ressource publiée récemment. Donc, pour résoudre ce problème, nous proposons de normaliser la distribution des signaux sociaux associés à une ressource par la date de publication de la ressource. On divise le nombre de signaux par l’âge de la ressource. • La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une fonction exponentielle (noyau Gaussien).
  • 14. CORIA 2015 14 3.3 Estimation de P(D) : Diversité des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 𝑃 𝐷 = 𝑎 𝑖 ∈ 𝐴 𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐸𝑞𝑢𝑖𝑡 𝐷 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐸𝑞𝑢𝑖𝑡 𝐷 = 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 (𝐷) 𝑙𝑜𝑔(𝑚) Avec m représente le nombre de signaux sociaux étudiés. 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐷 = − 𝑖=1 𝑚 𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖 • Une ressource dominée par un seul signal doit être défavorisée par rapport à une ressource ayant une équi-répartition des signaux. On propose d’évaluer cette diversité en utilisant l’indice de diversité de Shannon. • L’indice de Shannon est souvent accompagné par l’indice d’équitabilité de Piélou. Donc :
  • 15. CORIA 2015 15 4.1 Objectifs de l’Evaluation 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 1) Etudier l’impact de la temporalité des signaux sociaux (date du signal et l’âge de la ressource) sur la performance de la RI. 2) Etudier l’apport de la prise en compte de la diversité des signaux au sein de la ressource. • Cadre d’évaluation : - Utilisation de la collection INEX IMDb. - Collecter des signaux sociaux et leur caractéristiques temporelles pour chaque document IMDb et monter l’expérimentation.
  • 16. CORIA 2015 16 4.2 Description de la Collection de Test Champ Description Statut ID identifiant du film (le document). - Title le titre du film. indexé Year l’année de sortie du film. indexé Rated classement des films selon le type du contenu. - Released date de réalisation du film. indexé Runtime durée du film. indexé Genre genre de film (Action, Drame, etc.). indexé Director le directeur du projet du film. indexé Writer les écrivains et les scénaristes du film. indexé Actors les acteurs principaux du film. indexé Plot résumé textuel du film. indexé Poster le lien URL de l’affiche du film. - url le lien URL qui mène à la source originale du document. - UGC Les différents signaux sociaux récupérés. - 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.2.1 Contenu Textuel : INEX IMDb 2011
  • 17. CORIA 2015 17 4.2 Description de la Collection de Test ACEBOOK J’aime Partage Commentaire Date du Signal WITTER Tweet GOOGLE+ Mention +1 Partage LINKED DELICIOUS Bookmark 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux Fig 1. Pourcentage de distribution des signaux dans les documents
  • 18. CORIA 2015 18 4.2 Description de la Collection de Test 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Réseau social Signaux Somme Min Max Moyenne Facebook J’aime 2478498 0 76842 85.8027 Partage 2718918 0 43918 94.1258 Commentaire 2845169 0 62281 98.4964 Twitter Tweet 499232 0 12223 17.2830 Google+ +1 73392 0 1475 2.5407 Delicious Bookmark 26143 0 986 0.9050 LinkedIn Partage 42787 0 29988 1.4812 4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb - 30 Requêtes et leur Qrels issus d’INEX IMDb. - 1000 premiers documents retournés par chaque requête.
  • 19. CORIA 2015 19 4.3 Résultats : Temporalité des Signaux Sociaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous Base (B) : Sans Prise en Compte de Diversité et du Temps P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous Avec Prise en Compte de la Date de Publication de la Ressource P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 Lucene Solr ML.Hiemstra Base (A) : Sans Probabilité a Priori P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 Partage Commentaire Avec Prise en Compte de la Date de l’Action P@10 P@20 nDCG MAP
  • 20. CORIA 2015 20 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale 4.3 Résultats : Diversité des Signaux Sociaux 0 0,1 0,2 0,3 0,4 0,5 Lucene Solr ML.Hiemstra Base (A) : Sans Probabilité a Priori P@10 P@20 nDCG MAP 0 0,2 0,4 0,6 0,8 TotalFacebook Tous Base (B) : Sans Prise en Compte de Diversité et du Temps P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de Diversité P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de Diversité et la Date de Publication de la Ressource P@10 P@20 nDCG MAP 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 TotalFacebook Tous Avec Prise en Compte de la Date de Publication P@10 P@20 nDCG MAP
  • 21. CORIA 2015 21 4.4 Analyse Quantitative et Qualitative des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Tableau 1. Statistiques sur la distribution des signaux dans les documents (pertinents et non-pertinents) retournés par les 30 requêtes
  • 22. CORIA 2015 22 4.4 Analyse Quantitative et Qualitative des Signaux 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale Fig 3. Pourcentage des documents pertinents contenants des signaux Fig 2. Pourcentage des signaux dans les documents pertinents
  • 23. CORIA 2015 23 5. Conclusion 1. Introduction 2. Etat de l’art 3. Approche proposée 5. Conclusion4. Evaluation expérimentale • Modèle de recherche d’information sociale - Evidence thématique (Modèle de langue) - Evidence sociale : 1) Signaux sociaux. 2) Temporalité des signaux. 3) Diversité des signaux. • Expérimentation sur une collection IMDb - Amélioration significative par rapport aux modèles de base. • Perspectives - Intégration d’autres critères sociaux. - Etude approfondie sur l’impact du temps de chaque action. - Comparer le modèle proposé avec d’autres modèles sociaux.