Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information 
dans les médias sociaux 
Modélisation et analyse ...
Laboratoire ERIC 
Université Lumière Lyon 2 
Introduction 
Pourquoi étudier les médias sociaux ? 
• Manière nouvelle de pr...
Laboratoire ERIC 
Université Lumière Lyon 2 
Introduction 
Médias sociaux et diffusion de l’information 
• Deux fonctionna...
Laboratoire ERIC 
Université Lumière Lyon 2 
jŸj k 
jŸj kà 
Introduction 
Travaux de recherche menés dans cette thèse 
• ...
!O¿¿
!O¿¿ 
  
gdPIGIh 
KpJ[IZI[jh 
gdPIGIh 
gIG][G[EIh 
gdPIGIh 
KpJ[IZI[jh 
p[jYNkhQ][GIhKpJ[IZI[jhGkdYQfkKh dgJhYNkhQ][ 
/KY...
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Introduction 
• Comment détecter automatiquement les...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
État de l’art et proposition 
• Approches existantes...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée 
• MABED : Mention-Anomaly-Based Ev...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée 
• MABED : Mention-Anomaly-Based Ev...
2005). Par conséquent nous pouvons écrire : 
l’échelle et s’adapte donc facilement à la taille du vocabulaire. 
peut être ...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée : phase II 
• Identifier les mots d...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
• Protocole 
• Deux corpus : Cen (...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
• Évaluation qualitative 
• Ex...
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
...
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
...
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Introduction 
• Comment modéliser et prévo...
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
État de l’art et proposition 
• Approches ...
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée 
• T-BASIC : Time-Based A...
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée 
• T-BASIC : Time-Based A...
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée : description du modèle 
...
pux,— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
Laboratoire ERIC 
Université Lumièr...
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Diffusion de l'information dans les médias sociaux : modélisation et analyse
Prochain SlideShare
Chargement dans…5
×

Diffusion de l'information dans les médias sociaux : modélisation et analyse

741 vues

Publié le

Thèse de doctorat présentée et soutenue publiquement par Adrien Guille, le 25 novembre 2014 à l'université Lumière Lyon 2

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
741
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
23
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Diffusion de l'information dans les médias sociaux : modélisation et analyse

  1. 1. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Thèse de doctorat présentée et soutenue publiquement par Adrien Guille le 25 novembre 2014 Discipline : Informatique Université : Université Lumière Lyon 2 École doctorale : Informatique et Mathématiques (InfoMaths, ED 512) Laboratoire : Entrepôts, Représentation & Ingénierie des Connaissances (ERIC, EA 3083) Directeur : Djamel Zighed Co-directrice : Cécile Favre
  2. 2. Laboratoire ERIC Université Lumière Lyon 2 Introduction Pourquoi étudier les médias sociaux ? • Manière nouvelle de produire, diffuser et consommer l’information • Utilisateurs producteurs et consommateurs d’information • Vecteurs d’information efficaces • e.g. élection de Barack Obama [Hughes09] • e.g. Printemps arabe [Howard11] • Apparition d’un phénomène de surcharge informationnelle • Cette thèse s’intéresse au phénomène de diffusion de l’information dans les médias sociaux • Objectif : fournir des moyens de modélisation et d’analyse Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 2
  3. 3. Laboratoire ERIC Université Lumière Lyon 2 Introduction Médias sociaux et diffusion de l’information • Deux fonctionnalités essentielles • Publication de messages sur une page de profil • Connexion à d’autres utilisateurs afin de suivre leurs publications • Influence sociale • Diffusion de l’information • Le média social type : Twitter • Propositions génériques • Expérimentations sur Twitter Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Accès aux données • 500·106 utilisateurs • 20·109 abonnements 3 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
  4. 4. Laboratoire ERIC Université Lumière Lyon 2 jŸj k jŸj kà Introduction Travaux de recherche menés dans cette thèse • Problématiques et contributions • Quels éléments d’information retiennent l’attention des utilisateurs ? • Algorithme pour détecter automatiquement les évènements significatifs • Comment et pourquoi un élément d’information donné se diffuse-t-il ? • Modèle pour prévoir la diffusion de l’information • Quels utilisateurs peuvent influencer la diffusion d’un élément d’information ? • Logiciel pour l’analyse de l’influence par rapport aux évènements • Approche • Fouille des données issues des médias sociaux Page ÁÁÊ Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 4 Y’Q[NYkI[EI G’KpJ[IZI[jh /j]EX<OI GIh G][[KIh +gKdgjQ][IjZ[QdkYjQ][GIhG][[KIh IrjI[hQ][h Zd]gjGIG][[KIh¥ZIhhOIhIjgKhIk¦ /$9 k kà kÄ ™ jŸj kÄ KjdI KjdIà KjdIÄ KjdIÅ ÁÂÉ ÁÁÆ ÁÃ ÁÅ ÁÁÅ ÁÂà ÁÃà ÁÂÂ
  5. 5. !O¿¿
  6. 6. !O¿¿ gdPIGIh KpJ[IZI[jh gdPIGIh gIG][G[EIh gdPIGIh KpJ[IZI[jh p[jYNkhQ][GIhKpJ[IZI[jhGkdYQfkKh dgJhYNkhQ][ /KYIEjQ][ +gKŸjgQjIZI[j 0g[hN]gZjQ][ rdY]gjQ][GIh G][[KIh [jIgdgKjjQ][ ][[KIh pYkjQ][ DgkjIh ][[Qh Ÿh[EI ][[KIhEQDYIh ][[KIhdgKŸjgQjKIh ][[KIh jg[hN]gZKIh !]jQNh
  7. 7. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Première contribution Détecter les évènements significatifs dans les médias sociaux Soutenance de thèse - 25 novembre 2014 Adrien Guille
  8. 8. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Introduction • Comment détecter automatiquement les évènements significatifs à partir des médias sociaux ? • Évènements significatifs : potentiellement traités par les médias traditionnels [McMinn13] • Messages liés noyés par des messages sans rapport, i.e. bruit • Analyse de l’évolution temporelle des thématiques [Leskovec09] • On suppose que les thématiques «saillantes» signalent les évènements Page Diffusion de l’information dans les médias sociaux Modélisation et analyse [Kleinberg02] / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 6
  9. 9. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements État de l’art et proposition • Approches existantes • Pondération statistique des termes [Shamma11, Benhardus13] • Modélisation probabiliste des thématiques latentes [Lau12, Yuheng12] • Classification non supervisée des termes [Weng11, Li12, Parikh13] • Limitations des approches existantes • Durée des évènements fixée à l’avance [Romero11] • Prise en compte du contenu textuel uniquement • Proposition • Estimer dynamiquement la durée de chaque évènement • Exploiter l’aspect social du flux de messages via les mentions Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Mention : lien dynamique inséré dans un message 7 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
  10. 10. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée • MABED : Mention-Anomaly-Based Event Detection Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 8 • Entrée • Un corpus de messages partitionné en n tranches temporelles • Sortie • Les k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés
  11. 11. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée • MABED : Mention-Anomaly-Based Event Detection Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 8 • Entrée • Un corpus de messages partitionné en n tranches temporelles • Sortie • Les k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés
  12. 12. 2005). Par conséquent nous pouvons écrire : l’échelle et s’adapte donc facilement à la taille du vocabulaire. peut être approximée par une loi normale, c’est-à-dire : est la probabilité Laboratoire ERIC qu’un message contienne le mot t et au moins une men-tion, Université Lumière Lyon 2 que soit la tranche temporelle. Comme le nombre de messages Ni est le contexte des médias sociaux, nous pouvons raisonnablement supposer peut être approximée par une loi normale, c’est-à-dire : Calcul de la magnitude d’impact. La magnitude d’impact, associé à l’intervalle I = [a; b] et au mot principal t est Elle correspond à l’aire algébrique sous la fonction [liés à des évènements et spécifiques à une période temporelle particulière auront tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à l’échelle et s’adapte donc facilement à la taille du vocabulaire. Détecter les évènements Méthode proposée : phase I • Mesurer l’anomalie P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). • Par rapport à la fréquence de création de mention à la tranche temporelle i • Pour chaque mot t découle que la quantité espérée de messages contenant le mot t et au moins mention à la ième tranche temporelle est : !O¥¦ Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement Q associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. Or, nous avons montré précédemment que la magnitude décrit par le mot principal t et l’intervalle I = [a; b] correspond ³XGPNQ E[t|i] = Nip@t, où p@t = N@t/N. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle nous définissons l’anomalie dans la fréquence de création de mentions liée la ième tranche temporelle comme suit : • Détecter les évènement à partir de l’anomalie • Trouver l’intervalle qui maximise l’anomalie • Pour tous les mots D cette formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots Page Diffusion de l’information dans les médias sociaux Modélisation et analyse anomalie(t, i) = Ni @t − E[t|i]. D / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 9 P(Ni @t) = ✓ Ni Ni @t ◆ pNi @t @t (1− p@t)Ni−Ni @t , p@t est la probabilité qu’un message contienne le mot t et au moins une men-tion, quelle que soit la tranche temporelle. Comme le nombre de messages Ni est dans le contexte des médias sociaux, nous pouvons raisonnablement supposer @t) peut être approximée par une loi normale, c’est-à-dire : P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). découle que la quantité espérée de messages contenant le mot t et au moins mention à la ième tranche temporelle est : E[t|i] = Nip@t, où p@t = N@t/N. Enfin, nous définissons l’anomalie dans la fréquence de création de mentions liée à la ième tranche temporelle comme suit : anomalie(t, i) = Ni @t − E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence de création de mentions est strictement supérieure à l’espérance. Les mots 59 P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). découle que la quantité espérée de messages contenant le mot t et au moins à la ième tranche temporelle est : E[t|i] = Nip@t, où p@t = N@t/N. nous définissons l’anomalie dans la fréquence de création de mentions liée ième tranche temporelle comme suit : anomalie(t, i) = Ni @t − E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 3.3. Méthode proposée évènements et spécifiques à une période temporelle particulière auront avoir des valeurs d’anomalie positives élevées durant cette période. Au mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à s’adapte donc facilement à la taille du vocabulaire. de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) [a; b]. Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui revient dans ce cas à une somme. a; b]. Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète revient dans ce cas à une somme. Identification des évènements. Pour chaque mot t 2 V@, l’intervalle qui maximise la magnitude d’impact, c’est-I = argmax I Mag(t, I). ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O NQ[[EK hgX]vs Q Q hgX]vs q + - +
  13. 13. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée : phase II • Identifier les mots décrivant au mieux les évènements Q ³XGPNQ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh !O¥¦ NQ[[EK Q • Identification des mots candidats selon la cooccurrence • Sélection selon l’intensité de la corrélation entre leur fréquence • Mesurée selon le coefficient de Erdem [Erdem12] • Comparée à un seuil θ • Générer la liste des k évènements ayant eu le plus grand impact • Construction de la liste à l’aide du graphe des évènements ¥XGPNQ¦ D NQ[[EK !O¥¦ XGPNQ ZjgQEIGIh E]]EEkgI[EIh EZdO[I D Q • Détection des évènements redondants selon • La connectivité des mots principaux • Le recouvrement des intervalles temporels, seuil σ • Modélisation des redondances avec un second graphe • Fusion des évènements dupliqués via l’analyse des composantes connexes 10 Page Diffusion de l’information dans les médias sociaux Modélisation et analyse !O XGPNQ ÃÁÁÈ / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille !Ç q ³XGPNQ D ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ ÃÁÁÈ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q ³XGPNQ D ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ ÃÁÁÈ XGPNQ NQ[[EK !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q
  14. 14. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations • Protocole • Deux corpus : Cen (1,5·106 tweets [Yang11]) et Cfr (2·106 tweets [ANR ImagiWeb]) • Méthodes comparées : TS [Benhardus13] ET [Parikh13] et α-MABED • Juges humains : 2 juges humains évaluent les top 40 évènements (κ = 0.72) • Métriques d’évaluation : Précision, rappel, F-mesure, DERate [Li12], temps de calcul • Évaluation quantitative • MABED est la méthode la plus performante en terme de précision et de F-mesure • Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED • Gain plus important pour le corpus le plus bruité, Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 11 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. compte le comportement des utilisateurs des médias sociaux en matière de création de mentions permet une détection plus robuste des évènements à partir d’un flux tweets bruité. Le DERate révèle que MABED n’a dédoublé aucun évènement signifi-catif parmi ceux détectés dans Cf r, mais que – en dépit de la gestion explicite de redondance par le troisième composant – 6 (DERate = 0, 193) des 31 (P = 0, 775) évènements significatifs détectés dans Cen sont redondants. Ce DERate reste toutefois
  15. 15. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements Évènement #8 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Q[WkgIG NQ[[EK XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG
  16. 16. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG NQ[[EK XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG jQOIg EEQGI[j q]]Gh q]]Gh EghP gdPIGIhKpJ[IZI[jh dgJhNkhQ][ Évènement #8
  17. 17. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements Évènement #8 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG
  18. 18. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG XGPNQ ÃÁÁÈ XGPNQ NQ[[EK q !O EZdO[I Q Q hgX]vs EdQjY !Ç Q[pQjK q N]gj EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG jQOIg EEQGI[j q]]Gh q]]Gh EghP Eg gdPIGIhKpJ[IZI[jh dgJhNkhQ][ Q[WkgIG Évènement #8
  19. 19. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Seconde contribution Modéliser et prévoir la diffusion de l’information dans les médias sociaux Soutenance de thèse - 25 novembre 2014 Adrien Guille
  20. 20. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Introduction • Comment modéliser et prévoir la diffusion de l’information dans les médias sociaux ? • Tâche ardue en raison de l’intrication entre • Les dynamiques humaines • Les structures sociales • On en sait encore peu à propos des facteurs qui gouvernent la diffusion de Page Diffusion de l’information dans les médias sociaux Modélisation et analyse l’information / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 14 ™ ?
  21. 21. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion État de l’art et proposition • Approches existantes • Modélisation ignorant la structure du réseau [Leskovec07, Yang10, Wang12] • Modélisation basée sur la structure du réseau [Saito10, Galuba10, Motoda11] • Limitations des approches existantes • Perte d’information en ignorant la structure du réseau [Katona11] • Estimation coûteuse des paramètres des modèles basés sur le réseau • Modèles prédictifs mais pas explicatifs • Proposition • Modèle basé sur la structure du réseau • Formulation des paramètres comme des fonctions de caractéristiques observables Page Diffusion de l’information dans les médias sociaux Modélisation et analyse des utilisateurs / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 15
  22. 22. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée • T-BASIC : Time-Based ASynchronous Independent Cascades • Entrée • Structure du réseau • Activité passée des utilisateurs • Thématique à étudier Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Décrite par un mot principal et un dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 16 ensemble de mots liés • Ensemble d’utilisateurs initiant la diffusion de la thématique • Sortie • Série temporelle traduisant l’évolution du nombre d’utilisateurs relayant l’information décrite par la thématique kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ hjQZIgYIh dg]DDQYQjKhGI GQNNkhQ][IjYIh GKYQhGI jg[hZQhhQ][ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k +gKp]QgY GQNNkhQ][=dgjQg G’k[I[hIZDYI/ G’kjQYQhjIkgh Q[QjQYIZI[j Q[N]gZKh . /+.!0./ +.6/$ 1/$
  23. 23. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée • T-BASIC : Time-Based ASynchronous Independent Cascades • Entrée • Structure du réseau • Activité passée des utilisateurs • Thématique à étudier Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Décrite par un mot principal et un dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 16 ensemble de mots liés • Ensemble d’utilisateurs initiant la diffusion de la thématique • Sortie • Série temporelle traduisant l’évolution du nombre d’utilisateurs relayant l’information décrite par la thématique kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ hjQZIgYIh dg]DDQYQjKhGI GQNNkhQ][IjYIh GKYQhGI jg[hZQhhQ][ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k +gKp]QgY GQNNkhQ][=dgjQg G’k[I[hIZDYI/ G’kjQYQhjIkgh Q[QjQYIZI[j Q[N]gZKh . /+.!0./ +.6/$ 1/$
  24. 24. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée : description du modèle • Modèle probabiliste • Extension du modèle AsIC [Saito10] • Deux paramètres pour chaque lien (ux →uy) • pux,uy(t) ∈ [0;1] : probabilité que l’utilisateur uy • Déroulement de la prévision • Ensemble S d’utilisateurs initialement activés • Un utilisateur uy nouvellement activé à l’instant t Page Diffusion de l’information dans les médias sociaux Modélisation et analyse influence ux à l’instant t • μux,uy 0 : délai après lequel ux publie un message si uy l’a influencé influence ses voisins inactifs ux avec la probabilité pux,uy(t) • En cas de succès, ux devient actif en t+μux,uy dÂÃ¥j¦ dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 17 kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j kÂ
  25. 25. pux,— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- Laboratoire ERIC Université Lumière Lyon 2 dire qu’il n’apparaît pas dans la séquence d’activation ; instance positive : (vt y dire qu’il appartient à l’ensemble

×