Séminaire invité - LIRMM - 23 janvier 2015

386 vues

Publié le

Détection d'évènements dans les médias sociaux

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
386
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Séminaire invité - LIRMM - 23 janvier 2015

  1. 1. Laboratoire ERIC Université Lumière Lyon 2 Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire de l’équipe ADVANSE - Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier 23 janvier 2015 Adrien Guille, PhD Laboratoire ERIC, Université Lumière Lyon 2
  2. 2. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 Contexte Les médias sociaux • Nouveaux vecteurs d’information efficaces • Twitter : communication de Barack Obama [Hughes09] • Facebook : printemps arabe [Howard11] • Deux fonctionnalités essentielles • Publication de messages sur une page de profil • Connexion à d’autres utilisateurs afin de suivre leurs publications 2
  3. 3. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Introduction • Détecter les évènements significatifs dans les médias sociaux • Évènement : «quelque chose» qui se produit à un moment donné [Aggarwal12] • Évènement significatif : potentiellement traité par les médias traditionnels [McMinn13] • Utile pour l’analyse journalistique, la veille d’information, etc. • Tâche complexe • Messages liés aux évènements noyés par des messages sans rapport, i.e. bruit • On suppose que les thématiques saillantes signalent les évènements [Kleinberg02] 3
  4. 4. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED État de l’art • Idée commune : détecter les thématiques saillantes • Pondération statistique des termes • Peaky Topics [Shamma11], Trending Score [Benhardus13] • Possible ambiguité, manque de contexte • Modélisation probabiliste des thématiques latentes • On-line LDA [Lau12], ET-LDA [Yuheng12] • Passage à l’échelle difficile [Aiello13] • Classification non supervisée des termes • EDCoW [Weng11], TwEvent [Li12], ET [Parikh13] • Descriptions des évènements bruités 4
  5. 5. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Synthèse de l’état de l’art et proposition • Limitations des méthodes existantes • Supposent que tous les évènements ont une même durée • Paramètre fixé manuellement [Romero11] • Considèrent uniquement l’aspect textuel des messages • Proposition • Estimer dynamiquement la durée de chaque évènement • Exploiter l’aspect social des messages via les mentions • Mention : lien dynamique vers un autre utilisateurs inséré dans un message 5
  6. 6. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Formulation du problème • Entrée • Un corpus C contenant N messages, partitionné en n tranches temporelles • V, V@, Nt, Ni t, Ni @t • Sortie • La liste L des k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés 6
  7. 7. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Vue d’ensemble de la méthode proposée • MABED • Mention-Anomaly-Based Event Detection • Processus en deux phases • Phase 1 • Analyser la fréquence de création de mentions associée à chaque mot du vocabulaire V@ pour détecter les évènements (Mag,I,t,Ø) • Phase 2 • Sélectionner les mots liés à chaque évènement • Générer la liste des k évènements 7
  8. 8. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 1 • Mesurer l’anomalie • Par rapport à la fréquence de création de mentions à la tranche temporelle i • Pour chaque mot t • Mesurer la magnitude d’impact • En fonction de la mesure d’anomalie • Pour un évènement décrit par : • Un mot principal t • Un intervalle temporel I = [a;b] 8 P(Ni @t ) = ✓ Ni Ni @t ◆ p Ni @t @t (1 p@t)Ni Ni @t , @t est la probabilité qu’un message contienne le mot t et au moins une men- lle que soit la tranche temporelle. Comme le nombre de messages Ni est ns le contexte des médias sociaux, nous pouvons raisonnablement supposer @t ) peut être approximée par une loi normale, c’est-à-dire : P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). découle que la quantité espérée de messages contenant le mot t et au moins tion à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. , nous définissons l’anomalie dans la fréquence de création de mentions liée à la ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence de création de mentions est strictement supérieure à l’espérance. Les mots que soit la tranche temporelle. Comme le nombre de messages Ni est e contexte des médias sociaux, nous pouvons raisonnablement supposer peut être approximée par une loi normale, c’est-à-dire : P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). oule que la quantité espérée de messages contenant le mot t et au moins n à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. ous définissons l’anomalie dans la fréquence de création de mentions liée a ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. te formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). ule que la quantité espérée de messages contenant le mot t et au moins à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. us définissons l’anomalie dans la fréquence de création de mentions liée ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. e formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 - ++ 3.3. Méthode proposée ènements et spécifiques à une période temporelle particulière auront voir des valeurs d’anomalie positives élevées durant cette période. Au mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, nt à des approches plus sophistiquées comme par exemple la modélisation es à l’aide de mixtures gaussiennes, cette formulation passe facilement à adapte donc facilement à la taille du vocabulaire. e la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement tervalle I = [a; b] et au mot principal t est donnée par la formule ci- correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle Mag(t, I) = bZ a anomalie(t, i)di bX 3.3. Méthode proposée liés à des évènements et spécifiques à une période temporelle particulière auront tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à l’échelle et s’adapte donc facilement à la taille du vocabulaire. Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci- dessous. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle [a; b]. Mag(t, I) = bZ a anomalie(t, i)di = bX i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui
  9. 9. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 1 • Détecter les évènements • Pour tous les mots du vocabulaire V@ • Identifier l’intervalle I tel que : • Résoudre un problème du type «Sous-Séquence Contiguë de Somme Maximale» : • À la fin de la phase I • Une liste L’ d’évènements (|L’| = V@), chacun décrit par : • Un mot principal t • Un intervalle temporel I • Sa magnitude d’impact Mag 9 - ++ = bX i=a anomalie(t, i) ue est obtenue en intégrant la fonction discrète d’anomalie, ce qui s à une somme. des évènements. Pour chaque mot t 2 V@, nous cherchons à iden- ui maximise la magnitude d’impact, c’est-à-dire : I = argmax I Mag(t, I). s montré précédemment que la magnitude d’impact d’un évènement principal t et l’intervalle I = [a; b] correspond à la somme de l’ano- rvalle. Par conséquent, cela revient à résoudre un problème du type ontiguë de somme maximale » (SSCSM), un type de problème cou- flots de données (Lappas et al., 2009), qui trouve également des divers domaines tels que la bio-informatique (Fan et al., 2003) ou s d’associations (Fukuda et al., 1996). En d’autres termes, pour un 60 I = argmax I Mag(t, I) Or, nous avons montré précédemment que la magnitude d’impact d’un évènement rit par le mot principal t et l’intervalle I = [a; b] correspond à la somme de l’ano- ie sur cet intervalle. Par conséquent, cela revient à résoudre un problème du type us-séquence contiguë de somme maximale » (SSCSM), un type de problème cou- en fouille de flots de données (Lappas et al., 2009), qui trouve également des lications dans divers domaines tels que la bio-informatique (Fan et al., 2003) ou ouille de règles d’associations (Fukuda et al., 1996). En d’autres termes, pour un t, nous cherchons à identifier l’intervalle I = [a; b] tel que : Mag(t, I) = max{ bX i=a anomalie(t, i)|1 ∂ a ∂ b ∂ n} Cette formulation permet à l’anomalie d’être négative en certains points de l’in- alle, si et seulement si cela permet d’étendre l’intervalle tout en augmentant la gnitude. C’est une propriété intéressante, puisque cela permet d’éviter la fragmen- on de longs évènements s’étendant sur plusieurs jours et dont l’anomalie associée ent négative par exemple la nuit, du fait du faible niveau d’activité nocturne sur
  10. 10. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Identifier les mots décrivant au mieux les évènements • Identification des mots candidats (parmi V) selon la cooccurrence • Sélection selon l’intensité de la corrélation entre leur fréquence absolue • Mesurée selon le coefficient ne supposant pas la stationnarité [Erdem12] • Comparée à un seuil θ 10 ènements alyser des données boursières, réputées non-stationnaires – possède s intéressantes pour notre application : (i) il est non-paramétrique et ert pas d’hypothèse de stationnarité contrairement, par exemple, au Pearson. Ce coefficient prend en compte le décalage temporel afin de eux la direction de la co-variation des deux séries temporelles au fil souci de concision, nous ne donnons ici que la formule permettant e coefficient, étant donnés les mots t, t0 q et l’intervalle temporel I = ⇢Ot,t0 q = bX i=a+1 At,t0 q (b a 1)AtAt0 q , où At,t0 q = (Ni t Ni 1 t )(Ni t0 Ni 1 t0 ) Détecter les évènements conçu pour analyser des données boursières, réputées non-stationnaires deux propriétés intéressantes pour notre application : (i) il est non-param (ii) il ne requiert pas d’hypothèse de stationnarité contrairement, par ex coefficient de Pearson. Ce coefficient prend en compte le décalage tempo capturer au mieux la direction de la co-variation des deux séries tempor du temps. Par souci de concision, nous ne donnons ici que la formule p d’approximer ce coefficient, étant donnés les mots t, t0 q et l’intervalle tem [a; b] : ⇢Ot,t0 q = bX i=a+1 At,t0 q (b a 1)AtAt0 q , où At,t0 q = (Ni t Ni 1 t )(Ni t0 q Ni 1 t0 q ) A2 t = Pb i=a+1 (Ni t Ni 1 t )2 b a 1 Pb i i 1 2
  11. 11. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Construire la liste des k évènements • Deux structures • Graphe des évènements • Graphe des redondances • Détecter la redondance • Selon la connectivité dans le graphe des évènements • Selon le recouvrement temporel • Fusionner les évènements dupliqués • Selon les composantes connexes au sein du graphe des redondances 11
  12. 12. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Exemple 12
  13. 13. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Exemple 13
  14. 14. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : protocole • Corpus • Cen : 1,5·106 tweets publiés nov. 2009 [Yang11] • Cfr : 2·106 tweets publiés en mar. 2012 contenant des mots-clés [ANR ImagiWeb] • Méthodes comparées • Trending Score (TS2, TS3) [Benhardus13] et ET [Parikh13] • α-MABED • Choix des paramètres • (α)-MABED : tranches temporelles de 30 minutes, p=10, θ=0.7, σ=0.5 • Trending Score et ET : tranches temporelles de 24 heures • Métriques d’évaluation • Évaluation de la significativité des évènements par des juges humains • Précision, rappel et F-mesure • DERate [Li12] • Temps de calcul 14
  15. 15. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation quantitative • Observations • Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED • Gain plus important pour le corpus le plus bruité, Cen 15 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
  16. 16. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation quantitative • Efficacité • Temps linéaire en fonction de la taille du corpus • Algorithme aisément parallèlisable • Effet du paramètre σ • Influe principalement sur le DERate 16 9 0.5 1 0.4 0.55 0.7 0.85 1 Taille du sous-échantillon Tempsdecalculnormalisé MABED MABED (8 threads) Figure 5 Runtime comparison versus subsample size. Event Detection, Tracking and Visualization in Twitter 9 We also measure the DERate (Li et al, 2012), which denotes the percentage of events that are duplicates among all significant events detected : DERate = # of duplicated events # of detected significant events 4.2 Quantitative Evaluation Hereafter, we discuss the performance of the five considered methods, based on the rates assigned by the annotators. The inter-annotator agreement, mea- sured with Cohen’s Kappa (Landis and Koch, 1977), is  ' 0.76, showing a strong agreement. Table 3 (page 10) reports the precision, the F-measure defined as the harmonic mean of precision and recall (i.e. 2· P ·R P +R ), the DERate and the running-time of each method for both corpora. Comparison against baselines We notice that MABED achieves the best performance on the two corpora, with a precision of 0.775 and F-measure of 0.682 on Cen, and a precision and a F-measure of 0.825 on Cfr. Although ET yields a better DERate on Cen, it still achieves lower precision and recall than MABED on both corpora. Fur- thermore, we measure an average relative gain of 17.2% over ↵-MABED in the F-measure, which suggests that considering the mentioning behavior of users leads to 0.5 1 0.4 0.55 0.7 0.85 1 Taille du sous-échantillon Tempsdecalculnormalisé MABED MABED (8 threads) Figure 5 Runtime comparison versus subsample size. 0.2 0.4 0.6 0.8 1 0.2 0.4 0.6 0.8 Valeur de Précision/F-mesure/DERate Précision F-mesure DERate Figure 6 Precision, F-measure and DERate of MABED on Cen for different values of .
  17. 17. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation qualitative • Extrait de la liste d’évènements détectés à partir de Cen • Distribution de la durée des évènements détectés dans Cen et Cfr 17 1 au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte la World Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant 18 du 18 14h00 whats : happening (0.76), twitter (0.73) au 21 03h00 Twitter demande maintenant « What’s happening ? » et plus « What are you doing ? » du 20 10h00 cern : lhc (0.86), beam (0.79) 5 nov. #6 (13h30) 6 nov. 7 nov. 0 max Temps (CST)Anomalie « hood » « fort » « shooting » FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5 au 7 novembre à minuit (CST). 0 0,1 0,2 0,3 0,4 <12 [12;24] ]24;36] ]36;48] ]48;60] >60 Durée des évènements (en heures) Pourcentaged’évènements Cen Cf r FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
  18. 18. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation qualitative • Extrait de la liste d’évènements détectés à partir de Cen • Graphe des redondances Graphe des évènements (e8) • Distribution de la durée des évènements détectés dans Cen et Cfr 18 5 nov. #6 (13h30) 6 nov. 7 nov. 0 max Temps (CST)Anomalie « hood » « fort » « shooting » FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5 au 7 novembre à minuit (CST). 0 0,1 0,2 0,3 0,4 <12 [12;24] ]24;36] ]36;48] ]48;60] >60 Durée des évènements (en heures) Pourcentaged’évènements Cen Cf r FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
  19. 19. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évènements et communautés • Distribution des catégories d’évènements détectés en fonction de la communauté des utilisateurs (Louvain) • Catégories d’évènements selon [McMinn13] 19 Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers Conflitsarmésetattaques Sport Catastrophesetaccidents Artcultureetdivertissement Businessetéconomie Justicepolitiqueetscandales Scienceettechnologie Catégorie d’évènements Poids Cen Cen(aléatoire) (b) Évènements détectés dans les corpus Cen et Cen(aléatoire). FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA- BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire) Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers Conflitsarmésetattaques Sport Catastrophesetaccidents Artcultureetdivertissement Businessetéconomie Justicepolitiqueetscandales Scienceettechnologie Catégorie d’évènements Poids Cen Cen(aléatoire) (b) Évènements détectés dans les corpus Cen et Cen(aléatoire). FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA- BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire) Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers etattaques Sport taccidents ertissement téconomie tscandales echnologie Poids Cen Cen(aléatoire)
  20. 20. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Frise chronologique illustrée 20
  21. 21. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Évolution de la magnitude d’impact des évènements au fil du temps 21
  22. 22. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Graphe des évènements 22
  23. 23. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Conclusion • Proposition d’une nouvelle méthode : MABED • Prise en compte de l’aspect social du flux de message • Estimation dynamique de la durée de chaque évènement • Expérimentations • Temps d’exécution linéaire en fonction de la taille du corpus • Meilleure précision en considérant l’aspect social • Robustesse accrue en présence de bruit • Mise en lumière du lien entre détection d’évènements et communautés • Partage du code • Implémentation centralisée/parallèlisée http://github.com/AdrienGuille/MABED • Visualisations http://mediamining.univ-lyon2.fr/people/guille/MABED • Publications liées • ASONAM 2014, invitation pour la revue SNAM (en cours de relecture) 23
  24. 24. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 Le logiciel SONDY Détection d’évènements et analyse de l’influence • Logiciel libre • http://github.com/AdrienGuille/SONDY • Interface graphique (UI) et interface de programmation (API) • Publication liée • SIGMOD 2013 24 Collecte et préparation des données Détection et visualisation des évènements Analyse et visualisation de l’influence des utilisateurs

×