Twitter : extraction, regroupement et
visualisation pour la veille stratégique
     Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
                         EDF R&D
Plan de la présentation




 Introduction
 Présentation du réseau social Twitter
 Exemple de visualisations de tweets
 Expérimentation sur un corpus de tweets parlant d’EDF
 Conclusion et perspectives
Introduction
 Contexte de veille
  Concurrentielle et stratégique sur l’Entreprise
  Recherche permanente de l’amélioration de la qualité de la relation avec les clients
  Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…?
 Twitter occupe une place intéressante
  réseau social très populaire en France dont le nombre d’utilisateurs a connu une
  augmentation récente très importante
  format de message court qui oblige les rédacteurs à adopter un style très synthétique
  tout en leur permettant d’inclure des liens vers les sources d’origine
  particulièrement bien adapté à la diffusion et à la propagation d’information
  Twitter offre un accès, relativement facile, à ses contenus
  Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière
  continue
  Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur
  C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation…
  … qui présente un ensemble de méthodes et outils qui vont nous aider à analyser
  « ce qui se dit sur EDF »
Le réseau social Twitter

  Twitter : site de micro-blogging
   Créé en mars 2006 par Jack Dorsey
   « To tweet » signifie gazouiller, pépier
   1 tweet = 1 message d’au plus 140 caractères, exemple :
     RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués!
     http://goo.gl/T7VEe

   Les tweets sont publics: on peut voir les tweets
     d’une personne (éventuellement la suivre, @compte)
     contenant un mot clé, un hashtag (ex: #EDF) etc.
     peuvent être « re-tweetés (RT ….)

  Twitter et droit d’auteur
   A qui appartiennent les tweets ?
   Retweet : droit de courte citation s’applique ?
   Texte court ne peut pas être protégé mais slogans publicitaires le sont
   Licence TweetCC
   http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/
   http://fr.wikipedia.org/wiki/Twitter
Le réseau social Twitter
 Evolution du nombre d’utilisateurs
   USA (1), Brésil (2), Japon (3), …,
   Argentine (17), France (18),
   Allemagne (19), etc.
   Enquête de Semiocast : 500 millions de comptes.
   Nombre très important de création de comptes
   au premier semestre 2012 : 30 millions aux
   États-Unis. Les USA, pays n°1 dans le monde sur
   Twitter, représentent ainsi 27,4 % des comptes
   Twitter du globe, et 25,8 % des messages publics.

   http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US
   Paris 7ème ville
Le réseau social Twitter

 Qui est sur Twitter ?
 Un peu tout le monde !
   EDF, Henri Proglio, des centrales nucléaires
   RTE, ERDF…
   Gaz de France, GrDF
   Banques (CA, S. Générale…)
   La Poste
   Opérateurs télécoms (Orange, SFR…)
   Grands journaux
   … et bien d’autres
Compte
Le réseau social Twitter   Abonnés


    Interface
Nombre de tweets


Abonnements

Texte du tweet


Liste des tweets
reçus
Le réseau social Twitter
 Typologie de Tweets




      Texte libre                                  Réaction à des sites Web



               06/05/2012




                    Réaction à des émissions de Télé (http://www.tvtweet.fr)
Le réseau social Twitter : attention à la contrefaçon !

  Comment acheter des « followers » sur Twitter ?
   C’est la question que se sont posée deux journaux : 27 000 followers
   pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est
   pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de
   gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie
   de « vrais utilisateurs » comme ce que propose la société Boostic.
  La RATP, l’humour et twitter
   Le 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes :
   @ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif
   consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à
   l'ensemble des lignes en fonction de l’intérêt du public.
   Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant
   des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait
   pour l’instant été créé que pour 4 lignes):
    Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course
    avec @Ligne7_RATP) »
    Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. »
    Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. »
   La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé
   un site rassemblant les tweets les plus savoureux !
Visualisation des tweets
                                        Outil, fortement interactif,
 Travaux existants : VoxCivitas (1/6)   d’analyse visuelle
                                        permettant de naviguer au
                                        sein d’une base de
                                        données composées de
                                        vidéos et de tweets relatifs
                                        à ces vidéos. L’application
                                        permet de visualiser les
                                        tweets au fur à mesure de
                                        la lecture de la vidéo, ou
                                        encore de naviguer dans
                                        ces tweets et de se
                                        positionner sur la vidéo au
                                        moment de l’émission du
                                        tweet. Cette application
                                        s’appuie sur les discours de
                                        B. Obama pendant la
                                        campagne électorale
                                        américaine.
Visualisation des tweets
 Travaux existants : Nokia Internet Pulse (2/6)
                                        Cet outil balaie
                                        automatiquement le site de
                                        micro-bloging en fonction
                                        de mots clés particuliers,
                                        puis classe, en deux
                                        catégories, les messages
                                        relevés, ceux faisant acte
                                        de sentiments positifs, et
                                        ceux qui véhiculent plutôt
                                        un message négatif.
                                        L'ensemble des données
                                        est organisé sur une plate-
                                        forme en ligne, qui met en
                                        avant un nuage de mots-
                                        clés correspondant aux
                                        commentaires des
                                        internautes
Visualisation des tweets
 Travaux existants : TweetTopicExplorer (3/6)




                                      Cet outil commence par
                                      récupérer les tweets d’un
                                      compte donné et les
                                      assemble en un nuage de
                                      bulles créées à partir des
                                      mots les plus fréquents des
                                      tweets émis par ce
                                      compte.
Visualisation des tweets
 Travaux existants : twitInfo (4/6)

                                      Permet d’explorer un
                                      événement, comme un
                                      discours ou une rencontre
                                      sportive, en détectant et
                                      labellisant
                                      automatiquement des pics
                                      dans le flux d’arrivée des
                                      tweets, et en proposant une
                                      interface regroupant
                                      géolocalisation, sentiments,
                                      liens populaires et tweets
                                      significatifs
Visualisation des tweets
 Travaux existants : twitt3D (5/6)



                                     Récupère les tweets d’un
                                     compte donné et les affiche
                                     avec la photo de leur
                                     auteur, le tout en trois
                                     dimensions. Permet une
                                     navigation 3D dans
                                     l’ensemble de ces tweets.
Visualisation des tweets
  Travaux existants : « twitter tongue »(6/6)



                                                                        Récupère les tweets d’une
                                                                        ville (New-York et Londres)
                                                                        à l’aide de la localisation,
                                                                        détecte la langue du tweet
                                                                        et l’affiche sur une carte.
                                                                        Permet de situer sur une
                                                                        carte les nationalités des
                                                                        personnes.




http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
Visualisation des tweets
 Travaux réalisés (1/3)
  Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter
  l’évolution des entrées des films au cours du temps.
  Analogie entre tweets et films : apparition puis décroissance plus ou moins
  rapide.
  Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup
  d’entrées et ceux restés longtemps présents au box-office.




                                                           StoryFlow
Visualisation des tweets
 Travaux réalisés (2/3)
  Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour
  désigner un cluster, une méta-donnée, etc.) et leur occurrence ;
  Classement des thèmes par ordre décroissant
  Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus
  important en haut de l’écran ;
  Si le thème a déjà été rencontré par le passé, on lui
  attribue la même couleur que précédemment, si le thème
  n’a pas encore été rencontré on lui attribue une nouvelle
  couleur.
  Si le thème ne se trouve pas dans la période concernée
  (comme A en période J sur la figure 5), on regarde si on
  va le retrouver ultérieurement. Si c’est le cas, alors on lui
  attribue la taille la plus petite qui soit et on le fait passer
  sous l’axe des ordonnées, ce qui permet de maintenir une
  continuité visuelle. Cette particularité n’existe pas dans
  l’algorithme d’origine.
  Ensuite on relie les thèmes entre deux périodes
  successives via des courbes de Béziers afin de produire
  un rendu « lissé ».
Visualisation des tweets
 Travaux réalisés (3/3)
  En jouant sur la largeur des barres et sur leur espacement, on fait apparaître
  des phénomènes différents. Ainsi, sur la figure :
   à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur
   score pour une période donnée ;
   à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent
   d’avantage en évidence les évolutions d’un thème au cours du temps.
Expérimentation sur corpus de tweets parlant d’EDF

  Collecte d’un corpus EDF
   Collecte des tweets grâce à l’API Twitter (recherche par mot clé)
   Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un
   processus de collecte permanent
   Pour les tweets, permet de récupérer :
      identifiant, auteur, texte, date et heure
   Pour les auteurs :
      identifiant, followers, image
   Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin
   2011
                                         23 574 tweets

   Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant
   une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp»
   etc.)

                                          8 567 tweets
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques

 Objectif : Regrouper les tweets ayant des contenus très similaires
 Similarité des textes des tweets
   Utilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf:
    noms précédés par «@»
    URLs
    le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué)
    mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis).


 Pour deux tweets A et B, utilisation de la distance de
 Jaccard améliorée

    Où nA = le nb. de mots dans l’ensemble du tweet A
     nAB = le nb. de mots communs aux deux ensembles


    Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et
    dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques
  Méthode de clustering
   Contraintes du clustering
    La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d
    L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t


   Clustering hiérarchique qui tire profit de la contrainte temporelle
    il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les
    distances entre chaque cluster et ceux des quelques jours précédents
    Gain de temps

  Etapes
   1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son
   jour de publication) ;
   2 - on fait un clustering hiérarchique des tweets d’un même jour
   3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters :

   pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des
   jours précédents (j-1 jusqu’à j-t)
   on choisit le couple de clusters pour lequel la distance est minimale (et inférieure
   à d) et on fusionne les deux clusters
Expérimentation sur corpus de tweets parlant d’EDF
  Corpus EDF, les Hashtags
   Hasthtags fréquents (par thématique):
    nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ;
    nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ;
    écologie : #eelv (58), #hulot (53), #renouvelable (23) ;
    énergie en général : #energie (50), #production (36) ;
    emploi : #emploi (38).

  Résultat du clustering
            Seuil distance d                 Seuil temps t                   nb. clusters
                    0,50                           1 jour                         4618
                    0,55                           1 jour                         4494
                    0,60                           1 jour                         4310
                    0,65                           1 jour                         3197
                    0,55                           2 jours                        4553
                    0,55                           2 jours                        4419
                    0,60                           2 jours                        4214
                    0,50                           3 jours                        4 494
                    0,55                           3 jours                        4 349
                    0,60                           3 jours                        4114

   Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours
    2853 clusters contiennent un seul tweet
    le plus grand cluster comprend 155 tweets
Expérimentation sur corpus de tweets parlant d’EDF

  Exemple de regroupement
   @alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » -
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html


   @vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF
   de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-
   facture-edf-de-40_1503641_3244.html


   @chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec
   une petite éolienne, j'ai baissé ma facture EDF de 40% »
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html


   @homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% »
   Invités à faire part de leur expérience en matière...
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html
Expérimentation sur corpus de tweets parlant d’EDF

  Autre exemple de regroupement
   @Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser!

   @Supdeco : Chantage politique sur les tarifs d’EDF

   @liberation_fr : Chantage politique sur les tarifs d’EDF

   @Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
Expérimentation sur corpus de tweets parlant d’EDF
 Visualisation des clusters




  Cette visualisation permet de voir rapidement :
     Les périodes qui ont connu beaucoup de tweets ;
     Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe
     Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs
     jours, contrairement à ceux qui ont une faible durée de vie.
Expérimentation sur corpus de tweets parlant d’EDF
 Visualisation des hashtags




  Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
Expérimentation sur corpus de tweets parlant d’EDF
 Un outil permettant de naviguer dans les tweets
    Recherche par mot clé, date, semaine, mois, RT
    Visualisation sous la forme de courbe
    Nuage de mots clé
Conclusion et perspectives

 Chaine de traitement s’appuyant sur Twitter
  À l’état de prototype
  Récupération des données, filtrage, regroupement et visualisation
  Plusieurs pistes d’améliorations envisagées :
      la phase dite de regroupement, qui consiste à regrouper des contenus très proches
      produit une liste de « clusters » trop grande. Il faudra sans doute opérer un
      deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces
      groupes étant plus thématiques que les premiers ;
      un module de détection de sentiments et d’opinions pourrait être intégré dans la
      chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters »
      positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce.
 Evaluation d’un point de vue métier
  Ce travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les
  personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut
  être intéressant et complémentaire avec les outils et pratiques existants.
  Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite
  dans cet article.
Twitter : extraction, regroupement et visualisation
               pour la veille stratégique

                             Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
                                                 EDF R&D




                                             Merci



V.S.S.T.'2012 : 24 - 25 mai, Ajaccio

Twitter: extraction, regroupement et visualisation pour la veille stratégique

  • 1.
    Twitter : extraction,regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D
  • 2.
    Plan de laprésentation Introduction Présentation du réseau social Twitter Exemple de visualisations de tweets Expérimentation sur un corpus de tweets parlant d’EDF Conclusion et perspectives
  • 3.
    Introduction Contexte deveille Concurrentielle et stratégique sur l’Entreprise Recherche permanente de l’amélioration de la qualité de la relation avec les clients Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…? Twitter occupe une place intéressante réseau social très populaire en France dont le nombre d’utilisateurs a connu une augmentation récente très importante format de message court qui oblige les rédacteurs à adopter un style très synthétique tout en leur permettant d’inclure des liens vers les sources d’origine particulièrement bien adapté à la diffusion et à la propagation d’information Twitter offre un accès, relativement facile, à ses contenus Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière continue Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation… … qui présente un ensemble de méthodes et outils qui vont nous aider à analyser « ce qui se dit sur EDF »
  • 4.
    Le réseau socialTwitter Twitter : site de micro-blogging Créé en mars 2006 par Jack Dorsey « To tweet » signifie gazouiller, pépier 1 tweet = 1 message d’au plus 140 caractères, exemple : RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués! http://goo.gl/T7VEe Les tweets sont publics: on peut voir les tweets d’une personne (éventuellement la suivre, @compte) contenant un mot clé, un hashtag (ex: #EDF) etc. peuvent être « re-tweetés (RT ….) Twitter et droit d’auteur A qui appartiennent les tweets ? Retweet : droit de courte citation s’applique ? Texte court ne peut pas être protégé mais slogans publicitaires le sont Licence TweetCC http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/ http://fr.wikipedia.org/wiki/Twitter
  • 5.
    Le réseau socialTwitter Evolution du nombre d’utilisateurs USA (1), Brésil (2), Japon (3), …, Argentine (17), France (18), Allemagne (19), etc. Enquête de Semiocast : 500 millions de comptes. Nombre très important de création de comptes au premier semestre 2012 : 30 millions aux États-Unis. Les USA, pays n°1 dans le monde sur Twitter, représentent ainsi 27,4 % des comptes Twitter du globe, et 25,8 % des messages publics. http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US Paris 7ème ville
  • 6.
    Le réseau socialTwitter Qui est sur Twitter ? Un peu tout le monde ! EDF, Henri Proglio, des centrales nucléaires RTE, ERDF… Gaz de France, GrDF Banques (CA, S. Générale…) La Poste Opérateurs télécoms (Orange, SFR…) Grands journaux … et bien d’autres
  • 7.
    Compte Le réseau socialTwitter Abonnés Interface Nombre de tweets Abonnements Texte du tweet Liste des tweets reçus
  • 8.
    Le réseau socialTwitter Typologie de Tweets Texte libre Réaction à des sites Web 06/05/2012 Réaction à des émissions de Télé (http://www.tvtweet.fr)
  • 9.
    Le réseau socialTwitter : attention à la contrefaçon ! Comment acheter des « followers » sur Twitter ? C’est la question que se sont posée deux journaux : 27 000 followers pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie de « vrais utilisateurs » comme ce que propose la société Boostic. La RATP, l’humour et twitter Le 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes : @ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à l'ensemble des lignes en fonction de l’intérêt du public. Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait pour l’instant été créé que pour 4 lignes): Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course avec @Ligne7_RATP) » Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. » Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. » La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé un site rassemblant les tweets les plus savoureux !
  • 10.
    Visualisation des tweets Outil, fortement interactif, Travaux existants : VoxCivitas (1/6) d’analyse visuelle permettant de naviguer au sein d’une base de données composées de vidéos et de tweets relatifs à ces vidéos. L’application permet de visualiser les tweets au fur à mesure de la lecture de la vidéo, ou encore de naviguer dans ces tweets et de se positionner sur la vidéo au moment de l’émission du tweet. Cette application s’appuie sur les discours de B. Obama pendant la campagne électorale américaine.
  • 11.
    Visualisation des tweets Travaux existants : Nokia Internet Pulse (2/6) Cet outil balaie automatiquement le site de micro-bloging en fonction de mots clés particuliers, puis classe, en deux catégories, les messages relevés, ceux faisant acte de sentiments positifs, et ceux qui véhiculent plutôt un message négatif. L'ensemble des données est organisé sur une plate- forme en ligne, qui met en avant un nuage de mots- clés correspondant aux commentaires des internautes
  • 12.
    Visualisation des tweets Travaux existants : TweetTopicExplorer (3/6) Cet outil commence par récupérer les tweets d’un compte donné et les assemble en un nuage de bulles créées à partir des mots les plus fréquents des tweets émis par ce compte.
  • 13.
    Visualisation des tweets Travaux existants : twitInfo (4/6) Permet d’explorer un événement, comme un discours ou une rencontre sportive, en détectant et labellisant automatiquement des pics dans le flux d’arrivée des tweets, et en proposant une interface regroupant géolocalisation, sentiments, liens populaires et tweets significatifs
  • 14.
    Visualisation des tweets Travaux existants : twitt3D (5/6) Récupère les tweets d’un compte donné et les affiche avec la photo de leur auteur, le tout en trois dimensions. Permet une navigation 3D dans l’ensemble de ces tweets.
  • 15.
    Visualisation des tweets Travaux existants : « twitter tongue »(6/6) Récupère les tweets d’une ville (New-York et Londres) à l’aide de la localisation, détecte la langue du tweet et l’affiche sur une carte. Permet de situer sur une carte les nationalités des personnes. http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
  • 16.
    Visualisation des tweets Travaux réalisés (1/3) Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter l’évolution des entrées des films au cours du temps. Analogie entre tweets et films : apparition puis décroissance plus ou moins rapide. Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup d’entrées et ceux restés longtemps présents au box-office. StoryFlow
  • 17.
    Visualisation des tweets Travaux réalisés (2/3) Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour désigner un cluster, une méta-donnée, etc.) et leur occurrence ; Classement des thèmes par ordre décroissant Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus important en haut de l’écran ; Si le thème a déjà été rencontré par le passé, on lui attribue la même couleur que précédemment, si le thème n’a pas encore été rencontré on lui attribue une nouvelle couleur. Si le thème ne se trouve pas dans la période concernée (comme A en période J sur la figure 5), on regarde si on va le retrouver ultérieurement. Si c’est le cas, alors on lui attribue la taille la plus petite qui soit et on le fait passer sous l’axe des ordonnées, ce qui permet de maintenir une continuité visuelle. Cette particularité n’existe pas dans l’algorithme d’origine. Ensuite on relie les thèmes entre deux périodes successives via des courbes de Béziers afin de produire un rendu « lissé ».
  • 18.
    Visualisation des tweets Travaux réalisés (3/3) En jouant sur la largeur des barres et sur leur espacement, on fait apparaître des phénomènes différents. Ainsi, sur la figure : à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur score pour une période donnée ; à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent d’avantage en évidence les évolutions d’un thème au cours du temps.
  • 19.
    Expérimentation sur corpusde tweets parlant d’EDF Collecte d’un corpus EDF Collecte des tweets grâce à l’API Twitter (recherche par mot clé) Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un processus de collecte permanent Pour les tweets, permet de récupérer : identifiant, auteur, texte, date et heure Pour les auteurs : identifiant, followers, image Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin 2011 23 574 tweets Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp» etc.) 8 567 tweets
  • 20.
    Expérimentation sur corpusde tweets parlant d’EDF : regroupement des tweets quasiment identiques Objectif : Regrouper les tweets ayant des contenus très similaires Similarité des textes des tweets Utilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf: noms précédés par «@» URLs le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué) mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis). Pour deux tweets A et B, utilisation de la distance de Jaccard améliorée Où nA = le nb. de mots dans l’ensemble du tweet A nAB = le nb. de mots communs aux deux ensembles Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
  • 21.
    Expérimentation sur corpusde tweets parlant d’EDF : regroupement des tweets quasiment identiques Méthode de clustering Contraintes du clustering La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t Clustering hiérarchique qui tire profit de la contrainte temporelle il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les distances entre chaque cluster et ceux des quelques jours précédents Gain de temps Etapes 1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son jour de publication) ; 2 - on fait un clustering hiérarchique des tweets d’un même jour 3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters : pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des jours précédents (j-1 jusqu’à j-t) on choisit le couple de clusters pour lequel la distance est minimale (et inférieure à d) et on fusionne les deux clusters
  • 22.
    Expérimentation sur corpusde tweets parlant d’EDF Corpus EDF, les Hashtags Hasthtags fréquents (par thématique): nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ; nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ; écologie : #eelv (58), #hulot (53), #renouvelable (23) ; énergie en général : #energie (50), #production (36) ; emploi : #emploi (38). Résultat du clustering Seuil distance d Seuil temps t nb. clusters 0,50 1 jour 4618 0,55 1 jour 4494 0,60 1 jour 4310 0,65 1 jour 3197 0,55 2 jours 4553 0,55 2 jours 4419 0,60 2 jours 4214 0,50 3 jours 4 494 0,55 3 jours 4 349 0,60 3 jours 4114 Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours 2853 clusters contiennent un seul tweet le plus grand cluster comprend 155 tweets
  • 23.
    Expérimentation sur corpusde tweets parlant d’EDF Exemple de regroupement @alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » - http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma- facture-edf-de-40_1503641_3244.html @chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » Invités à faire part de leur expérience en matière... http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html
  • 24.
    Expérimentation sur corpusde tweets parlant d’EDF Autre exemple de regroupement @Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser! @Supdeco : Chantage politique sur les tarifs d’EDF @liberation_fr : Chantage politique sur les tarifs d’EDF @Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
  • 25.
    Expérimentation sur corpusde tweets parlant d’EDF Visualisation des clusters Cette visualisation permet de voir rapidement : Les périodes qui ont connu beaucoup de tweets ; Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs jours, contrairement à ceux qui ont une faible durée de vie.
  • 26.
    Expérimentation sur corpusde tweets parlant d’EDF Visualisation des hashtags Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
  • 27.
    Expérimentation sur corpusde tweets parlant d’EDF Un outil permettant de naviguer dans les tweets Recherche par mot clé, date, semaine, mois, RT Visualisation sous la forme de courbe Nuage de mots clé
  • 28.
    Conclusion et perspectives Chaine de traitement s’appuyant sur Twitter À l’état de prototype Récupération des données, filtrage, regroupement et visualisation Plusieurs pistes d’améliorations envisagées : la phase dite de regroupement, qui consiste à regrouper des contenus très proches produit une liste de « clusters » trop grande. Il faudra sans doute opérer un deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces groupes étant plus thématiques que les premiers ; un module de détection de sentiments et d’opinions pourrait être intégré dans la chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters » positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce. Evaluation d’un point de vue métier Ce travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut être intéressant et complémentaire avec les outils et pratiques existants. Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite dans cet article.
  • 29.
    Twitter : extraction,regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D Merci V.S.S.T.'2012 : 24 - 25 mai, Ajaccio