Réaliser un sondage coûte cher et demande d'importantes ressources humaines. Dans ce papier, je présente les résultats de l'utilisation de techniques de Data Mining appliquées aux réseaux sociaux pour l'étude des goûts d'une large population.
Le vote des élections européennes de 2019 selon la proximité syndicale
Analyse de la twittosphère politique française
1. Analyse structurelle de la twittosphère
politique française
Julien Verneaut
Septembre 2017
Abstract
Analyser des comportements humains demande beaucoup de ressources.
Pour étudier les choix politiques d’une population, les instituts utilisent
généralement le sondage par téléphone ou par voie électronique, proces-
sus long et coûteux. Dans cet article, je propose une méthode permet-
tant d’analyser les choix politiques de plusieurs millions de personnes
en utilisant Twitter.
1 Introduction
Pour analyser les choix politiques d’une population, les instituts de sondage
utilisent la méthode des quotas. C’est le fait de constituer un panel représen-
tatif de la population française (respecter les proportions d’hommes et de
femmes, les catégories socioprofessionnelles, l’âge, etc.), puis de le sonder par
téléphone ou par internet et d’extrapoler ensuite ces données pour avoir une
image représentative de la population étudiée. En plus d’être sujette à de
multiples biais liés à ce travail de sélection, cette méthode est lente et coû-
teuse. Il faudrait en effet passer 8 appels téléphoniques pour pouvoir joindre
une personne acceptant de répondre à un sondage.1
Pour capturer la complexité de l’échiquier politique, un sondage d’opinion ne
suffit pas. Il faudrait analyser les relations entre les populations de votants
pour chaque personnalité politique. Pour un institut de sondage, ce travail
1
Sondages : comprendre comment fonctionnent les études électorales en trois étapes -
www.franceculture.fr
1
2. serait long et fastidieux. Il devrait en effet sonder les votants de chaque
candidat sur leurs préférences vis-à-vis des autres candidats et se heurterait
ainsi vite aux limites de son support de travail.
Les 11 candidats à l’élection présidentielle de 2017 possédant tous un compte
Twitter, je propose dans cet article une méthode permettant d’observer les
liens entre chacun d’eux via l’analyse croisée de leurs followers sur ce réseau
social.
2 Matériel et méthode
Twitter dispose d’une API2
publique permettant de récupérer une liste d’IDs3
de followers pour n’importe quelle page.4
En revanche, pour des raisons de
sécurité, Twitter limite la collecte de ces données à raison de 5 000 IDs par
minute. J’ai donc écrit un script en Python qui envoie une requête toutes les
minutes à l’API Twitter récupérant ainsi une nouvelle liste de 5 000 followers
à chaque exécution.
Une fois l’acquisition de données terminée pour chaque candidat, le script
envoie par mail les résultats sous forme d’un fichier CSV. La somme du
nombre de followers de chaque candidat représente 6 609 234 données. A
raison de 5 000 données par minutes, il a donc fallu au script 22 heures pour
s’exécuter. Le programme a donc été hébergé sur un serveur pour pouvoir
être exécuté en continu pendant cette période.
Une fois les ID de tous les followers de chaque candidat obtenus, j’ai regroupé
ces données dans un tableau avec en abscisse le nom de chaque candidat et en
ordonnée l’ID de chaque follower. Les préférences pour chaque follower sont
ensuite représentées de manière binaire dans le tableau : 1 dans la colonne
des candidats qu’il suit, 0 dans celles des autres. J’ai ensuite écrit un second
script qui, pour chaque candidat, utilise le précédent tableau pour calculer le
taux de followers qui suivent chaque autre candidat. Ce tableau ainsi obtenu
représente le coeur de cette analyse.
Le coût de cette opération a été de quelques heures de travail et de 0.16epour
la location du serveur, prix dérisoire par rapport au coût d’un sondage.
2
Une API est une interface de programmation qui permet de se « brancher » sur une
application pour échanger des données.
3
Numéro unique identifiant un utilisateur
4
REST APIs - Twitter Developers - https://dev.twitter.com/rest/public
2
3. 3 Résultats
3.1 Lecture du tableau
Les candidats sont classés par ordre de followers : Emmanuel Macron est
le premier, Jacques Cheminade le dernier. L’analyse a été effectuée avec
des données récoltées entre le 16 et le 17 septembre 2017, soit 4 mois après
l’élection présidentielle. Ceci peut expliquer qu’Emmanuel Macron se retrouve
en tête en terme de nombre de followers et de loyauté.
Le tableau se lit en choisissant un candidat en abscisse puis en lisant en
ordonnée le pourcentage de ses followers qui suivent également d’autres candi-
dats. Par exemple, 18% des followers d’Emmanuel Macron suivent également
le compte de Marine Le Pen.
La loyauté représente le taux de followers qui suivent uniquement le candi-
dat étudié. Par exemple, 29% des followers de Benoit Hamon ne suivent que
Benoit Hamon.
La dispersion représente le pourcentage moyen de followers du candidat en
abscisse qui suivent également un autre candidat, calculé en effectuant la
moyenne de chaque colonne. Par exemple, en moyenne, les autres candidats
3
4. sont suivis par 47% des followers de Nathalie Arthaud.
La popularité, c’est le pourcentage moyen de followers chez les autres can-
didats qui suivent également le candidat en ordonnée. Par exemple, en
moyenne, 50% des followers des autres candidats suivent également Jean-
Luc Mélenchon.
3.2 Tendances générales
• Moins un candidat a de followers, moins ses followers sont loyaux et
plus ils sont dispersés. Peut-être que les petits candidats ne se différen-
cient pas assez les uns des autres ?
Une autre explication est qu’un certain nombre d’utilisateurs de Twitter
suivait la majorité des candidats. En effet, sur les quelques 4 millions
de followers uniques étudiés, 784 suivaient la totalité des candidats, 717
en suivaient 10 et 1 036 en suivaient 9. On peut imaginer, par exemple,
que cette population est constituée de personnes désireuses de disposer
d’un maximum d’informations pour se situer politiquement ou bien
de journalistes qui doivent se tenir informés de chaque publication de
chaque candidat. Comme les petits candidats ont peu de followers, ils
subissent plus fortement ce phénomène car cette population représente
une grosse part de leur base de followers.
Cette tendance ne se vérifie cependant pas systématiquement. En ef-
fet, François Asselineau, en 9ème position en terme de followers, ar-
rive 3ème en terme de loyauté. Peut-être pouvons-nous expliquer ce
phénomène par le programme relativement clivant et anti-système du
candidat. Suivre François Asselineau, c’est ne pas suivre les autres
candidats.
• Moins les candidats ont de followers, plus leurs followers suivent d’autres
candidats à faibles followers. On peut expliquer ce phénomène en uti-
lisant le même raisonnement que précédemment. On peut aussi se
dire que les personnes qui les suivent adhèrent à la cause des « petits
candidats ». Peut-être retrouvent-ils des valeurs communes chez leurs
adversaires ?
• Plus un candidat a de followers, plus il est populaire chez les autres can-
didats. Ce phénomène peut s’expliquer simplement par le fait que plus
un candidat a de followers, plus ces followers ont le pouvoir d’influencer
4
5. cette donnée. Cette tendance n’est encore une fois pas toujours exacte.
On constate que Jean-Luc Mélenchon est en tête avec 50% de popu-
larité, suivi de 43% pour Marine Le Pen et de 40% pour Emmanuel
Macron, ordre inverse de leur nombre de followers. Ce phénomène
trouve plusieurs explications :
– Twitter reste un réseau social. Les gens qui l’utilisent y vont pour
s’informer, certes, mais également pour se divertir. Les 2 candi-
dats en tête étant fréquemment sujets aux querelles médiatiques,
peut-être qu’une part de leurs followers les suit pour assister à
leurs échanges souvent très animés ? On pourrait appeler ce bi-
ais le biais de divertissement, mais il est malheureusement très
difficilement mesurable.
– Les deux candidats sont 2 personnalités très médiatiques. Ils
savent se servir des outils de communication modernes et notam-
ment des réseaux sociaux. Jean-Luc Mélenchon, par exemple, a
créé une chaîne YouTube pour sa campagne qu’il a réussi à faire
monter jusqu’à 300 000 abonnés.
3.3 Le cas Le Pen/Mélenchon
59% des followers de Jean Luc Mélenchon suivent le compte de Marine Le Pen
(48% des followers de Marine Le Pen suivent le compte de Jean Luc Mélen-
chon). Pourtant opposés dans le schéma politique, ces 2 candidats partagent
une grande base de followers en commun. On peut voir ce phénomène comme
une manifestation concrète de ce qu’on a appelé le « vote contestataire », un
vote ayant pour but de marquer un profond changement dans la politique. On
peut également supposer qu’après le premier tour de l’élection présidentielle
de 2017 éliminant Jean Luc Mélenchon, une grande partie de ses followers se
sont ralliés à Marine Le Pen par refus d’Emmanuel Macron. On constate en
effet que seulement 28% des followers de Jean Luc Mélenchon suivent égale-
ment le compte d’Emmanuel Macron, le 3ème taux le plus bas.
Toutefois, les sondages d’opinions réalisés après l’élection n’ont pas confirmé
cette théorie, l’électorat de Mélenchon s’étant principalement rallié à la cause
d’Emmanuel Macron au second tour.5
5
2nd tour présidentielle 2017 : sociologie des électorats et profil des ab-
stentionnistes - https://www.ipsos.com/fr-fr/2nd-tour-presidentielle-2017-sociologie-des-
electorats-et-profil-des-abstentionnistes
5
6. 3.4 Emmanuel Macron est-il de gauche ou de droite ?
En plus de l’analyse tendancielle complète que cette analyse permet d’appuyer,
elle permet également de répondre à des questions plus concrètes. Une des
questions les plus souvent entendue pendant cette présidentielle fut celle du
bord politique d’Emmanuel Macron. Ancien ministre d’un gouvernement so-
cialiste, ancien banquier, est-il plutôt de droite ou plutôt de gauche ?
Si l’on opère un découpage simple du schéma politique, on peut dire que
Marine Le Pen est à l’exact opposé de Jean Luc Mélenchon, tout comme
Benoit Hamon est à l’exact opposé de François Fillon. En comptabilisant les
followers de chacun de ces candidats, on s’aperçoit que la parité est presque
totale entre ces candidats : 13% des followers d’Emmanuel Macron suivent
Benoit Hamon et François Fillon tout comme 18% de ces followers suivent
Marine Le Pen et 19% Jean-Luc Mélenchon.
D’après ces données, Emmanuel Macron se situerait donc presque exacte-
ment au centre du paysage politique français, ceci expliquant peut-être son
succès aux élections présidentielles.
6