Présentation du thème :
Application d’analyses des Tweets
Présenté par :
MRINI Youssef
BOUHILA Bilal
Plan
• Introduction
• Technologies utilisées
• Bibliothèques utilisées
• Présentation de l’application
• Difficultés
• Démo
Introduction
• Les réseaux sociaux constituent l'un des principaux
motifs de l'utilisation du modèle des données
volumineuses.
• Les API publiques fournies par des sites comme
Twitter représentent une source de données utile pour
l'analyse et la compréhension des tendances populaires
à travers une approche fondée sur l’analyse lexicale qui
consiste à déduire l’émotion dégagée par une phrase
via une analyse sémantique des mots.
Technologies utilisées
Les technologies utilisées pour concevoir notre application se
décompose en trois partie:
• Twitter : Source de données
• MongoDb : Base de données NoSQL pour le stockage
• Python : Langage de programmation
Technologies utilisées
Twitter
• 310 millions d’utilisateurs actifs
• 120 millions de visiteurs uniques sur Twitter,com
• 500 millions de tweets sont envoyés chaque jour.
• 300 milliards de tweets ont été envoyés depuis le 21 mars 2006
• 1 million de sites intègrent des tweets.
Technologies utilisées
MongoDb
• Système de base de données dans la mouvance NoSQL orienté
documents
• MongodDb permet de manipuler des objets structurés au format Bson (
Json binaire) sans schéma prédéterminé
• Les données prennent la forme de documents enregistrés eux même dans
des collections
• MongoDb associe aux données des attributs placés à la demande en
temps réel et exploitables ensuite par des requetes
• MongoDb permet la baisse des coûts et de l'augmentation de la puissance
du matériel pour permettre des développements plus simples et plus
rapides.
Technologies utilisées
Python
• Python s’impose comme un des langages outils pour la data
science. Sa rigueur et sa capacité à s’intégrer à des infrastructures
techniques robustes en font un choix de prédilection pour les big
data.
Bibliothèques utilisées
Tweepy
Bibliothèque Python qui permet d’utiliser une API Twitter pour
streamer les tweets
Bibliothèques utilisées
PyMongo
Bibliothèque Python qui permet d’utiliser une base de données
MongoDb
Bibliothèques utilisées
NLTK
Bibliothèque python open source qui fait le traitement du langage
naturel.
Bibliothèques utilisées
Pandas
Bibliothèque Python fournissant des structures de données rapides, flexibles et
expressifs conçus pour rendre le travail avec les données simple et intuitive
Exemple
Bibliothèques utilisées
Folium
Bibliothèque Python qui permet de générer des cartes
Bibliothèques utilisées
Matplotlib
Bibliothèque Python qui permet de tracer des courbes
Bibliothèques utilisées
Json
Bibliothèque Python qui permet de manipuler les fichiers Json
Bibliothèques utilisées
PyQt
Bibliothèque Python qui permet de créer des interfaces graphiques
Présentation de l’application
Notre application permet d’analyser les Tweets afin d’en extraire ces informations:
• Les Hashtags les plus utilisés
• Les statistiques des sentiments concernant les Tweets.
• Les mots les plus fréquents
• Les meilleurs et les pires Tweets
• La géolocalisation des tweets sur une carte
Présentation de l’application
Findhash.py
bestTweet.py
All Tweets: recherche dans toute la
base de données
Présentation de l’application
Findhash.py
bestTweet.py
Choose Word: recherche le mot
entré dans la barre de recherche
dans toute la base de données
Choose Word se base sur
rechercheparmot.py pour ne filtrer
que les tweets ou sont cités le mot
recherché
Présentation de l’application
word_freq_final.py permet de mettre
en valeur les mots les plus
fréquemment utilisés en éliminant
les StopWords et les caractères
spéciaux
Présentation de l’application
Stats.py permet de donner des
statistiques portant sur le sentiment
des Tweets traités
Présentation de l’application
Map_v1.py permet de cartographier
les tweets sur une carte
Présentation de l’application
Map_v3.py permet de cartographier
les tweets avec leur sentiment sur la
carte
Difficultés
MongoDb combiné avec Tweepy requiert énormément de ressources pour
l’écriture des données streamer en temps réel sur la base de données,
ajoutons à cela la latence du traitement,
Nous avons du utilisé une machine Virtuelle sur Azure
Difficultés
• Tweepy est une API Python open source qui bug énormément, il
faut régulièrement changé les tokens en créant à chaque fois une
application sur le compte dev Twitter
Démo
Merci pour votre attention

Application d'analyses des Tweets