3. Introduction
• Les réseaux sociaux constituent l'un des principaux
motifs de l'utilisation du modèle des données
volumineuses.
• Les API publiques fournies par des sites comme
Twitter représentent une source de données utile pour
l'analyse et la compréhension des tendances populaires
à travers une approche fondée sur l’analyse lexicale qui
consiste à déduire l’émotion dégagée par une phrase
via une analyse sémantique des mots.
4. Technologies utilisées
Les technologies utilisées pour concevoir notre application se
décompose en trois partie:
• Twitter : Source de données
• MongoDb : Base de données NoSQL pour le stockage
• Python : Langage de programmation
5. Technologies utilisées
Twitter
• 310 millions d’utilisateurs actifs
• 120 millions de visiteurs uniques sur Twitter,com
• 500 millions de tweets sont envoyés chaque jour.
• 300 milliards de tweets ont été envoyés depuis le 21 mars 2006
• 1 million de sites intègrent des tweets.
6. Technologies utilisées
MongoDb
• Système de base de données dans la mouvance NoSQL orienté
documents
• MongodDb permet de manipuler des objets structurés au format Bson (
Json binaire) sans schéma prédéterminé
• Les données prennent la forme de documents enregistrés eux même dans
des collections
• MongoDb associe aux données des attributs placés à la demande en
temps réel et exploitables ensuite par des requetes
• MongoDb permet la baisse des coûts et de l'augmentation de la puissance
du matériel pour permettre des développements plus simples et plus
rapides.
7. Technologies utilisées
Python
• Python s’impose comme un des langages outils pour la data
science. Sa rigueur et sa capacité à s’intégrer à des infrastructures
techniques robustes en font un choix de prédilection pour les big
data.
16. Présentation de l’application
Notre application permet d’analyser les Tweets afin d’en extraire ces informations:
• Les Hashtags les plus utilisés
• Les statistiques des sentiments concernant les Tweets.
• Les mots les plus fréquents
• Les meilleurs et les pires Tweets
• La géolocalisation des tweets sur une carte
18. Présentation de l’application
Findhash.py
bestTweet.py
Choose Word: recherche le mot
entré dans la barre de recherche
dans toute la base de données
Choose Word se base sur
rechercheparmot.py pour ne filtrer
que les tweets ou sont cités le mot
recherché
23. Difficultés
MongoDb combiné avec Tweepy requiert énormément de ressources pour
l’écriture des données streamer en temps réel sur la base de données,
ajoutons à cela la latence du traitement,
Nous avons du utilisé une machine Virtuelle sur Azure
24. Difficultés
• Tweepy est une API Python open source qui bug énormément, il
faut régulièrement changé les tokens en créant à chaque fois une
application sur le compte dev Twitter