Présentation PFE Hachem Selmi et Ahmed Dridi Big data
1. LOGO
Mise en place d’une
architecture BIG DATA basée
sur le Cloud computing
Société d’accueil : Innova-TUNISIA
Présentée par :
Hachem SELMI
Ahmed DRIDI
Sous l’encadrement de:
Houssem TAYARI(ISET)
Khaled MANSOURI(Innova)
Institut supérieur des études technologiques de
CHARGUIA
Année universitaire : 2014-2015
4. Présentation générale
2
98,000 comptes Twitter sont crées
695,000 statuts Facebook
11 millions messages instantanés
698,445 recherches sur Google
168 millions mails envoyés
Chaque
60
Secondes
6. Introduction
3
Explosion de volume de l’information
La nécessité d’une nouvelle
technologie qui peut traiter un
grand volume de données.
Evolution des systèmes d’information des
entreprises
variété et complexité des données
BIG DATA
8. Cadre du stage
Organisme d’accueil
4
INNOVA-TUNISIA est un acteur
dynamique dans les métiers du
conseil et l’études systèmes
informatiques et internet.
Son équipe se compose du responsable développement, du
coordinateur communication chargé d’affaires, des programmeurs de
logiciels, des chefs de projets et du directeur général.
Depuis 2010, Innova Tunisia s’est spécialisée dans la veille et le
monitoring Internet avec un premier produit WebJort, puis en 2012
avec la solution WebRadar introduite sur le marché Tunisien.
9. Cadre du stage
Web Radar
5
Toutes les données publiques
Produites par la presse électronique, les réseaux
sociaux, les blogs, les forums
en temps réel
…qui collecte
12. Cadre du stage
Critique de WebRadar
Des données …
Des données …
Des données…
DES DONNEES!!
8
13. Cadre du stage
Critique de WebRadar
Avec l’architecture actuelle de WebRadar avec la présence évolutive des
informations et données collectées, Innova rencontre plusieurs difficultés
pour stocker , traiter et analyser ces données!!!
9
14. Cadre du stage
Solution proposée
Des nouvelles approches
liées au concept de
l'informatique décisionnelle.
Une infrastructure dédiée à
l’analyse et le traitement
des données massives.
Architecture Big Data basée
sur le cloud computing.
10
16. Big data et cloud computing
C’est quoi la Big Data ?
Big Data
Vélocité
Volume
Variété
11
17. Big data et cloud computing
Décisionnel classique et big data
Décisionnel
classique
Volume limité
Données
structurés
Statistique
descriptive
Big Data
Volume
gigantesque
Données
structurés
Semi structurés
Hétérogènes
Statistique en
temps réel
12
18. Big data et cloud computing
C’est quoi le cloud computing ?
L’utilisation de la mémoire et des capacités de calcul et de
stockage d’ordinateurs et de serveurs répartis dans le monde, et
liés par un réseau ,tel Internet
13
19. Big data et cloud computing
Pourquoi ??????
Répartition
des
données
Récupération
des
données
14
25. Réalisation
L’infrastructure virtuelle
Création des machines virtuelles
Installation et configuration de
système d’exploitation Debian
Configuration d’un réseau LAN
Installation et configuration de
l’écosystème Hadoop
18
27. Réalisation
Migration Sql >>Sql
Importation des données de la base de données Mysql de WebRadar
vers la base de données Mysql existante dans notre cluster avec l’outil
Python.
20
36. Conclusion générale
Notre projet de fin d’étude est déroulé avec la découverte des nouvelles
technologies:
La Big Data
Cloud Computing
Les bases de données Nosql
Le stage a été une bonne occasion pour intégrer des nouveaux concepts et
connaitre des nouvelles sources fiables.
Bonjour, Nous tenons pour commencer à vous adresser, chers membres du jury, nos sincères remerciements pour votre lecture, votre présence aujourd’hui et les remarques qui viendront enrichir ce travail que nous aurons plaisir à partager et discuter avec vous.
Tout au long de cette présentation on va suivre le plan suivant, On va commencer par une présentation générale puis on va introduire notre projet
Ensuite on va présenter l’organisme d’accueil ainsi qu’une étude de cadre du stage
Puis on va définir le concept de big data et cloud computing
Apres ca on va entamer les parties Architecture et les technologies qu’on a choisi , et dans la partie qui suit on va mettre l’accent sur la réalisation de notre architecture et on va finir par une conlusion .
Aujourd’hui les données ouvrent de nouvelles perspectives de connaissances aux sciences économiques et sociales et fournissent une autre forme de création de valeur aux entreprise.
Les sources de données peuvent être de forme très diverse tel que media sociaux , image ,bases de données messageries journaux électrique aussi des capteurs et des caméra de surveillance et des saigneux GPS. cette diversité de source de données peut générer plusieurs type de données
-structurées
-semi structurées
-non structurées
Chaque 60 secondes :
98,000 comptes Twitter sont crées
695,000 statut Facebook
11 million messages instantanés
698,445 recherche sur Google
168 million mail envoyés
Avec une prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.
Dans nos jours, on remarque une Explosion de volume de l’information et une
Evolution des systèmes d’information des entreprises ainsi que une variété et la complexité des données, tous ces facteurs nous poussent pour trouver une nouvelle technologie nommée: Big data afin de traiter toutes ces masses de volumes.
Nous sommes accueillis pendant notre projet de fin d’études chez Innova-tunisia, un acteur dynamique dans les métiers de conseils et des systemes informatiques et internet.
Dans ce cadre, webradar est une application de media-monitoring qui surveille en Tunisie près de 100 journaux électroniques, 1500 pages Facebook, 2000 utilisateurs Twitter, 500
Voila un exemple d’une analyse du web tunisien pour montrer les personnes les plus mentionnées par les utilisateurs de facebook En 2013.
Innova rencontre souvent des problèmes liés a son produit WebRadar qui est accablé par la masse très élevée des données collectées quotidiennement du web.
Nos recherches se sont donc dirigee vers l'etude
La big data est une nouvelle technologie libérée par le volume de donnée accessible, la capacité à exploiter la variété des données la vélocité de traitement
Voila une comparaison entre l’informatique décisionnel et le big data
L’architecture actuelle se compose essentiellement par trois serveurs connectés entre eux. Les outils logiciels nécessaires pour le fonctionnement du WebRadar sont également installés et configurés sur les trois serveurs de sorte que lorsque un service fonctionne tous les autres services seront non utilisés ou ils ne répondent pas convenablement. Ainsi, une modification dans une base de données de volume important peut interrompre le fonctionnement de toute l’architecture.
Afin de lutter contre les inconvénients de l’architecture actuelle on a proposé une nouvelle pour répondre aux besoin de l’outil WebRadar
Ce cluster est constitué de postes standards équipés de système d'exploitation Debian
ce qui nous a permis de tester la virtualisation du cluster, solution incontournable pour faire du Big Data sur le cloud. Ce schéma présente les différentes machines (maître et esclave) du cluster et les rôles qui leurs sont associés dans le cadre de notre architecture.
On a choisi des différentes technologies pour les utilisées dans notre architecture comme VmWare qu’il nous a permis de tester la virtualisation de cluster avec le système d ’exploitation debian 7,8
Et mongoDB qui est un SGBD orientée NoSql caractérisé par sa rapidité
Et MongiFy qui est un outil de migration des données de l’Sql vers le NoSql
Et Hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.
La premiere étape dans la partie réalisation consiste a la …
Afin de préparer le processus que inova va le suivre pour la migration de la solution WebRadar on a installé et configuré l’écosystème hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.
Comme vous connaissez Mysql ne supporte pas l’import d’une base de données qui possède une taille > à 2mo donc pour migré les données de la base de donnée de l’ancienne architecture du WebRadar vers notre nouvelle architecture on a utiliser l’outil Python et sql object pour qu’on puisse importer des bases de données de grande tailles
Et voila l’exemple de migration
Pour traduire notre base de données vers le NoSql nous aurons besoin de deux choses
Un fichier de configuration de bases de données utilisé par Mongify pour localiser les connexions à la base de donnée sql et mongoDb
Là on trouve que les connexions sont établies avec succées
Et un autre fichier de traduction des données utilisée pour traduire nos données SQL avant de les enregistrer dans MongoDB
Une fois que les données sont traduites dans le fichier de traduction de mongify on déplace les données vers MongoDB avec la commande process de mongify
Après la migration de données vers le noSql l’étape suivante consiste à répliquer les données sous la formes d’un instance master et des instance slave
Apres les configurations nécessaires pour l’instance master et l’instance Slave on a passer pour tester la réplication en ajoutant un enregistrement dans la base de données imdb dans la table aka_name, apres on lance l’instance slave et on affiche les enregistrement de aka_name on remarque l’ajout de l’enregistrement. Comme ça on a arrivé a dupliquer les données sur toutes les machines pour qu’on puisse les récupérer lors d’une perte.