Présentation PFE Hachem Selmi et Ahmed Dridi Big data

802 vues

Publié le

Présentation de soutenance

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
802
Sur SlideShare
0
Issues des intégrations
0
Intégrations
28
Actions
Partages
0
Téléchargements
66
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Bonjour, Nous tenons pour commencer à vous adresser, chers membres du jury, nos sincères remerciements pour votre lecture, votre présence aujourd’hui et les remarques qui viendront enrichir ce travail que nous aurons plaisir à partager et discuter avec vous.
  • Tout au long de cette présentation on va suivre le plan suivant, On va commencer par une présentation générale puis on va introduire notre projet
    Ensuite on va présenter l’organisme d’accueil ainsi qu’une étude de cadre du stage
    Puis on va définir le concept de big data et cloud computing
    Apres ca on va entamer les parties Architecture et les technologies qu’on a choisi , et dans la partie qui suit on va mettre l’accent sur la réalisation de notre architecture et on va finir par une conlusion .
  • Aujourd’hui les données ouvrent de nouvelles perspectives de connaissances aux sciences économiques et sociales et fournissent une autre forme de création de valeur aux entreprise.
    Les sources de données peuvent être de forme très diverse tel que media sociaux , image ,bases de données messageries journaux électrique aussi des capteurs et des caméra de surveillance et des saigneux GPS. cette diversité de source de données peut générer plusieurs type de données
    -structurées
    -semi structurées
    -non structurées
  • Chaque 60 secondes :
    98,000 comptes Twitter sont crées
    695,000 statut Facebook
    11 million messages instantanés
    698,445 recherche sur Google
    168 million mail envoyés
    Avec une prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.

  • Dans nos jours, on remarque une Explosion de volume de l’information et une
    Evolution des systèmes d’information des entreprises ainsi que une variété et la complexité des données, tous ces facteurs nous poussent pour trouver une nouvelle technologie nommée: Big data afin de traiter toutes ces masses de volumes.

  • Nous sommes accueillis pendant notre projet de fin d’études chez Innova-tunisia, un acteur dynamique dans les métiers de conseils et des systemes informatiques et internet.
  • Dans ce cadre, webradar est une application de media-monitoring qui surveille en Tunisie près de 100 journaux électroniques, 1500 pages Facebook, 2000 utilisateurs Twitter, 500
  • Voila un exemple d’une analyse du web tunisien pour montrer les personnes les plus mentionnées par les utilisateurs de facebook En 2013.
  • Innova rencontre souvent des problèmes liés a son produit WebRadar qui est accablé par la masse très élevée des données collectées quotidiennement du web.
  • Nos recherches se sont donc dirigee vers l'etude
  • La big data est une nouvelle technologie libérée par le volume de donnée accessible, la capacité à exploiter la variété des données la vélocité de traitement
  • Voila une comparaison entre l’informatique décisionnel et le big data
  • L’architecture actuelle se compose essentiellement par trois serveurs connectés entre eux. Les outils logiciels nécessaires pour le fonctionnement du WebRadar sont également installés et configurés sur les trois serveurs de sorte que lorsque un service fonctionne tous les autres services seront non utilisés ou ils ne répondent pas convenablement. Ainsi, une modification dans une base de données de volume important peut interrompre le fonctionnement de toute l’architecture.
  • Afin de lutter contre les inconvénients de l’architecture actuelle on a proposé une nouvelle pour répondre aux besoin de l’outil WebRadar
    Ce cluster est constitué de postes standards équipés de système d'exploitation Debian
    ce qui nous a permis de tester la virtualisation du cluster, solution incontournable pour faire du Big Data sur le cloud. Ce schéma présente les différentes machines (maître et esclave) du cluster et les rôles qui leurs sont associés dans le cadre de notre architecture.
  • On a choisi des différentes technologies pour les utilisées dans notre architecture comme VmWare qu’il nous a permis de tester la virtualisation de cluster avec le système d ’exploitation debian 7,8
    Et mongoDB qui est un SGBD orientée NoSql caractérisé par sa rapidité
    Et MongiFy qui est un outil de migration des données de l’Sql vers le NoSql
    Et Hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.

  • La premiere étape dans la partie réalisation consiste a la …
  • Afin de préparer le processus que inova va le suivre pour la migration de la solution WebRadar on a installé et configuré l’écosystème hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.
  • Comme vous connaissez Mysql ne supporte pas l’import d’une base de données qui possède une taille > à 2mo donc pour migré les données de la base de donnée de l’ancienne architecture du WebRadar vers notre nouvelle architecture on a utiliser l’outil Python et sql object pour qu’on puisse importer des bases de données de grande tailles
  • Et voila l’exemple de migration
  • Pour traduire notre base de données vers le NoSql nous aurons besoin de deux choses
  • Un fichier de configuration de bases de données utilisé par Mongify pour localiser les connexions à la base de donnée sql et mongoDb
  • Là on trouve que les connexions sont établies avec succées
  • Et un autre fichier de traduction des données utilisée pour traduire nos données SQL avant de les enregistrer dans MongoDB
  • Une fois que les données sont traduites dans le fichier de traduction de mongify on déplace les données vers MongoDB avec la commande process de mongify
  • Après la migration de données vers le noSql l’étape suivante consiste à répliquer les données sous la formes d’un instance master et des instance slave
  • Apres les configurations nécessaires pour l’instance master et l’instance Slave on a passer pour tester la réplication en ajoutant un enregistrement dans la base de données imdb dans la table aka_name, apres on lance l’instance slave et on affiche les enregistrement de aka_name on remarque l’ajout de l’enregistrement. Comme ça on a arrivé a dupliquer les données sur toutes les machines pour qu’on puisse les récupérer lors d’une perte.
  • Présentation PFE Hachem Selmi et Ahmed Dridi Big data

    1. 1. LOGO Mise en place d’une architecture BIG DATA basée sur le Cloud computing Société d’accueil : Innova-TUNISIA Présentée par : Hachem SELMI Ahmed DRIDI Sous l’encadrement de: Houssem TAYARI(ISET) Khaled MANSOURI(Innova) Institut supérieur des études technologiques de CHARGUIA Année universitaire : 2014-2015
    2. 2. Conclusion Réalisation Architecture et choix technologiques Big Data et cloud computing Introduction Plan Présentation générale Cadre du stage
    3. 3. Présentation générale Divers sources d’informations Données massives 1
    4. 4. Présentation générale 2 98,000 comptes Twitter sont crées 695,000 statuts Facebook 11 millions messages instantanés 698,445 recherches sur Google 168 millions mails envoyés Chaque 60 Secondes
    5. 5. Conclusion Réalisation Architecture et choix technologique Big data et cloud computing Introduction Plan Présentation générale Cadre du stage
    6. 6. Introduction 3 Explosion de volume de l’information La nécessité d’une nouvelle technologie qui peut traiter un grand volume de données. Evolution des systèmes d’information des entreprises variété et complexité des données BIG DATA
    7. 7. Conclusion Réalisation Architecture et Choix technologique Big Data et cloud computing Introduction Plan Présentation Générale Cadre du stage
    8. 8. Cadre du stage Organisme d’accueil 4 INNOVA-TUNISIA est un acteur dynamique dans les métiers du conseil et l’études systèmes informatiques et internet. Son équipe se compose du responsable développement, du coordinateur communication chargé d’affaires, des programmeurs de logiciels, des chefs de projets et du directeur général. Depuis 2010, Innova Tunisia s’est spécialisée dans la veille et le monitoring Internet avec un premier produit WebJort, puis en 2012 avec la solution WebRadar introduite sur le marché Tunisien.
    9. 9. Cadre du stage Web Radar 5 Toutes les données publiques Produites par la presse électronique, les réseaux sociaux, les blogs, les forums en temps réel …qui collecte
    10. 10. Cadre du stage WebRadar 6 …qui organise par date, pays, ville, langue, média, sujet, thème, personne, organisme, marque, sentiment,… …qui mesure fréquence, audience, crédibilité, redondance, tonalité, influence, …
    11. 11. Cadre du stage WebRadar 7
    12. 12. Cadre du stage Critique de WebRadar Des données … Des données … Des données… DES DONNEES!! 8
    13. 13. Cadre du stage Critique de WebRadar Avec l’architecture actuelle de WebRadar avec la présence évolutive des informations et données collectées, Innova rencontre plusieurs difficultés pour stocker , traiter et analyser ces données!!! 9
    14. 14. Cadre du stage Solution proposée Des nouvelles approches liées au concept de l'informatique décisionnelle. Une infrastructure dédiée à l’analyse et le traitement des données massives. Architecture Big Data basée sur le cloud computing. 10
    15. 15. Conclusion Réalisation Architecture et choix technologique Big data et cloud computing Cadre du stage Plan Introduction
    16. 16. Big data et cloud computing C’est quoi la Big Data ? Big Data Vélocité Volume Variété 11
    17. 17. Big data et cloud computing Décisionnel classique et big data Décisionnel classique Volume limité Données structurés Statistique descriptive Big Data Volume gigantesque Données structurés Semi structurés Hétérogènes Statistique en temps réel 12
    18. 18. Big data et cloud computing C’est quoi le cloud computing ? L’utilisation de la mémoire et des capacités de calcul et de stockage d’ordinateurs et de serveurs répartis dans le monde, et liés par un réseau ,tel Internet 13
    19. 19. Big data et cloud computing Pourquoi ?????? Répartition des données Récupération des données 14
    20. 20. Conclusion Réalisation Architecture et choix technologiques Big data et cloud computing Cadre du stage Plan Introduction
    21. 21. Architecture et choix technologiques Ancienne architecture 15
    22. 22. Nouvelle architecture 16 Architecture et choix technologiques
    23. 23. Choix technologiques 17 Architecture et choix technologiques
    24. 24. Conclusion Réalisation Architecture et choix technologique Big data et cloud computing Cadre du stage Plan Introduction
    25. 25. Réalisation L’infrastructure virtuelle Création des machines virtuelles Installation et configuration de système d’exploitation Debian Configuration d’un réseau LAN Installation et configuration de l’écosystème Hadoop 18
    26. 26. Réalisation Configuration Hadoop 19
    27. 27. Réalisation Migration Sql >>Sql Importation des données de la base de données Mysql de WebRadar vers la base de données Mysql existante dans notre cluster avec l’outil Python. 20
    28. 28. Réalisation Migration Sql >>Sql 21
    29. 29. Migration Sql >>NoSql Réalisation Migration des données de la base de données relationnel vers la base de données Nosql (MongoDB) en utilisant l’outil Mongify 22
    30. 30. Réalisation Migration Sql >>NoSql 23
    31. 31. Réalisation Migration Sql >>NoSql 24
    32. 32. Migration Sql >>NoSql Réalisation 25
    33. 33. Réalisation Migration Sql >>NoSql 26
    34. 34. Réalisation Réplication de données La réplication de données après la migration Sql >> NoSql. 27
    35. 35. Réalisation Réplication de données 28
    36. 36. Conclusion générale Notre projet de fin d’étude est déroulé avec la découverte des nouvelles technologies:  La Big Data  Cloud Computing  Les bases de données Nosql Le stage a été une bonne occasion pour intégrer des nouveaux concepts et connaitre des nouvelles sources fiables.
    37. 37. LOGO Merci pour votre attention !

    ×