Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Base de données distribuée
Base de données distribuée
Chargement dans…3
×

Consultez-les par la suite

1 sur 37 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à Hadoop (20)

Publicité

Plus récents (20)

Publicité

Hadoop

  1. 1. République Algérienne démocratique et populaire. Université Dr. Tahar Moulay – Saïda Département d’informatique Matière : Master1 RISR HADOOP 2018/2019 Présenté par : Enseigné par : • Abderrahmane KAFI • Kamar MEDDAH • Mr. Houacine
  2. 2. PLAN I. Historique, II. Introduction, III. Hadoop, IV. MapReduce, V. HDFS, VI. Avantages, VII.Limites, VIII.Références. Hadoop 2
  3. 3. I. HISTORIQUE Hadoop 3
  4. 4. I. HISTORIQUE Hadoop 4
  5. 5. I. HISTORIQUE Hadoop 5
  6. 6. II. INTRODUCTION Hadoop 6
  7. 7. II. INTRODUCTION  Le problème  Depuis maintenant plusieurs années, le monde de l'informatique est entré dans une ère dans laquelle la principale problématique n'est plus de comment acquérir des données mais plutôt de comment gérer l'énorme quantité de données que nous sommes capables d'acquérir.  Gérer de telles quantités de données pose deux problèmes principaux  comment stocker ces informations  aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets de données  comment organiser et rechercher dans ces informations  une machine seule n'a pas la puissance nécessaire pour effectuer des recherches suffisamment rapides sur les données . Hadoop 7
  8. 8. II. INTRODUCTION  La solution  La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant leur disque dur, les machines forment un groupe de stockage bien plus grand  en partageant leur processeur (et/ou leur carte graphique), les machines forment un groupe de calcul bien plus performant  Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une aux yeux de l'extérieur implique une synchronisation entre ces machines. Il faut être capable de les faire dialoguer pour qu'elles puissent se répartir la charge et le stockage intelligemment. Cette organisation de machines dialoguant pour partager stockage et puissance de calcul est appelée un cluster de machine (et les machines de ce cluster sont alors appelées des nœuds). Hadoop 8
  9. 9. II. INTRODUCTION  C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des conventions afin de rapidement pouvoir mettre en place un tel cluster, y stocker des données et y exécuter des programmes de manière distribuée.  À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. En parcourant ce dossier, vous saurez tout sur Hadoop et son fonctionnement. Hadoop 9
  10. 10. III. HADOOP Hadoop 10
  11. 11. III. HADOOP  Apache Hadoop est un framework logiciel open source écrit en Java et géré par la fondation Apache.  Apache Hadoop est un framework conçu pour le traitement d'ensembles de données volumineuses répartis sur de grands ensembles de machines.  Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle.  Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon laquelle les défaillances matérielles sont courantes et doivent être gérées automatiquement par la structure.  Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée. Hadoop 11
  12. 12. III. HADOOP  Hadoop est utilisé par des entreprises ayant de très fortes volumétries de données à traiter. Parmi elles, des géants du web comme Facebook, Twitter, LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.  Un système de fichier distribué (HDFS).  Un ordonnanceur du programmes MapReduce . Hadoop 12
  13. 13. 1. Fonctionnement de Hadoop Hadoop 13
  14. 14. 1. Fonctionnement de Hadoop  Hadoop est principalement constitué de deux composants :  Stockage des données : HDFS (Hadoop Distributed File System)  Traitement des données : MapReduce / Yarn  Principe :  Diviser les données  Les sauvegarder sur une collection de machines, appelées cluster.  Traiter les données directement là où elles sont stockées , plutôt que de les copier à partir d’un serveur distribué. Hadoop 14
  15. 15. 1. Fonctionnement de Hadoop  Il est possible d’ajouter des machines à votre cluster, au fur et à mesure que les données augmentent.  En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils existent pour permettre:  L’extraction et le stockage des données de/sur HDFS.  La simplification des opérations de traitement sur ces données.  La gestion et coordination de la plateforme.  Le monitoring du cluster. Hadoop 15
  16. 16. 1. Fonctionnement de Hadoop Hadoop 16
  17. 17. 1. Fonctionnement de Hadoop Hadoop 17
  18. 18. IV. MAP REDUCE Hadoop 18
  19. 19. IV. Map Reduce  Patron d’architecture de développement permettant de traiter des données volumineuses de manière parallèle et distribuée.  MapReduce consiste en deux fonctions map() et reduce().  Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est divisé en morceaux qui sont parcourus en parallèle. Hadoop 19
  20. 20. IV. Map Reduce  MapReduce implémente les fonctionnalités suivantes :  Parallélisassions automatique des programmes Hadoop.  HDFS se charge de la répartition et de la réplication des données  Le maître divise le travail en jobs parallèles et les répartit  Le maître collecte les résultats et gère les pannes des nœuds.  Gestion transparente du mode distribué.  Tolérance aux pannes. Hadoop 20
  21. 21. IV. Map Reduce Hadoop 21
  22. 22. V. HDFS Hadoop 22
  23. 23. V. HDFS  Optimisé pour stocker de très gros fichiers.  Les fichiers sont divisés en blocs(taille 128 Mo).  Une architecture maitre-esclave  Le maitre HDFS: le Namenode.  Les esclaves de HDFS: les DataNoeuds.  Les blocks sont stockées sur datanodes.  Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour un mode 1 écriture pour plusieurs lectures. Hadoop 23
  24. 24. V. HDFS  HDFS est un système de fichiers distribué. C’est à dire :  les fichiers et dossiers sont organisés en arbre (comme Unix)  ces fichiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient les machines qui contiennent les fichiers.  les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des accès simultanés multiples  HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines comme un seul arbre, contenant des Po de données, comme s’ils étaient sur le disque dur local. Hadoop 24
  25. 25. V. HDFS Hadoop 25
  26. 26. V. HDFS : Namenode  Responsable de la distribution et de la réplication des blocs .  Serveurs d’information du HDFS pour le client HDFS .  Stockage et gère les métadonnées.  Liste des blocs pour chaque bloc.  Liste des fichiers.  Liste des datanodes pour chaque bloc.  Attributs des fichiers(ex: Nom, date de création, facteur de réplication).  Log toute métadonnées et toutes transaction sur un support persistant.  Lecture/écritures  Création/suppression Hadoop 26
  27. 27. V. HDFS : Namenode  La capacité mémoire du Namenode décidera du nombre de blocs que l on peut avoir dans le HDFS. Hadoop 27
  28. 28. V. HDFS : Datanodes  Stocke des blocks de données dans le systèmes de fichier local  Maintient des métadonnées sur blocks  Serveurs de bloc de données et de métadonnées pour le client HDFS  communication avec le Namenode  – Message aller vers le Namenode indiquant  Son identité  Sa capacité totale, son espace restant  Message-retour depuis le Namenode  Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.) Hadoop 28
  29. 29. V. HDFS Hadoop 29
  30. 30. IX. CONCLUSION Hadoop 30
  31. 31. VII.AVANTAGES Hadoop 31
  32. 32. VII. Avantages Hadoop 32  La gestion des défaillances  que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une forte tolérance aux pannes.  La sécurité et persistance des données  Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.  La montée en charge  garantie d’une montée en charge maximale.  La complexité réduite  capacité d'analyse et de traitement des données à grande échelle.  Le coût réduit  Hadoop est open source, et malgré leur massivité et complexité, les données sont traitées efficacement et à très faible coût
  33. 33. VIII.LIMITE Hadoop 33
  34. 34. VIII.Limite Hadoop 34  Difficulté d’intégration avec d’autres systèmes informatiques  Le transfert de données d’une structure Hadoop vers des bases de données traditionnelles est loin d’être trivial  Administration complexe  Hadoop utilise son propre langage.  L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à des prestataires extérieurs  Traitement de données différé et temps de latence important  Hadoop n’est pas fait pour l’analyse temps réel des données.  Produit en développement continu  manque de maturité
  35. 35. VIII.Références Hadoop 35  Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.  Intro to Hadoop and MapReduce, Coursera, Udacity.  https://www.tutorialspoint.com/hadoop/
  36. 36. Questions ?? 36
  37. 37. Merci pour votre attention 37

×