Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Annexe Big Data
Annexe Big Data
Chargement dans…3
×

Consultez-les par la suite

1 sur 13 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à Hadoop (20)

Publicité

Plus récents (20)

Publicité

Hadoop

  1. 1. Mme Ines Slimene Ines_slimene@yahoo.fr
  2. 2. https://inesslimene.wixsite.com/moncours Écosystème Hadoop 2  Historique  Ecosystème Hadoop  Architecture  Distributions Hadoop  Atout Hadoop  Inconvénients de Hadoop Plan
  3. 3. https://inesslimene.wixsite.com/moncours Écosystème Hadoop 3 Histoire de Hadoop
  4. 4. Écosystème Hadoop 4 Stockage et traitement de données volumineuses Bien qu'il peut aussi bien fonctionner sur une seule machine, sa vraie puissance n'est visible qu'à partir d'un environnement composé de plusieurs ordinateurs. La multiplication de l'espace disque ne va pas avec l'accélération de la lecture des données. Diviser les données en plusieurs parties pour les stocker sur plusieurs machines. Hadoop https://inesslimene.wixsite.com/moncours
  5. 5. Écosystème Hadoop 5  La gestion des défaillances : que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces opérations durant le processus de Hadoop sont automatiquement gérés en cas de défaillance.  La sécurité et persistance des données : il n’y a plus de soucis de perte de données.  La montée en charge : garantie d’une montée en charge maximale.  La complexité réduite : capacité d'analyse et de traitement des données à grande échelle.  Le coût réduit : Hadoop est open source, et malgré leur massivité et complexité, les données sont traitées efficacement et à très faible coût Atouts de Hadoop https://inesslimene.wixsite.com/moncours
  6. 6. Écosystème Hadoops 6  Hadoop n’est pas conçu pour des requêtes temps réel ou de faible latence.  Hadoop est performant dans le traitement des batch hors ligne d’un grand volume de données.  Les SGBDNR sont meilleures pour les transactions en ligne et de faible latence. Hadoop https://inesslimene.wixsite.com/moncours
  7. 7. Écosystème Hadoop 7 Ecosystème Hadoop HDFS (Hadoop Distributed File System) MapReduce Framework Hbase Hive Pig Mahout Apache Oozie (workflow) Import et exportFlume Sqoop Données structurées Données non structurées Hue https://inesslimene.wixsite.com/moncours
  8. 8. Écosystème Hadoop 8  Le projet Hadoop consiste essentiellement en deux grandes parties:  Stockage des données : HDFS (Hadoop Distributed File System)  Traitement des données : MapReduce  Principe :  Diviser les données  Les sauvegarder sur une collection de machines, appelées cluster  Traiter les données directement là où elles sont stockées, plutôt que de les copier à partir d’un serveur distribué  Il est possible d’ajouter des machines au cluster, au fur et à mesure que les données augmentent Hadoop https://inesslimene.wixsite.com/moncours
  9. 9. Écosystème Hadoop 9  Au début, Hadoop a été connu par ses deux principaux composants  HDFS : Hadoop Distributed FileSystem  MapReduce : framework de traitement des données distribuées  Aujourd'hui, en plus de HDFS et MapReduce, on trouve plusieurs autres composants :  HBase: base de données Hadoop orientée colonne; supporte batch et lecture aléatoire.  Oozie: Planificateur et manager du workflow Hadoop  Pig: Langage de traitement de données  Hive: Data warehouse avec interface SQL. Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  10. 10. Écosystème Hadoop 10  Hue :  Front-end graphique pour le cluster  Fournit  Un navigateur pour HDFS et HBase  Des éditeurs pour Hive, Pig, Impala et Sqoop  Mahout :  Bibliothèque d’apprentissage automatique  Permet de :  Déterminer des éléments qu’un utilisateur pourra apprécier selon son comportement  Grouper des documents  Affecter automatiquement des catégories aux documents Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  11. 11. Écosystème Hadoop 11  Connexion du HDFS à partir d’outils externes  Sqoop :  Prend les données à partir d’une base de données traditionnelle, et les met dans HDFS, comme étant des fichiers délimités, pour être traitées avec d’autres données dans le cluster  Flume:  Système distribué permettant de collecter, regrouper et déplacer efficacement un ensemble de données (des logs) à partir de plusieurs sources vers le HDFS Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  12. 12. Écosystème Hadoop 12  Les Distributions Hadoop vise a résoudre les problèmes d’incompatibilité des versions.  Les vendeurs des distributions vont :  Intégrer un jeu de test du produit Hadoop  Packager les produits Hadoop dans divers format d’installation  Les distributions peuvent fournir des scripts additionnels pour exécuter Hadoop  Quelques vendeurs peuvent choisir de reporter les fonctionnalités et les bugs corrigés faites par Apache Distribution Hadoop https://inesslimene.wixsite.com/moncours
  13. 13. https://inesslimene.wixsite.com/moncours Écosystème Hadoop 13  Cloudera Distribution for Hadoop (CDH)  MapR Distribution  Hortonworks Data Platform (HDP)  IBM InfoSphere BigInsights Vendeurs de distribution

×