SlideShare une entreprise Scribd logo
1  sur  13
Télécharger pour lire hors ligne
Mme Ines Slimene
Ines_slimene@yahoo.fr
https://inesslimene.wixsite.com/moncours Écosystème Hadoop 2
 Historique
 Ecosystème Hadoop
 Architecture
 Distributions Hadoop
 Atout Hadoop
 Inconvénients de Hadoop
Plan
https://inesslimene.wixsite.com/moncours Écosystème Hadoop 3
Histoire de Hadoop
Écosystème Hadoop 4
Stockage et traitement de données volumineuses
Bien qu'il peut aussi bien fonctionner sur une seule
machine, sa vraie puissance n'est visible qu'à partir
d'un environnement composé de plusieurs
ordinateurs.
La multiplication de l'espace disque ne va pas avec
l'accélération de la lecture des données.
Diviser les données en plusieurs parties
pour les stocker sur plusieurs machines.
Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 5
 La gestion des défaillances : que ce soit au niveau du stockage ou
traitement, les nœuds responsables de ces opérations durant le
processus de Hadoop sont automatiquement gérés en cas de
défaillance.
 La sécurité et persistance des données : il n’y a plus de soucis de
perte de données.
 La montée en charge : garantie d’une montée en charge maximale.
 La complexité réduite : capacité d'analyse et de traitement des
données à grande échelle.
 Le coût réduit : Hadoop est open source, et malgré leur massivité et
complexité, les données sont traitées efficacement et à très faible coût
Atouts de Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoops 6
 Hadoop n’est pas conçu pour des requêtes temps réel ou de faible
latence.
 Hadoop est performant dans le traitement des batch hors ligne d’un
grand volume de données.
 Les SGBDNR sont meilleures pour les transactions en ligne et de faible
latence.
Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 7
Ecosystème Hadoop
HDFS (Hadoop Distributed File System)
MapReduce Framework Hbase
Hive Pig Mahout
Apache Oozie (workflow)
Import et exportFlume Sqoop
Données
structurées
Données non
structurées
Hue
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 8
 Le projet Hadoop consiste essentiellement en deux grandes parties:
 Stockage des données : HDFS (Hadoop Distributed File System)
 Traitement des données : MapReduce
 Principe :
 Diviser les données
 Les sauvegarder sur une collection de machines, appelées cluster
 Traiter les données directement là où elles sont stockées, plutôt que de les
copier à partir d’un serveur distribué
 Il est possible d’ajouter des machines au cluster, au fur et à mesure que
les données augmentent
Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 9
 Au début, Hadoop a été connu par ses deux principaux composants
 HDFS : Hadoop Distributed FileSystem
 MapReduce : framework de traitement des données distribuées
 Aujourd'hui, en plus de HDFS et MapReduce, on trouve plusieurs
autres composants :
 HBase: base de données Hadoop orientée colonne; supporte batch et
lecture aléatoire.
 Oozie: Planificateur et manager du workflow Hadoop
 Pig: Langage de traitement de données
 Hive: Data warehouse avec interface SQL.
Ecosystème Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 10
 Hue :
 Front-end graphique pour le cluster
 Fournit
 Un navigateur pour HDFS et HBase
 Des éditeurs pour Hive, Pig, Impala et Sqoop
 Mahout :
 Bibliothèque d’apprentissage automatique
 Permet de :
 Déterminer des éléments qu’un utilisateur pourra apprécier selon son
comportement
 Grouper des documents
 Affecter automatiquement des catégories aux documents
Ecosystème Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 11
 Connexion du HDFS à partir d’outils externes
 Sqoop :
 Prend les données à partir d’une base de données traditionnelle, et les met dans
HDFS, comme étant des fichiers délimités, pour être traitées avec d’autres données
dans le cluster
 Flume:
 Système distribué permettant de collecter, regrouper et déplacer efficacement un
ensemble de données (des logs) à partir de plusieurs sources vers le HDFS
Ecosystème Hadoop
https://inesslimene.wixsite.com/moncours
Écosystème Hadoop 12
 Les Distributions Hadoop vise a résoudre les problèmes
d’incompatibilité des versions.
 Les vendeurs des distributions vont :
 Intégrer un jeu de test du produit Hadoop
 Packager les produits Hadoop dans divers format d’installation
 Les distributions peuvent fournir des scripts additionnels pour exécuter
Hadoop
 Quelques vendeurs peuvent choisir de reporter les fonctionnalités et les
bugs corrigés faites par Apache
Distribution Hadoop
https://inesslimene.wixsite.com/moncours
https://inesslimene.wixsite.com/moncours Écosystème Hadoop 13
 Cloudera Distribution for Hadoop (CDH)
 MapR Distribution
 Hortonworks Data Platform (HDP)
 IBM InfoSphere BigInsights
Vendeurs de distribution

Contenu connexe

Tendances

Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6Amal Abid
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in ParisTed Drake
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introductionfredcons
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingModern Data Stack France
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.ithibnico
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 

Tendances (20)

Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Hortonwork
HortonworkHortonwork
Hortonwork
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Spark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le DataminingSpark une alternative à Hadoop MapReduce pour le Datamining
Spark une alternative à Hadoop MapReduce pour le Datamining
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 

Similaire à Hadoop

Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxEddySHANGA
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Hamza Ben Marzouk
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docxIssamHamdi
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxKhadijaHaddaoui
 
Cloud rasberryfinal
Cloud rasberryfinal Cloud rasberryfinal
Cloud rasberryfinal yacine sebihi
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptxbely26
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Datafrancelabs
 

Similaire à Hadoop (20)

Hadoop
HadoopHadoop
Hadoop
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
 
Hadoop
HadoopHadoop
Hadoop
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptx
 
Cloud rasberryfinal
Cloud rasberryfinal Cloud rasberryfinal
Cloud rasberryfinal
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Data
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 

Plus de Ines Slimene (15)

Spark
SparkSpark
Spark
 
Redis
RedisRedis
Redis
 
Crud
CrudCrud
Crud
 
Cassandra
CassandraCassandra
Cassandra
 
Agregation
AgregationAgregation
Agregation
 
Pig
PigPig
Pig
 
Neo4j
Neo4jNeo4j
Neo4j
 
Mapreduce
MapreduceMapreduce
Mapreduce
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
 
Introduction
IntroductionIntroduction
Introduction
 
Intro mongodb
Intro mongodbIntro mongodb
Intro mongodb
 
Hive
HiveHive
Hive
 
Hdfs
HdfsHdfs
Hdfs
 
Hbase
HbaseHbase
Hbase
 
Indexation
IndexationIndexation
Indexation
 

Dernier

Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfSylvianeBachy
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneTxaruka
 
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfBibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfAtelier Canopé 37 - Tours
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursStagiaireLearningmat
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxJCAC
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Gabriel Gay-Para
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film françaisTxaruka
 
Aux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAmar LAKEL, PhD
 
Calendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilCalendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilfrizzole
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxMartin M Flynn
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film françaisTxaruka
 
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24BenotGeorges3
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Atelier Canopé 37 - Tours
 
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfBibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfAtelier Canopé 37 - Tours
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfbdp12
 

Dernier (16)

Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienne
 
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdfBibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
Bibdoc 2024 - Les intelligences artificielles en bibliotheque.pdf
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceurs
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film français
 
Aux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècleAux origines de la sociologie : du XIXème au début XX ème siècle
Aux origines de la sociologie : du XIXème au début XX ème siècle
 
Calendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avrilCalendrier de la semaine du 8 au 12 avril
Calendrier de la semaine du 8 au 12 avril
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film français
 
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
Newsletter SPW Agriculture en province du Luxembourg du 10-04-24
 
Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
 
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdfBibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
Bibdoc 2024 - Sobriete numerique en bibliotheque et centre de documentation.pdf
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
 

Hadoop

  • 2. https://inesslimene.wixsite.com/moncours Écosystème Hadoop 2  Historique  Ecosystème Hadoop  Architecture  Distributions Hadoop  Atout Hadoop  Inconvénients de Hadoop Plan
  • 4. Écosystème Hadoop 4 Stockage et traitement de données volumineuses Bien qu'il peut aussi bien fonctionner sur une seule machine, sa vraie puissance n'est visible qu'à partir d'un environnement composé de plusieurs ordinateurs. La multiplication de l'espace disque ne va pas avec l'accélération de la lecture des données. Diviser les données en plusieurs parties pour les stocker sur plusieurs machines. Hadoop https://inesslimene.wixsite.com/moncours
  • 5. Écosystème Hadoop 5  La gestion des défaillances : que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces opérations durant le processus de Hadoop sont automatiquement gérés en cas de défaillance.  La sécurité et persistance des données : il n’y a plus de soucis de perte de données.  La montée en charge : garantie d’une montée en charge maximale.  La complexité réduite : capacité d'analyse et de traitement des données à grande échelle.  Le coût réduit : Hadoop est open source, et malgré leur massivité et complexité, les données sont traitées efficacement et à très faible coût Atouts de Hadoop https://inesslimene.wixsite.com/moncours
  • 6. Écosystème Hadoops 6  Hadoop n’est pas conçu pour des requêtes temps réel ou de faible latence.  Hadoop est performant dans le traitement des batch hors ligne d’un grand volume de données.  Les SGBDNR sont meilleures pour les transactions en ligne et de faible latence. Hadoop https://inesslimene.wixsite.com/moncours
  • 7. Écosystème Hadoop 7 Ecosystème Hadoop HDFS (Hadoop Distributed File System) MapReduce Framework Hbase Hive Pig Mahout Apache Oozie (workflow) Import et exportFlume Sqoop Données structurées Données non structurées Hue https://inesslimene.wixsite.com/moncours
  • 8. Écosystème Hadoop 8  Le projet Hadoop consiste essentiellement en deux grandes parties:  Stockage des données : HDFS (Hadoop Distributed File System)  Traitement des données : MapReduce  Principe :  Diviser les données  Les sauvegarder sur une collection de machines, appelées cluster  Traiter les données directement là où elles sont stockées, plutôt que de les copier à partir d’un serveur distribué  Il est possible d’ajouter des machines au cluster, au fur et à mesure que les données augmentent Hadoop https://inesslimene.wixsite.com/moncours
  • 9. Écosystème Hadoop 9  Au début, Hadoop a été connu par ses deux principaux composants  HDFS : Hadoop Distributed FileSystem  MapReduce : framework de traitement des données distribuées  Aujourd'hui, en plus de HDFS et MapReduce, on trouve plusieurs autres composants :  HBase: base de données Hadoop orientée colonne; supporte batch et lecture aléatoire.  Oozie: Planificateur et manager du workflow Hadoop  Pig: Langage de traitement de données  Hive: Data warehouse avec interface SQL. Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  • 10. Écosystème Hadoop 10  Hue :  Front-end graphique pour le cluster  Fournit  Un navigateur pour HDFS et HBase  Des éditeurs pour Hive, Pig, Impala et Sqoop  Mahout :  Bibliothèque d’apprentissage automatique  Permet de :  Déterminer des éléments qu’un utilisateur pourra apprécier selon son comportement  Grouper des documents  Affecter automatiquement des catégories aux documents Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  • 11. Écosystème Hadoop 11  Connexion du HDFS à partir d’outils externes  Sqoop :  Prend les données à partir d’une base de données traditionnelle, et les met dans HDFS, comme étant des fichiers délimités, pour être traitées avec d’autres données dans le cluster  Flume:  Système distribué permettant de collecter, regrouper et déplacer efficacement un ensemble de données (des logs) à partir de plusieurs sources vers le HDFS Ecosystème Hadoop https://inesslimene.wixsite.com/moncours
  • 12. Écosystème Hadoop 12  Les Distributions Hadoop vise a résoudre les problèmes d’incompatibilité des versions.  Les vendeurs des distributions vont :  Intégrer un jeu de test du produit Hadoop  Packager les produits Hadoop dans divers format d’installation  Les distributions peuvent fournir des scripts additionnels pour exécuter Hadoop  Quelques vendeurs peuvent choisir de reporter les fonctionnalités et les bugs corrigés faites par Apache Distribution Hadoop https://inesslimene.wixsite.com/moncours
  • 13. https://inesslimene.wixsite.com/moncours Écosystème Hadoop 13  Cloudera Distribution for Hadoop (CDH)  MapR Distribution  Hortonworks Data Platform (HDP)  IBM InfoSphere BigInsights Vendeurs de distribution