SlideShare une entreprise Scribd logo
République Algérienne démocratique et populaire.
Université Dr. Tahar Moulay – Saïda
Département d’informatique
Matière :
Master1 RISR
HADOOP
2018/2019
Présenté par : Enseigné par :
• Abderrahmane KAFI
• Kamar MEDDAH
• Mr. Houacine
PLAN
I. Historique,
II. Introduction,
III. Hadoop,
IV. MapReduce,
V. HDFS,
VI. Avantages,
VII.Limites,
VIII.Références.
Hadoop 2
I. HISTORIQUE
Hadoop 3
I. HISTORIQUE
Hadoop 4
I. HISTORIQUE
Hadoop 5
II. INTRODUCTION
Hadoop 6
II. INTRODUCTION
 Le problème
 Depuis maintenant plusieurs années, le monde de l'informatique est entré
dans une ère dans laquelle la principale problématique n'est plus de
comment acquérir des données mais plutôt de comment gérer l'énorme
quantité de données que nous sommes capables d'acquérir.
 Gérer de telles quantités de données pose deux problèmes principaux
 comment stocker ces informations
 aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets
de données
 comment organiser et rechercher dans ces informations
 une machine seule n'a pas la puissance nécessaire pour effectuer des
recherches suffisamment rapides sur les données .
Hadoop 7
II. INTRODUCTION
 La solution
 La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant
leur disque dur, les machines forment un groupe de stockage bien plus grand
 en partageant leur processeur (et/ou leur carte graphique), les machines forment
un groupe de calcul bien plus performant
 Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une
aux yeux de l'extérieur implique une synchronisation entre ces machines. Il
faut être capable de les faire dialoguer pour qu'elles puissent se répartir la
charge et le stockage intelligemment. Cette organisation de machines
dialoguant pour partager stockage et puissance de calcul est appelée un
cluster de machine (et les machines de ce cluster sont alors appelées des
nœuds).
Hadoop 8
II. INTRODUCTION
 C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des
conventions afin de rapidement pouvoir mettre en place un tel cluster, y
stocker des données et y exécuter des programmes de manière distribuée.
 À l’heure actuelle, Hadoop est la principale plateforme du Big Data.
Utilisé pour le stockage et le traitement d’immenses volumes de données,
ce framework logiciel et ses différents composants sont utilisés par de
très nombreuses entreprises pour leurs projets Big Data. En parcourant ce
dossier, vous saurez tout sur Hadoop et son fonctionnement.
Hadoop 9
III. HADOOP
Hadoop 10
III. HADOOP
 Apache Hadoop est un framework logiciel open source écrit en Java et géré
par la fondation Apache.
 Apache Hadoop est un framework conçu pour le traitement d'ensembles de
données volumineuses répartis sur de grands ensembles de machines.
 Hadoop est capable de stocker et traiter de manière efficace un grand
nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour
travailler en parallèle.
 Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon
laquelle les défaillances matérielles sont courantes et doivent être gérées
automatiquement par la structure.
 Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée.
Hadoop 11
III. HADOOP
 Hadoop est utilisé par des entreprises ayant de très fortes volumétries de
données à traiter. Parmi elles, des géants du web comme Facebook, Twitter,
LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.
 Un système de fichier distribué (HDFS).
 Un ordonnanceur du programmes MapReduce .
Hadoop 12
1. Fonctionnement de
Hadoop
Hadoop 13
1. Fonctionnement de Hadoop
 Hadoop est principalement constitué de deux composants :
 Stockage des données : HDFS (Hadoop Distributed File System)
 Traitement des données : MapReduce / Yarn
 Principe :
 Diviser les données
 Les sauvegarder sur une collection de machines, appelées cluster.
 Traiter les données directement là où elles sont stockées , plutôt que de
les copier à partir d’un serveur distribué.
Hadoop 14
1. Fonctionnement de Hadoop
 Il est possible d’ajouter des machines à votre cluster, au fur et à
mesure que les données augmentent.
 En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils
existent pour permettre:
 L’extraction et le stockage des données de/sur HDFS.
 La simplification des opérations de traitement sur ces données.
 La gestion et coordination de la plateforme.
 Le monitoring du cluster.
Hadoop 15
1. Fonctionnement de Hadoop
Hadoop 16
1. Fonctionnement de Hadoop
Hadoop 17
IV. MAP REDUCE
Hadoop 18
IV. Map Reduce
 Patron d’architecture de développement permettant de traiter des
données volumineuses de manière parallèle et distribuée.
 MapReduce consiste en deux fonctions map() et reduce().
 Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est
divisé en morceaux qui sont parcourus en parallèle.
Hadoop 19
IV. Map Reduce
 MapReduce implémente les fonctionnalités suivantes :
 Parallélisassions automatique des programmes Hadoop.
 HDFS se charge de la répartition et de la réplication des données
 Le maître divise le travail en jobs parallèles et les répartit
 Le maître collecte les résultats et gère les pannes des nœuds.
 Gestion transparente du mode distribué.
 Tolérance aux pannes.
Hadoop 20
IV. Map Reduce
Hadoop 21
V. HDFS
Hadoop 22
V. HDFS
 Optimisé pour stocker de très gros fichiers.
 Les fichiers sont divisés en blocs(taille 128 Mo).
 Une architecture maitre-esclave
 Le maitre HDFS: le Namenode.
 Les esclaves de HDFS: les DataNoeuds.
 Les blocks sont stockées sur datanodes.
 Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour
un mode 1 écriture pour plusieurs lectures.
Hadoop 23
V. HDFS
 HDFS est un système de fichiers distribué. C’est à dire :
 les fichiers et dossiers sont organisés en arbre (comme Unix)
 ces fichiers sont stockés sur un grand nombre de machines de manière à rendre
invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient
les machines qui contiennent les fichiers.
 les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des
accès simultanés multiples
 HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines
comme un seul arbre, contenant des Po de données, comme s’ils étaient sur
le disque dur local.
Hadoop 24
V. HDFS
Hadoop 25
V. HDFS : Namenode
 Responsable de la distribution et de la réplication des blocs .
 Serveurs d’information du HDFS pour le client HDFS .
 Stockage et gère les métadonnées.
 Liste des blocs pour chaque bloc.
 Liste des fichiers.
 Liste des datanodes pour chaque bloc.
 Attributs des fichiers(ex: Nom, date de création, facteur de réplication).
 Log toute métadonnées et toutes transaction sur un support persistant.
 Lecture/écritures
 Création/suppression
Hadoop 26
V. HDFS : Namenode
 La capacité mémoire du Namenode décidera du nombre de blocs que l on
peut avoir dans le HDFS.
Hadoop 27
V. HDFS : Datanodes
 Stocke des blocks de données dans le systèmes de fichier local
 Maintient des métadonnées sur blocks
 Serveurs de bloc de données et de métadonnées pour le client HDFS
 communication avec le Namenode
 – Message aller vers le Namenode indiquant
 Son identité
 Sa capacité totale, son espace restant
 Message-retour depuis le Namenode
 Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.)
Hadoop 28
V. HDFS
Hadoop 29
IX. CONCLUSION
Hadoop 30
VII.AVANTAGES
Hadoop 31
VII. Avantages
Hadoop 32
 La gestion des défaillances
 que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces
opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une
forte tolérance aux pannes.
 La sécurité et persistance des données
 Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.
 La montée en charge
 garantie d’une montée en charge maximale.
 La complexité réduite
 capacité d'analyse et de traitement des données à grande échelle.
 Le coût réduit
 Hadoop est open source, et malgré leur massivité et complexité, les données sont
traitées efficacement et à très faible coût
VIII.LIMITE
Hadoop 33
VIII.Limite
Hadoop 34
 Difficulté d’intégration avec d’autres systèmes informatiques
 Le transfert de données d’une structure Hadoop vers des bases de données
traditionnelles est loin d’être trivial
 Administration complexe
 Hadoop utilise son propre langage.
 L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à
des prestataires extérieurs
 Traitement de données différé et temps de latence important
 Hadoop n’est pas fait pour l’analyse temps réel des données.
 Produit en développement continu
 manque de maturité
VIII.Références
Hadoop 35
 Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.
 Intro to Hadoop and MapReduce, Coursera, Udacity.
 https://www.tutorialspoint.com/hadoop/
Questions ??
36
Merci pour votre
attention
37

Contenu connexe

Tendances

BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
Lilia Sfaxi
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
Minyar Sassi Hidri
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Hatim CHAHDI
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
Mouna Torjmen
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
Lilia Sfaxi
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
Alexis Seigneurin
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
Mouna Torjmen
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
Lilia Sfaxi
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
marwa baich
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
Amal Abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
Alexia Audevart
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
Lilia Sfaxi
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi
 

Tendances (20)

BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 
Installation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abidInstallation hadoopv2.7.4-amal abid
Installation hadoopv2.7.4-amal abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similaire à Hadoop

Hadoop
HadoopHadoop
Hadoop
Ines Slimene
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
EddySHANGA
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Hamza Ben Marzouk
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
Ahmed rebai
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
Blandine Larbret
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptx
KhadijaHaddaoui
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
IssamHamdi
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
OCTO Technology
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
bely26
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
Julien BLAIZE
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLMichaël Figuière
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosql
GDG Nantes
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
salmanakbi
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
ENSET, Université Hassan II Casablanca
 
Plongée dans la plateforme hadoop
Plongée dans la plateforme hadoopPlongée dans la plateforme hadoop
Plongée dans la plateforme hadoop
pkernevez
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Microsoft Décideurs IT
 

Similaire à Hadoop (20)

Hadoop
HadoopHadoop
Hadoop
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
Présentation Hadoop SECURINETS INSAT (MAP & REDUCE )
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Big Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptxBig Data Visualization PowerPoint Templates.pptx
Big Data Visualization PowerPoint Templates.pptx
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Présentation_HADOOP.pptx
Présentation_HADOOP.pptxPrésentation_HADOOP.pptx
Présentation_HADOOP.pptx
 
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm.com Formation Big Data & Hadoop : Le Guide Complet
Alphorm.com Formation Big Data & Hadoop : Le Guide Complet
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQL
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosql
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Plongée dans la plateforme hadoop
Plongée dans la plateforme hadoopPlongée dans la plateforme hadoop
Plongée dans la plateforme hadoop
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 

Plus de kamar MEDDAH

Intro to web dev
Intro to web devIntro to web dev
Intro to web dev
kamar MEDDAH
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
kamar MEDDAH
 
Random number generator
Random number generatorRandom number generator
Random number generator
kamar MEDDAH
 
Routage rip
Routage ripRoutage rip
Routage rip
kamar MEDDAH
 
Etude comparative entre les grilles, cloud et p2p
Etude comparative entre les grilles, cloud et p2pEtude comparative entre les grilles, cloud et p2p
Etude comparative entre les grilles, cloud et p2p
kamar MEDDAH
 
Base de données distribuée
Base de données distribuéeBase de données distribuée
Base de données distribuée
kamar MEDDAH
 
Branch and bound
Branch and boundBranch and bound
Branch and bound
kamar MEDDAH
 
Active directory
Active directoryActive directory
Active directory
kamar MEDDAH
 
Wwan
WwanWwan
Erlang
ErlangErlang
Erlang
kamar MEDDAH
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
kamar MEDDAH
 
Porter stemming algorithm
Porter stemming algorithmPorter stemming algorithm
Porter stemming algorithm
kamar MEDDAH
 
Javascript
JavascriptJavascript
Javascript
kamar MEDDAH
 

Plus de kamar MEDDAH (13)

Intro to web dev
Intro to web devIntro to web dev
Intro to web dev
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
 
Random number generator
Random number generatorRandom number generator
Random number generator
 
Routage rip
Routage ripRoutage rip
Routage rip
 
Etude comparative entre les grilles, cloud et p2p
Etude comparative entre les grilles, cloud et p2pEtude comparative entre les grilles, cloud et p2p
Etude comparative entre les grilles, cloud et p2p
 
Base de données distribuée
Base de données distribuéeBase de données distribuée
Base de données distribuée
 
Branch and bound
Branch and boundBranch and bound
Branch and bound
 
Active directory
Active directoryActive directory
Active directory
 
Wwan
WwanWwan
Wwan
 
Erlang
ErlangErlang
Erlang
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
Porter stemming algorithm
Porter stemming algorithmPorter stemming algorithm
Porter stemming algorithm
 
Javascript
JavascriptJavascript
Javascript
 

Hadoop

  • 1. République Algérienne démocratique et populaire. Université Dr. Tahar Moulay – Saïda Département d’informatique Matière : Master1 RISR HADOOP 2018/2019 Présenté par : Enseigné par : • Abderrahmane KAFI • Kamar MEDDAH • Mr. Houacine
  • 2. PLAN I. Historique, II. Introduction, III. Hadoop, IV. MapReduce, V. HDFS, VI. Avantages, VII.Limites, VIII.Références. Hadoop 2
  • 7. II. INTRODUCTION  Le problème  Depuis maintenant plusieurs années, le monde de l'informatique est entré dans une ère dans laquelle la principale problématique n'est plus de comment acquérir des données mais plutôt de comment gérer l'énorme quantité de données que nous sommes capables d'acquérir.  Gérer de telles quantités de données pose deux problèmes principaux  comment stocker ces informations  aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets de données  comment organiser et rechercher dans ces informations  une machine seule n'a pas la puissance nécessaire pour effectuer des recherches suffisamment rapides sur les données . Hadoop 7
  • 8. II. INTRODUCTION  La solution  La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant leur disque dur, les machines forment un groupe de stockage bien plus grand  en partageant leur processeur (et/ou leur carte graphique), les machines forment un groupe de calcul bien plus performant  Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une aux yeux de l'extérieur implique une synchronisation entre ces machines. Il faut être capable de les faire dialoguer pour qu'elles puissent se répartir la charge et le stockage intelligemment. Cette organisation de machines dialoguant pour partager stockage et puissance de calcul est appelée un cluster de machine (et les machines de ce cluster sont alors appelées des nœuds). Hadoop 8
  • 9. II. INTRODUCTION  C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des conventions afin de rapidement pouvoir mettre en place un tel cluster, y stocker des données et y exécuter des programmes de manière distribuée.  À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. En parcourant ce dossier, vous saurez tout sur Hadoop et son fonctionnement. Hadoop 9
  • 11. III. HADOOP  Apache Hadoop est un framework logiciel open source écrit en Java et géré par la fondation Apache.  Apache Hadoop est un framework conçu pour le traitement d'ensembles de données volumineuses répartis sur de grands ensembles de machines.  Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle.  Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon laquelle les défaillances matérielles sont courantes et doivent être gérées automatiquement par la structure.  Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée. Hadoop 11
  • 12. III. HADOOP  Hadoop est utilisé par des entreprises ayant de très fortes volumétries de données à traiter. Parmi elles, des géants du web comme Facebook, Twitter, LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.  Un système de fichier distribué (HDFS).  Un ordonnanceur du programmes MapReduce . Hadoop 12
  • 14. 1. Fonctionnement de Hadoop  Hadoop est principalement constitué de deux composants :  Stockage des données : HDFS (Hadoop Distributed File System)  Traitement des données : MapReduce / Yarn  Principe :  Diviser les données  Les sauvegarder sur une collection de machines, appelées cluster.  Traiter les données directement là où elles sont stockées , plutôt que de les copier à partir d’un serveur distribué. Hadoop 14
  • 15. 1. Fonctionnement de Hadoop  Il est possible d’ajouter des machines à votre cluster, au fur et à mesure que les données augmentent.  En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils existent pour permettre:  L’extraction et le stockage des données de/sur HDFS.  La simplification des opérations de traitement sur ces données.  La gestion et coordination de la plateforme.  Le monitoring du cluster. Hadoop 15
  • 16. 1. Fonctionnement de Hadoop Hadoop 16
  • 17. 1. Fonctionnement de Hadoop Hadoop 17
  • 19. IV. Map Reduce  Patron d’architecture de développement permettant de traiter des données volumineuses de manière parallèle et distribuée.  MapReduce consiste en deux fonctions map() et reduce().  Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est divisé en morceaux qui sont parcourus en parallèle. Hadoop 19
  • 20. IV. Map Reduce  MapReduce implémente les fonctionnalités suivantes :  Parallélisassions automatique des programmes Hadoop.  HDFS se charge de la répartition et de la réplication des données  Le maître divise le travail en jobs parallèles et les répartit  Le maître collecte les résultats et gère les pannes des nœuds.  Gestion transparente du mode distribué.  Tolérance aux pannes. Hadoop 20
  • 23. V. HDFS  Optimisé pour stocker de très gros fichiers.  Les fichiers sont divisés en blocs(taille 128 Mo).  Une architecture maitre-esclave  Le maitre HDFS: le Namenode.  Les esclaves de HDFS: les DataNoeuds.  Les blocks sont stockées sur datanodes.  Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour un mode 1 écriture pour plusieurs lectures. Hadoop 23
  • 24. V. HDFS  HDFS est un système de fichiers distribué. C’est à dire :  les fichiers et dossiers sont organisés en arbre (comme Unix)  ces fichiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient les machines qui contiennent les fichiers.  les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des accès simultanés multiples  HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines comme un seul arbre, contenant des Po de données, comme s’ils étaient sur le disque dur local. Hadoop 24
  • 26. V. HDFS : Namenode  Responsable de la distribution et de la réplication des blocs .  Serveurs d’information du HDFS pour le client HDFS .  Stockage et gère les métadonnées.  Liste des blocs pour chaque bloc.  Liste des fichiers.  Liste des datanodes pour chaque bloc.  Attributs des fichiers(ex: Nom, date de création, facteur de réplication).  Log toute métadonnées et toutes transaction sur un support persistant.  Lecture/écritures  Création/suppression Hadoop 26
  • 27. V. HDFS : Namenode  La capacité mémoire du Namenode décidera du nombre de blocs que l on peut avoir dans le HDFS. Hadoop 27
  • 28. V. HDFS : Datanodes  Stocke des blocks de données dans le systèmes de fichier local  Maintient des métadonnées sur blocks  Serveurs de bloc de données et de métadonnées pour le client HDFS  communication avec le Namenode  – Message aller vers le Namenode indiquant  Son identité  Sa capacité totale, son espace restant  Message-retour depuis le Namenode  Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.) Hadoop 28
  • 32. VII. Avantages Hadoop 32  La gestion des défaillances  que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une forte tolérance aux pannes.  La sécurité et persistance des données  Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.  La montée en charge  garantie d’une montée en charge maximale.  La complexité réduite  capacité d'analyse et de traitement des données à grande échelle.  Le coût réduit  Hadoop est open source, et malgré leur massivité et complexité, les données sont traitées efficacement et à très faible coût
  • 34. VIII.Limite Hadoop 34  Difficulté d’intégration avec d’autres systèmes informatiques  Le transfert de données d’une structure Hadoop vers des bases de données traditionnelles est loin d’être trivial  Administration complexe  Hadoop utilise son propre langage.  L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à des prestataires extérieurs  Traitement de données différé et temps de latence important  Hadoop n’est pas fait pour l’analyse temps réel des données.  Produit en développement continu  manque de maturité
  • 35. VIII.Références Hadoop 35  Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.  Intro to Hadoop and MapReduce, Coursera, Udacity.  https://www.tutorialspoint.com/hadoop/