Hadoop

République Algérienne démocratique et populaire.
Université Dr. Tahar Moulay – Saïda
Département d’informatique
Matière :
Master1 RISR
HADOOP
2018/2019
Présenté par : Enseigné par :
• Abderrahmane KAFI
• Kamar MEDDAH
• Mr. Houacine

PLAN
I. Historique,
II. Introduction,
III. Hadoop,
IV. MapReduce,
V. HDFS,
VI. Avantages,
VII.Limites,
VIII.Références.
Hadoop 2

II. INTRODUCTION
 Le problème
 Depuis maintenant plusieurs années, le monde de l'informatique est entré
dans une ère dans laquelle la principale problématique n'est plus de
comment acquérir des données mais plutôt de comment gérer l'énorme
quantité de données que nous sommes capables d'acquérir.
 Gérer de telles quantités de données pose deux problèmes principaux
 comment stocker ces informations
 aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets
de données
 comment organiser et rechercher dans ces informations
 une machine seule n'a pas la puissance nécessaire pour effectuer des
recherches suffisamment rapides sur les données .
Hadoop 7

II. INTRODUCTION
 La solution
 La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant
leur disque dur, les machines forment un groupe de stockage bien plus grand
 en partageant leur processeur (et/ou leur carte graphique), les machines forment
un groupe de calcul bien plus performant
 Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une
aux yeux de l'extérieur implique une synchronisation entre ces machines. Il
faut être capable de les faire dialoguer pour qu'elles puissent se répartir la
charge et le stockage intelligemment. Cette organisation de machines
dialoguant pour partager stockage et puissance de calcul est appelée un
cluster de machine (et les machines de ce cluster sont alors appelées des
nœuds).
Hadoop 8

II. INTRODUCTION
 C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des
conventions afin de rapidement pouvoir mettre en place un tel cluster, y
stocker des données et y exécuter des programmes de manière distribuée.
 À l’heure actuelle, Hadoop est la principale plateforme du Big Data.
Utilisé pour le stockage et le traitement d’immenses volumes de données,
ce framework logiciel et ses différents composants sont utilisés par de
très nombreuses entreprises pour leurs projets Big Data. En parcourant ce
dossier, vous saurez tout sur Hadoop et son fonctionnement.
Hadoop 9

III. HADOOP
 Apache Hadoop est un framework logiciel open source écrit en Java et géré
par la fondation Apache.
 Apache Hadoop est un framework conçu pour le traitement d'ensembles de
données volumineuses répartis sur de grands ensembles de machines.
 Hadoop est capable de stocker et traiter de manière efficace un grand
nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour
travailler en parallèle.
 Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon
laquelle les défaillances matérielles sont courantes et doivent être gérées
automatiquement par la structure.
 Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée.
Hadoop 11

III. HADOOP
 Hadoop est utilisé par des entreprises ayant de très fortes volumétries de
données à traiter. Parmi elles, des géants du web comme Facebook, Twitter,
LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.
 Un système de fichier distribué (HDFS).
 Un ordonnanceur du programmes MapReduce .
Hadoop 12

1. Fonctionnement de
Hadoop
Hadoop 13

1. Fonctionnement de Hadoop
 Hadoop est principalement constitué de deux composants :
 Stockage des données : HDFS (Hadoop Distributed File System)
 Traitement des données : MapReduce / Yarn
 Principe :
 Diviser les données
 Les sauvegarder sur une collection de machines, appelées cluster.
 Traiter les données directement là où elles sont stockées , plutôt que de
les copier à partir d’un serveur distribué.
Hadoop 14

 Il est possible d’ajouter des machines à votre cluster, au fur et à
mesure que les données augmentent.
 En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils
existent pour permettre:
 L’extraction et le stockage des données de/sur HDFS.
 La simplification des opérations de traitement sur ces données.
 La gestion et coordination de la plateforme.
 Le monitoring du cluster.
Hadoop 15

Hadoop 16

Hadoop 17

IV. Map Reduce
 Patron d’architecture de développement permettant de traiter des
données volumineuses de manière parallèle et distribuée.
 MapReduce consiste en deux fonctions map() et reduce().
 Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est
divisé en morceaux qui sont parcourus en parallèle.
Hadoop 19

IV. Map Reduce
 MapReduce implémente les fonctionnalités suivantes :
 Parallélisassions automatique des programmes Hadoop.
 HDFS se charge de la répartition et de la réplication des données
 Le maître divise le travail en jobs parallèles et les répartit
 Le maître collecte les résultats et gère les pannes des nœuds.
 Gestion transparente du mode distribué.
 Tolérance aux pannes.
Hadoop 20

V. HDFS
 Optimisé pour stocker de très gros fichiers.
 Les fichiers sont divisés en blocs(taille 128 Mo).
 Une architecture maitre-esclave
 Le maitre HDFS: le Namenode.
 Les esclaves de HDFS: les DataNoeuds.
 Les blocks sont stockées sur datanodes.
 Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour
un mode 1 écriture pour plusieurs lectures.
Hadoop 23

V. HDFS
 HDFS est un système de fichiers distribué. C’est à dire :
 les fichiers et dossiers sont organisés en arbre (comme Unix)
 ces fichiers sont stockés sur un grand nombre de machines de manière à rendre
invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient
les machines qui contiennent les fichiers.
 les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des
accès simultanés multiples
 HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines
comme un seul arbre, contenant des Po de données, comme s’ils étaient sur
le disque dur local.
Hadoop 24

V. HDFS : Namenode
 Responsable de la distribution et de la réplication des blocs .
 Serveurs d’information du HDFS pour le client HDFS .
 Stockage et gère les métadonnées.
 Liste des blocs pour chaque bloc.
 Liste des fichiers.
 Liste des datanodes pour chaque bloc.
 Attributs des fichiers(ex: Nom, date de création, facteur de réplication).
 Log toute métadonnées et toutes transaction sur un support persistant.
 Lecture/écritures
 Création/suppression
Hadoop 26

V. HDFS : Namenode
 La capacité mémoire du Namenode décidera du nombre de blocs que l on
peut avoir dans le HDFS.
Hadoop 27

V. HDFS : Datanodes
 Stocke des blocks de données dans le systèmes de fichier local
 Maintient des métadonnées sur blocks
 Serveurs de bloc de données et de métadonnées pour le client HDFS
 communication avec le Namenode
 – Message aller vers le Namenode indiquant
 Son identité
 Sa capacité totale, son espace restant
 Message-retour depuis le Namenode
 Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.)
Hadoop 28

VII. Avantages
Hadoop 32
 La gestion des défaillances
 que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces
opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une
forte tolérance aux pannes.
 La sécurité et persistance des données
 Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.
 La montée en charge
 garantie d’une montée en charge maximale.
 La complexité réduite
 capacité d'analyse et de traitement des données à grande échelle.
 Le coût réduit
 Hadoop est open source, et malgré leur massivité et complexité, les données sont
traitées efficacement et à très faible coût

VIII.Limite
Hadoop 34
 Difficulté d’intégration avec d’autres systèmes informatiques
 Le transfert de données d’une structure Hadoop vers des bases de données
traditionnelles est loin d’être trivial
 Administration complexe
 Hadoop utilise son propre langage.
 L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à
des prestataires extérieurs
 Traitement de données différé et temps de latence important
 Hadoop n’est pas fait pour l’analyse temps réel des données.
 Produit en développement continu
 manque de maturité

VIII.Références
Hadoop 35
 Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.
 Intro to Hadoop and MapReduce, Coursera, Udacity.
 https://www.tutorialspoint.com/hadoop/

Hadoop

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Hadoop

Similaire à Hadoop (20)

Plus de kamar MEDDAH

Plus de kamar MEDDAH (13)

Hadoop