1.
République Algérienne démocratique et populaire.
Université Dr. Tahar Moulay – Saïda
Département d’informatique
Matière :
Master1 RISR
HADOOP
2018/2019
Présenté par : Enseigné par :
• Abderrahmane KAFI
• Kamar MEDDAH
• Mr. Houacine
2.
PLAN
I. Historique,
II. Introduction,
III. Hadoop,
IV. MapReduce,
V. HDFS,
VI. Avantages,
VII.Limites,
VIII.Références.
Hadoop 2
7.
II. INTRODUCTION
Le problème
Depuis maintenant plusieurs années, le monde de l'informatique est entré
dans une ère dans laquelle la principale problématique n'est plus de
comment acquérir des données mais plutôt de comment gérer l'énorme
quantité de données que nous sommes capables d'acquérir.
Gérer de telles quantités de données pose deux problèmes principaux
comment stocker ces informations
aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets
de données
comment organiser et rechercher dans ces informations
une machine seule n'a pas la puissance nécessaire pour effectuer des
recherches suffisamment rapides sur les données .
Hadoop 7
8.
II. INTRODUCTION
La solution
La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant
leur disque dur, les machines forment un groupe de stockage bien plus grand
en partageant leur processeur (et/ou leur carte graphique), les machines forment
un groupe de calcul bien plus performant
Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une
aux yeux de l'extérieur implique une synchronisation entre ces machines. Il
faut être capable de les faire dialoguer pour qu'elles puissent se répartir la
charge et le stockage intelligemment. Cette organisation de machines
dialoguant pour partager stockage et puissance de calcul est appelée un
cluster de machine (et les machines de ce cluster sont alors appelées des
nœuds).
Hadoop 8
9.
II. INTRODUCTION
C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des
conventions afin de rapidement pouvoir mettre en place un tel cluster, y
stocker des données et y exécuter des programmes de manière distribuée.
À l’heure actuelle, Hadoop est la principale plateforme du Big Data.
Utilisé pour le stockage et le traitement d’immenses volumes de données,
ce framework logiciel et ses différents composants sont utilisés par de
très nombreuses entreprises pour leurs projets Big Data. En parcourant ce
dossier, vous saurez tout sur Hadoop et son fonctionnement.
Hadoop 9
11.
III. HADOOP
Apache Hadoop est un framework logiciel open source écrit en Java et géré
par la fondation Apache.
Apache Hadoop est un framework conçu pour le traitement d'ensembles de
données volumineuses répartis sur de grands ensembles de machines.
Hadoop est capable de stocker et traiter de manière efficace un grand
nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour
travailler en parallèle.
Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon
laquelle les défaillances matérielles sont courantes et doivent être gérées
automatiquement par la structure.
Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée.
Hadoop 11
12.
III. HADOOP
Hadoop est utilisé par des entreprises ayant de très fortes volumétries de
données à traiter. Parmi elles, des géants du web comme Facebook, Twitter,
LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.
Un système de fichier distribué (HDFS).
Un ordonnanceur du programmes MapReduce .
Hadoop 12
14.
1. Fonctionnement de Hadoop
Hadoop est principalement constitué de deux composants :
Stockage des données : HDFS (Hadoop Distributed File System)
Traitement des données : MapReduce / Yarn
Principe :
Diviser les données
Les sauvegarder sur une collection de machines, appelées cluster.
Traiter les données directement là où elles sont stockées , plutôt que de
les copier à partir d’un serveur distribué.
Hadoop 14
15.
1. Fonctionnement de Hadoop
Il est possible d’ajouter des machines à votre cluster, au fur et à
mesure que les données augmentent.
En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils
existent pour permettre:
L’extraction et le stockage des données de/sur HDFS.
La simplification des opérations de traitement sur ces données.
La gestion et coordination de la plateforme.
Le monitoring du cluster.
Hadoop 15
19.
IV. Map Reduce
Patron d’architecture de développement permettant de traiter des
données volumineuses de manière parallèle et distribuée.
MapReduce consiste en deux fonctions map() et reduce().
Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est
divisé en morceaux qui sont parcourus en parallèle.
Hadoop 19
20.
IV. Map Reduce
MapReduce implémente les fonctionnalités suivantes :
Parallélisassions automatique des programmes Hadoop.
HDFS se charge de la répartition et de la réplication des données
Le maître divise le travail en jobs parallèles et les répartit
Le maître collecte les résultats et gère les pannes des nœuds.
Gestion transparente du mode distribué.
Tolérance aux pannes.
Hadoop 20
23.
V. HDFS
Optimisé pour stocker de très gros fichiers.
Les fichiers sont divisés en blocs(taille 128 Mo).
Une architecture maitre-esclave
Le maitre HDFS: le Namenode.
Les esclaves de HDFS: les DataNoeuds.
Les blocks sont stockées sur datanodes.
Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour
un mode 1 écriture pour plusieurs lectures.
Hadoop 23
24.
V. HDFS
HDFS est un système de fichiers distribué. C’est à dire :
les fichiers et dossiers sont organisés en arbre (comme Unix)
ces fichiers sont stockés sur un grand nombre de machines de manière à rendre
invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient
les machines qui contiennent les fichiers.
les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des
accès simultanés multiples
HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines
comme un seul arbre, contenant des Po de données, comme s’ils étaient sur
le disque dur local.
Hadoop 24
26.
V. HDFS : Namenode
Responsable de la distribution et de la réplication des blocs .
Serveurs d’information du HDFS pour le client HDFS .
Stockage et gère les métadonnées.
Liste des blocs pour chaque bloc.
Liste des fichiers.
Liste des datanodes pour chaque bloc.
Attributs des fichiers(ex: Nom, date de création, facteur de réplication).
Log toute métadonnées et toutes transaction sur un support persistant.
Lecture/écritures
Création/suppression
Hadoop 26
27.
V. HDFS : Namenode
La capacité mémoire du Namenode décidera du nombre de blocs que l on
peut avoir dans le HDFS.
Hadoop 27
28.
V. HDFS : Datanodes
Stocke des blocks de données dans le systèmes de fichier local
Maintient des métadonnées sur blocks
Serveurs de bloc de données et de métadonnées pour le client HDFS
communication avec le Namenode
– Message aller vers le Namenode indiquant
Son identité
Sa capacité totale, son espace restant
Message-retour depuis le Namenode
Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.)
Hadoop 28
32.
VII. Avantages
Hadoop 32
La gestion des défaillances
que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces
opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une
forte tolérance aux pannes.
La sécurité et persistance des données
Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.
La montée en charge
garantie d’une montée en charge maximale.
La complexité réduite
capacité d'analyse et de traitement des données à grande échelle.
Le coût réduit
Hadoop est open source, et malgré leur massivité et complexité, les données sont
traitées efficacement et à très faible coût
34.
VIII.Limite
Hadoop 34
Difficulté d’intégration avec d’autres systèmes informatiques
Le transfert de données d’une structure Hadoop vers des bases de données
traditionnelles est loin d’être trivial
Administration complexe
Hadoop utilise son propre langage.
L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à
des prestataires extérieurs
Traitement de données différé et temps de latence important
Hadoop n’est pas fait pour l’analyse temps réel des données.
Produit en développement continu
manque de maturité
35.
VIII.Références
Hadoop 35
Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.
Intro to Hadoop and MapReduce, Coursera, Udacity.
https://www.tutorialspoint.com/hadoop/
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Créer un clipboard
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.
Créer un clipboard
Partager ce SlideShare
Vous avez les pubs en horreur?
Obtenez SlideShare sans publicité
Bénéficiez d'un accès à des millions de présentations, documents, e-books, de livres audio, de magazines et bien plus encore, sans la moindre publicité.
Offre spéciale pour les lecteurs de SlideShare
Juste pour vous: Essai GRATUIT de 60 jours dans la plus grande bibliothèque numérique du monde.
La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Apparemment, vous utilisez un bloqueur de publicités qui est en cours d'exécution. En ajoutant SlideShare à la liste blanche de votre bloqueur de publicités, vous soutenez notre communauté de créateurs de contenu.
Vous détestez les publicités?
Nous avons mis à jour notre politique de confidentialité.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.