SlideShare une entreprise Scribd logo
Mme Ines Slimene
Ines_slimene@yahoo.fr
https://inesslimene.wixsite.com/moncours HDFS 2
 Objectifs de HDFS
 Concepts de base de HDFS
 DataNode
 NameNode
 NameNode secondaire
 Lecture et écriture de données
 HDFS 2
 HDFS Federation
 Haute disponibilité du NameNode
 Commandes Shell
Plan
https://inesslimene.wixsite.com/moncours HDFS 3
Pourquoi DFS ?
1 Machine
4 I/O canal
Chaque canal – 100MB/s
10 Machines
4 I/O canal
Chaque canal – 100MB/s
Lecture de 1 TB de données
45 minutes 4.5 minutes
https://inesslimene.wixsite.com/moncours HDFS 4
Garantir l'intégrité des données malgré une
défaillance système (plantage d'une machine)
Permettre un traitement rapide des fichiers d'une
grande taille (GB et plus)
HDFS est moins adapté à beaucoup de fichiers d'une
petite taille
Rapprocher la lecture de la localisation des fichiers
plutôt que de rapprocher les fichiers à la lecture
Objectifs de HDFS
https://inesslimene.wixsite.com/moncours
Concepts de base de HDFS
Rack1 Rack2 Rack3 RackN
request write (fsimage/edit)
Hadoop Client NameNode SNameNode
return DNs,
block ids, etc.
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
checkpoint
heartbeat/
block report
replication
HDFS 5
https://inesslimene.wixsite.com/moncours
Metadata des fichiers:
Data1.txt -> 1,2,3
Data2.txt -> 4,5
HDFS 6
Blk_3
Blk_2
NameNode
Facteur de
réplication =3
Blk_3
Blk_1
Blk_1
Blk_2
Blk_3
Blk_2
Blk_1
DataNode DataNodeDataNodeDataNode
Data1.txt (150 Mo)
Rack #1 Rack #2
Écriture d’un fichier
https://inesslimene.wixsite.com/moncours HDFS 7
 Si l’un des nœuds a un problème, les données seront perdues
 Solution :
 Hadoop réplique chaque bloc 3 fois
 Il choisit 3 nœuds au hasard, et place une copie du bloc dans chacun d’eux
 Si le nœud est en panne, le NN le détecte, et s’occupe de répliquer encore
les blocs qui y étaient hébergés pour avoir toujours 3 copies stockées
Problèmes DataNode
https://inesslimene.wixsite.com/moncours HDFS 8
 Types de Méta-data
 Liste de fichiers
 Liste de blocs pour chaque fichiers (taille par défaut
64MB)
 Liste des dataNodes pour chaque bloc
 Attributs de fichier, exemple : temps d’accès,
facteur de réplication
 Fichier log
 Enregistrement de création et suppression de
fichiers.
NameNode : Méta data
Metadata
File.txt=
Blk A : DN: 1,7,8
Blk B : DN: 8,12,14
Rack awareness
Rack 1 :
DN: 1,2,3,4,5
Rack 2 :
DN: 6,7,8,9,10
Rack 3 :
DN: 11,12,13,14,15
NameNode
https://inesslimene.wixsite.com/moncours HDFS 9
 Chaque namenode contient les fichiers suivants :
 Version :
 Le fichier qui contient les informations sur le namenode.
 On y retrouve : l'identifiant pour le système de fichiers, la date de création, le type
de stockage, la version de la structure des données HDFS.
 Edits :
 Regroupe toutes les opérations effectuées dans le système.
 Chaque fois quand une action d'écriture est effectuée, elle est d'abord placée dans
ce fichier de logs. Le fichier edits sert un peu comme le backup
 Fsimage :
 C'est un fichier binaire utilisé comme un point de contrôle pour les méta-données.
 Il joue aussi un rôle important dans la récupération des données dans le cas d'une
défaillance du système
 Fstime : stocke les informations sur la dernière opération de contrôle sur
les données.
NameNode
https://inesslimene.wixsite.com/moncours HDFS 10
 Limité à 4,000 nœud par cluster
 Dans le cas d’un problème d’accès (réseau), les données seront
temporairement inaccessibles
 Si le disque du NN est défaillant, les données seront perdues à jamais
 Dans ce cas, l’administrateur doit restaurer le NameNode,
MANUELLEMENT, en utilisant le NameNode secondaire.
Problème NameNode
https://inesslimene.wixsite.com/moncours HDFS 11
 Son arborescence de répertoire est quasi identique a celui du NN primaire.
 Le NN secondaire lit les méta-data à partir du RAM du NN et les écrit sur le
disque dur.
 Le NN secondaire vérifie périodiquement l'état du NN primaire.
 A chaque vérification, il copie le fichier edits à partir du NN primaire à des
intervalles régulier et applique les modifications au fichier fsimage.
 Le nouveau fsimage est copié sur le NN primaire, et est utilisé au démarrage
suivant du NN primaire
 Le namenode secondaire n’est pas :
 Un fail-over pour le Namenode
 Ne garantit pas la haute disponibilité
 N’améliore pas les performances du namenode
Namenode secondaire
https://inesslimene.wixsite.com/moncours HDFS 12
Hadoop1 vs Hadoop2
Propriété Hadoop 1.0 Hadoop 2.0
Fédération Un seul namenode Plusieurs namenode
Haute disponibilité inexistante Hautement disponible
Gestion des ressources jobTracker et task
tracker
Manager de ressource,
manager de nœud
https://inesslimene.wixsite.com/moncours HDFS 13
 HDFS Federation – scalabilité horizontale du namenode
 Haute disponibilité du NameNode – NameNode n’est plus un ‘Single
Point of Failure’
Avantages HDFS2
https://inesslimene.wixsite.com/moncours HDFS 14
 Les Namenodes sont indépendants
 Pas de coordination entre les différents NN
 Les dataNodes sont des supports de stockage des blocs provenant de
tous les NN
 Les DN envoie un heartbeat et un rapport à tous les NN.
Fédération HDFS
https://inesslimene.wixsite.com/moncours HDFS 15
 Tous les fichiers edits seront stockés dans un système de fichier partagé
 A un instant données, un seul NN écrit dans les fichiers edits
 LE NN passive lit à partir de ce fichier et garde des informations des
meta-data à jour
Haute disponibilité du NameNode
 En cas de panne de l’active
NameNode, le NN passive devient le
NN active et commence a écrire dans
l’espace partagé.
https://inesslimene.wixsite.com/moncours
Écriture d’un fichier
Rack1 Rack2 Rack3 RackN
request write
Hadoop Client
return DNs, etc.
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
DN
write blocks
replication
fsimage/edit copy
NN1
SNameNode
per NN
checkpoint
heartbeat/
block report
fs sync Backup NN
per NN
checkpoint
NN2 NN3 NN4
or
https://inesslimene.wixsite.com/moncours HDFS 30
 Configuration du NameNode (master)
Configuration de l’architecture
matérielle dans des fichiers XML
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
conf/masters:
localhost
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
https://inesslimene.wixsite.com/moncours HDFS 31
 Configuration du/des DataNode(s) (slaves)
Configuration de l’architecture
matérielle dans des fichiers XML
conf/slaves:
localhost
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
 Configuration de la réplication
https://inesslimene.wixsite.com/moncours HDFS 19
 Usage: $hdfs dfs -<command> -<option><URI>
 Exemple $ hdfs dfs -ls /
 URI usage:
 HDFS: $ hdfs dfs -ls hdfs://localhost/to/path/dir
 Local: $ hdfs dfs -ls file:///to/path/file3
 La plupart des commandes sont similaires aux commandes UNIX
 ls, cat, du, etc..
 Lister les commandes hdfs
 $ hdfs dfs -help
Commandes Shell
https://inesslimene.wixsite.com/moncours HDFS 20
 cat – afficher le contenu d’un document
 Tout le document: $ had hdfs dfs -cat /dir/file.txt
 Afficher les 25 premières lignes du fichier file.txt
 $ hdfs dfs -cat /dir/file.txt | head -n 25
 cp – copier un fichier de HDFS vers HDFS
 $ hdfs dfs -cp /dir/file1 /otherDir/file2
 ls – afficher le contenu d’un répertoire
 $ hdfs dfs -ls /dir/
 mkdir – créer un chemin
 $ hdfs dfs -mkdir /brandNewDir
Commandes Shell
https://inesslimene.wixsite.com/moncours HDFS 21
 mv – déplacer un fichier
 $ hdfs dfs -mv /dir/file1 /dir2/file2
 put – copier du système de fichier courant vers hdfs
 $ had hdfs dfs -put localfile /dir/file1
 on peut utiliser aussi copyFromLocal
 get – copier des fichiers a partir de hdfs
 $ hdfs dfs -get /dir/file localfile
 on peut utiliser aussi copyToLocal
Déplacement de données
https://inesslimene.wixsite.com/moncours HDFS 22
 rm – supprimer des fichiers
 $ hdfs dfs -rm /dir/fileToDelete
 rmr – supprimer un repetoire
 $ hdfs dfs –rm -r /dirWithStuff
Suppression de données
https://inesslimene.wixsite.com/moncours HDFS 23
 du : afficher les tailles des fichiers d’un répertoire (en bytes)
 hdfs dfs -du /someDir/
 du –h : afficher les tailles des fichiers d’un répertoire (en octets)
 hdfs dfs -du –h /someDir/
 du –s : afficher la taille totale d’un répertoire
 hdfs dfs –du -s /someDir/
États des fichiers
https://inesslimene.wixsite.com/moncours HDFS 24
 Contrôle les incohérences
 Reporte les problèmes
 Blocs manquants
 Blocs non répliqués
 Ne corrige pas les problèmes
 C’est le Namenode qui corrige les erreurs reportées par fsck.
 $ hdfs fsck <path>
 Exemple : $ hdfs fsck /
Commande fsck
https://inesslimene.wixsite.com/moncours HDFS 25
 Operations administratives du HDFS
 $ hadoop dfsadmin <command>
 Exemple: $ hadoop dfsadmin -report
 report : affiche les statistiques du HDFS
 safemode : entrer en mode safemode
 Maintenance, sauvegarde, mise a jours, etc..
Commande DFSAdmin

Contenu connexe

Tendances

system de gestion Nfs (Network File System)
system de gestion Nfs (Network File System)system de gestion Nfs (Network File System)
system de gestion Nfs (Network File System)
ninanoursan
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
Olivier DASINI
 
Commande rapide linux
Commande rapide linuxCommande rapide linux
Commande rapide linux
patsiii
 
Commandes usuelle linux
Commandes usuelle   linuxCommandes usuelle   linux
Commandes usuelle linux
Fabrice Sonzahi
 
Domain Name System
Domain Name SystemDomain Name System
Domain Name System
babaoui mohamed
 
Genma - Vulgarisons le DNS
Genma - Vulgarisons le DNSGenma - Vulgarisons le DNS
Genma - Vulgarisons le DNS
Jérôme aka "Genma" Kun
 
Administration reseau linux
Administration reseau linuxAdministration reseau linux
Administration reseau linuxRiadh Briki
 
Install arch ultrabook full luks ssd
Install arch ultrabook full luks ssdInstall arch ultrabook full luks ssd
Install arch ultrabook full luks ssd
Anthony Le Goff
 
Rapport d’installation et configuration du serveur OpenLDAP
Rapport d’installation et configuration du serveur OpenLDAPRapport d’installation et configuration du serveur OpenLDAP
Rapport d’installation et configuration du serveur OpenLDAP
Balla Moussa Doumbouya
 
Shell sans les coquilles
Shell sans les coquillesShell sans les coquilles
Shell sans les coquilles
Édouard Lopez
 
Rapport d’installation d’un serveur de messagerie avec le Webmail Roundcube
Rapport d’installation d’un serveur de  messagerie avec le Webmail RoundcubeRapport d’installation d’un serveur de  messagerie avec le Webmail Roundcube
Rapport d’installation d’un serveur de messagerie avec le Webmail Roundcube
Balla Moussa Doumbouya
 
07 03 sécurisation d'un serveur dns
07 03 sécurisation d'un serveur dns07 03 sécurisation d'un serveur dns
07 03 sécurisation d'un serveur dnsNoël
 
PostgreSQL sous linux
PostgreSQL sous linuxPostgreSQL sous linux
PostgreSQL sous linux
Khalid ALLILI
 
Initiation Linux
Initiation LinuxInitiation Linux
Initiation Linux
Amaury Khelifi
 
Présentation unix linux
Présentation unix linuxPrésentation unix linux
Présentation unix linux
Emmanuel Florac
 

Tendances (18)

system de gestion Nfs (Network File System)
system de gestion Nfs (Network File System)system de gestion Nfs (Network File System)
system de gestion Nfs (Network File System)
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
 
Expose dns
Expose dnsExpose dns
Expose dns
 
Linux commandes
Linux commandesLinux commandes
Linux commandes
 
Commande rapide linux
Commande rapide linuxCommande rapide linux
Commande rapide linux
 
Commandes usuelle linux
Commandes usuelle   linuxCommandes usuelle   linux
Commandes usuelle linux
 
Domain Name System
Domain Name SystemDomain Name System
Domain Name System
 
Genma - Vulgarisons le DNS
Genma - Vulgarisons le DNSGenma - Vulgarisons le DNS
Genma - Vulgarisons le DNS
 
Administration reseau linux
Administration reseau linuxAdministration reseau linux
Administration reseau linux
 
Install arch ultrabook full luks ssd
Install arch ultrabook full luks ssdInstall arch ultrabook full luks ssd
Install arch ultrabook full luks ssd
 
Rapport d’installation et configuration du serveur OpenLDAP
Rapport d’installation et configuration du serveur OpenLDAPRapport d’installation et configuration du serveur OpenLDAP
Rapport d’installation et configuration du serveur OpenLDAP
 
Shell sans les coquilles
Shell sans les coquillesShell sans les coquilles
Shell sans les coquilles
 
Rapport d’installation d’un serveur de messagerie avec le Webmail Roundcube
Rapport d’installation d’un serveur de  messagerie avec le Webmail RoundcubeRapport d’installation d’un serveur de  messagerie avec le Webmail Roundcube
Rapport d’installation d’un serveur de messagerie avec le Webmail Roundcube
 
Routage protocole
Routage protocoleRoutage protocole
Routage protocole
 
07 03 sécurisation d'un serveur dns
07 03 sécurisation d'un serveur dns07 03 sécurisation d'un serveur dns
07 03 sécurisation d'un serveur dns
 
PostgreSQL sous linux
PostgreSQL sous linuxPostgreSQL sous linux
PostgreSQL sous linux
 
Initiation Linux
Initiation LinuxInitiation Linux
Initiation Linux
 
Présentation unix linux
Présentation unix linuxPrésentation unix linux
Présentation unix linux
 

Similaire à Hdfs

380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
hidaeli2001
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
Mouna Torjmen
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
Amal Abid
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
EddySHANGA
 
Notes de cours et tp - Administation Systèmes
Notes de cours et tp  - Administation Systèmes Notes de cours et tp  - Administation Systèmes
Notes de cours et tp - Administation Systèmes
Ikram Benabdelouahab
 
L’ Administration des Réseaux en Pratique
L’ Administration des Réseaux en PratiqueL’ Administration des Réseaux en Pratique
L’ Administration des Réseaux en Pratique
Amadou Dia
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
IssamHamdi
 
Hadoop
HadoopHadoop
Hadoop
AS Stitou
 
Utilisation de commande chown dans kali linux
Utilisation de commande chown dans kali linuxUtilisation de commande chown dans kali linux
Utilisation de commande chown dans kali linux
ImnaTech
 
Dns
DnsDns
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
salmanakbi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid
 
Cours Linux , bases de l'administration linux
Cours Linux , bases de l'administration linuxCours Linux , bases de l'administration linux
Cours Linux , bases de l'administration linux
AdiliKarim
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
Patrick Bury
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
Patrick Bury
 
Utilisation de dkms
Utilisation de dkmsUtilisation de dkms
Utilisation de dkms
Thierry Gayet
 
Présentation NAS - MiNET
Présentation NAS - MiNETPrésentation NAS - MiNET
Présentation NAS - MiNET
Mehdi Sebbar
 
service NFS sous linux
 service NFS sous linux service NFS sous linux
service NFS sous linux
Souhaib El
 
Qcm serveur 2003 souhaib el
Qcm serveur 2003 souhaib elQcm serveur 2003 souhaib el
Qcm serveur 2003 souhaib el
Souhaib El
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
Ted Drake
 

Similaire à Hdfs (20)

380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
380768495-admin-linux-Sauvegarde-et-restauration-cours-4-1-ppt.ppt
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptxNOTES DE BIG DATA L 3 INFO DUS 2024.pptx
NOTES DE BIG DATA L 3 INFO DUS 2024.pptx
 
Notes de cours et tp - Administation Systèmes
Notes de cours et tp  - Administation Systèmes Notes de cours et tp  - Administation Systèmes
Notes de cours et tp - Administation Systèmes
 
L’ Administration des Réseaux en Pratique
L’ Administration des Réseaux en PratiqueL’ Administration des Réseaux en Pratique
L’ Administration des Réseaux en Pratique
 
Hadoop MapReduce.docx
Hadoop  MapReduce.docxHadoop  MapReduce.docx
Hadoop MapReduce.docx
 
Hadoop
HadoopHadoop
Hadoop
 
Utilisation de commande chown dans kali linux
Utilisation de commande chown dans kali linuxUtilisation de commande chown dans kali linux
Utilisation de commande chown dans kali linux
 
Dns
DnsDns
Dns
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Cours Linux , bases de l'administration linux
Cours Linux , bases de l'administration linuxCours Linux , bases de l'administration linux
Cours Linux , bases de l'administration linux
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
Utilisation de dkms
Utilisation de dkmsUtilisation de dkms
Utilisation de dkms
 
Présentation NAS - MiNET
Présentation NAS - MiNETPrésentation NAS - MiNET
Présentation NAS - MiNET
 
service NFS sous linux
 service NFS sous linux service NFS sous linux
service NFS sous linux
 
Qcm serveur 2003 souhaib el
Qcm serveur 2003 souhaib elQcm serveur 2003 souhaib el
Qcm serveur 2003 souhaib el
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 

Plus de Ines Slimene

Spark
SparkSpark
Redis
RedisRedis
Crud
CrudCrud
Cassandra
CassandraCassandra
Cassandra
Ines Slimene
 
Agregation
AgregationAgregation
Agregation
Ines Slimene
 
Pig
PigPig
Neo4j
Neo4jNeo4j
Mapreduce
MapreduceMapreduce
Mapreduce
Ines Slimene
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
Ines Slimene
 
Introduction
IntroductionIntroduction
Introduction
Ines Slimene
 
Intro mongodb
Intro mongodbIntro mongodb
Intro mongodb
Ines Slimene
 
Hive
HiveHive
Hbase
HbaseHbase
Hadoop
HadoopHadoop
Hadoop
Ines Slimene
 
Indexation
IndexationIndexation
Indexation
Ines Slimene
 

Plus de Ines Slimene (15)

Spark
SparkSpark
Spark
 
Redis
RedisRedis
Redis
 
Crud
CrudCrud
Crud
 
Cassandra
CassandraCassandra
Cassandra
 
Agregation
AgregationAgregation
Agregation
 
Pig
PigPig
Pig
 
Neo4j
Neo4jNeo4j
Neo4j
 
Mapreduce
MapreduceMapreduce
Mapreduce
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
 
Introduction
IntroductionIntroduction
Introduction
 
Intro mongodb
Intro mongodbIntro mongodb
Intro mongodb
 
Hive
HiveHive
Hive
 
Hbase
HbaseHbase
Hbase
 
Hadoop
HadoopHadoop
Hadoop
 
Indexation
IndexationIndexation
Indexation
 

Dernier

BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
Txaruka
 
Iris van Herpen. pptx
Iris         van        Herpen.      pptxIris         van        Herpen.      pptx
Iris van Herpen. pptx
Txaruka
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
Michel Bruley
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
AbdessamadAmimi1
 
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
frizzole
 
Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
Morzadec Cécile
 

Dernier (7)

BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
 
Iris van Herpen. pptx
Iris         van        Herpen.      pptxIris         van        Herpen.      pptx
Iris van Herpen. pptx
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
 
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
 
Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
 

Hdfs

  • 2. https://inesslimene.wixsite.com/moncours HDFS 2  Objectifs de HDFS  Concepts de base de HDFS  DataNode  NameNode  NameNode secondaire  Lecture et écriture de données  HDFS 2  HDFS Federation  Haute disponibilité du NameNode  Commandes Shell Plan
  • 3. https://inesslimene.wixsite.com/moncours HDFS 3 Pourquoi DFS ? 1 Machine 4 I/O canal Chaque canal – 100MB/s 10 Machines 4 I/O canal Chaque canal – 100MB/s Lecture de 1 TB de données 45 minutes 4.5 minutes
  • 4. https://inesslimene.wixsite.com/moncours HDFS 4 Garantir l'intégrité des données malgré une défaillance système (plantage d'une machine) Permettre un traitement rapide des fichiers d'une grande taille (GB et plus) HDFS est moins adapté à beaucoup de fichiers d'une petite taille Rapprocher la lecture de la localisation des fichiers plutôt que de rapprocher les fichiers à la lecture Objectifs de HDFS
  • 5. https://inesslimene.wixsite.com/moncours Concepts de base de HDFS Rack1 Rack2 Rack3 RackN request write (fsimage/edit) Hadoop Client NameNode SNameNode return DNs, block ids, etc. DN DN DN DN DN DN DN DN DN DN DN DN checkpoint heartbeat/ block report replication HDFS 5
  • 6. https://inesslimene.wixsite.com/moncours Metadata des fichiers: Data1.txt -> 1,2,3 Data2.txt -> 4,5 HDFS 6 Blk_3 Blk_2 NameNode Facteur de réplication =3 Blk_3 Blk_1 Blk_1 Blk_2 Blk_3 Blk_2 Blk_1 DataNode DataNodeDataNodeDataNode Data1.txt (150 Mo) Rack #1 Rack #2 Écriture d’un fichier
  • 7. https://inesslimene.wixsite.com/moncours HDFS 7  Si l’un des nœuds a un problème, les données seront perdues  Solution :  Hadoop réplique chaque bloc 3 fois  Il choisit 3 nœuds au hasard, et place une copie du bloc dans chacun d’eux  Si le nœud est en panne, le NN le détecte, et s’occupe de répliquer encore les blocs qui y étaient hébergés pour avoir toujours 3 copies stockées Problèmes DataNode
  • 8. https://inesslimene.wixsite.com/moncours HDFS 8  Types de Méta-data  Liste de fichiers  Liste de blocs pour chaque fichiers (taille par défaut 64MB)  Liste des dataNodes pour chaque bloc  Attributs de fichier, exemple : temps d’accès, facteur de réplication  Fichier log  Enregistrement de création et suppression de fichiers. NameNode : Méta data Metadata File.txt= Blk A : DN: 1,7,8 Blk B : DN: 8,12,14 Rack awareness Rack 1 : DN: 1,2,3,4,5 Rack 2 : DN: 6,7,8,9,10 Rack 3 : DN: 11,12,13,14,15 NameNode
  • 9. https://inesslimene.wixsite.com/moncours HDFS 9  Chaque namenode contient les fichiers suivants :  Version :  Le fichier qui contient les informations sur le namenode.  On y retrouve : l'identifiant pour le système de fichiers, la date de création, le type de stockage, la version de la structure des données HDFS.  Edits :  Regroupe toutes les opérations effectuées dans le système.  Chaque fois quand une action d'écriture est effectuée, elle est d'abord placée dans ce fichier de logs. Le fichier edits sert un peu comme le backup  Fsimage :  C'est un fichier binaire utilisé comme un point de contrôle pour les méta-données.  Il joue aussi un rôle important dans la récupération des données dans le cas d'une défaillance du système  Fstime : stocke les informations sur la dernière opération de contrôle sur les données. NameNode
  • 10. https://inesslimene.wixsite.com/moncours HDFS 10  Limité à 4,000 nœud par cluster  Dans le cas d’un problème d’accès (réseau), les données seront temporairement inaccessibles  Si le disque du NN est défaillant, les données seront perdues à jamais  Dans ce cas, l’administrateur doit restaurer le NameNode, MANUELLEMENT, en utilisant le NameNode secondaire. Problème NameNode
  • 11. https://inesslimene.wixsite.com/moncours HDFS 11  Son arborescence de répertoire est quasi identique a celui du NN primaire.  Le NN secondaire lit les méta-data à partir du RAM du NN et les écrit sur le disque dur.  Le NN secondaire vérifie périodiquement l'état du NN primaire.  A chaque vérification, il copie le fichier edits à partir du NN primaire à des intervalles régulier et applique les modifications au fichier fsimage.  Le nouveau fsimage est copié sur le NN primaire, et est utilisé au démarrage suivant du NN primaire  Le namenode secondaire n’est pas :  Un fail-over pour le Namenode  Ne garantit pas la haute disponibilité  N’améliore pas les performances du namenode Namenode secondaire
  • 12. https://inesslimene.wixsite.com/moncours HDFS 12 Hadoop1 vs Hadoop2 Propriété Hadoop 1.0 Hadoop 2.0 Fédération Un seul namenode Plusieurs namenode Haute disponibilité inexistante Hautement disponible Gestion des ressources jobTracker et task tracker Manager de ressource, manager de nœud
  • 13. https://inesslimene.wixsite.com/moncours HDFS 13  HDFS Federation – scalabilité horizontale du namenode  Haute disponibilité du NameNode – NameNode n’est plus un ‘Single Point of Failure’ Avantages HDFS2
  • 14. https://inesslimene.wixsite.com/moncours HDFS 14  Les Namenodes sont indépendants  Pas de coordination entre les différents NN  Les dataNodes sont des supports de stockage des blocs provenant de tous les NN  Les DN envoie un heartbeat et un rapport à tous les NN. Fédération HDFS
  • 15. https://inesslimene.wixsite.com/moncours HDFS 15  Tous les fichiers edits seront stockés dans un système de fichier partagé  A un instant données, un seul NN écrit dans les fichiers edits  LE NN passive lit à partir de ce fichier et garde des informations des meta-data à jour Haute disponibilité du NameNode  En cas de panne de l’active NameNode, le NN passive devient le NN active et commence a écrire dans l’espace partagé.
  • 16. https://inesslimene.wixsite.com/moncours Écriture d’un fichier Rack1 Rack2 Rack3 RackN request write Hadoop Client return DNs, etc. DN DN DN DN DN DN DN DN DN DN DN DN write blocks replication fsimage/edit copy NN1 SNameNode per NN checkpoint heartbeat/ block report fs sync Backup NN per NN checkpoint NN2 NN3 NN4 or
  • 17. https://inesslimene.wixsite.com/moncours HDFS 30  Configuration du NameNode (master) Configuration de l’architecture matérielle dans des fichiers XML conf/core-site.xml: <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> conf/masters: localhost conf/mapred-site.xml: <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>
  • 18. https://inesslimene.wixsite.com/moncours HDFS 31  Configuration du/des DataNode(s) (slaves) Configuration de l’architecture matérielle dans des fichiers XML conf/slaves: localhost conf/hdfs-site.xml: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>  Configuration de la réplication
  • 19. https://inesslimene.wixsite.com/moncours HDFS 19  Usage: $hdfs dfs -<command> -<option><URI>  Exemple $ hdfs dfs -ls /  URI usage:  HDFS: $ hdfs dfs -ls hdfs://localhost/to/path/dir  Local: $ hdfs dfs -ls file:///to/path/file3  La plupart des commandes sont similaires aux commandes UNIX  ls, cat, du, etc..  Lister les commandes hdfs  $ hdfs dfs -help Commandes Shell
  • 20. https://inesslimene.wixsite.com/moncours HDFS 20  cat – afficher le contenu d’un document  Tout le document: $ had hdfs dfs -cat /dir/file.txt  Afficher les 25 premières lignes du fichier file.txt  $ hdfs dfs -cat /dir/file.txt | head -n 25  cp – copier un fichier de HDFS vers HDFS  $ hdfs dfs -cp /dir/file1 /otherDir/file2  ls – afficher le contenu d’un répertoire  $ hdfs dfs -ls /dir/  mkdir – créer un chemin  $ hdfs dfs -mkdir /brandNewDir Commandes Shell
  • 21. https://inesslimene.wixsite.com/moncours HDFS 21  mv – déplacer un fichier  $ hdfs dfs -mv /dir/file1 /dir2/file2  put – copier du système de fichier courant vers hdfs  $ had hdfs dfs -put localfile /dir/file1  on peut utiliser aussi copyFromLocal  get – copier des fichiers a partir de hdfs  $ hdfs dfs -get /dir/file localfile  on peut utiliser aussi copyToLocal Déplacement de données
  • 22. https://inesslimene.wixsite.com/moncours HDFS 22  rm – supprimer des fichiers  $ hdfs dfs -rm /dir/fileToDelete  rmr – supprimer un repetoire  $ hdfs dfs –rm -r /dirWithStuff Suppression de données
  • 23. https://inesslimene.wixsite.com/moncours HDFS 23  du : afficher les tailles des fichiers d’un répertoire (en bytes)  hdfs dfs -du /someDir/  du –h : afficher les tailles des fichiers d’un répertoire (en octets)  hdfs dfs -du –h /someDir/  du –s : afficher la taille totale d’un répertoire  hdfs dfs –du -s /someDir/ États des fichiers
  • 24. https://inesslimene.wixsite.com/moncours HDFS 24  Contrôle les incohérences  Reporte les problèmes  Blocs manquants  Blocs non répliqués  Ne corrige pas les problèmes  C’est le Namenode qui corrige les erreurs reportées par fsck.  $ hdfs fsck <path>  Exemple : $ hdfs fsck / Commande fsck
  • 25. https://inesslimene.wixsite.com/moncours HDFS 25  Operations administratives du HDFS  $ hadoop dfsadmin <command>  Exemple: $ hadoop dfsadmin -report  report : affiche les statistiques du HDFS  safemode : entrer en mode safemode  Maintenance, sauvegarde, mise a jours, etc.. Commande DFSAdmin