Hadoop CDH4.1.2HDFS HA : Stockage à haute disponibilité                      Viadeo Tech Days 2012                        ...
Overview1. Hadoop par Cloudera2. CDH3 : Hadoop 13. CDH4 : Hadoop 24. HDFS HA5. Paramétrage6. Mire en route7. Failover8. Co...
Cloudera : distribution Hadoop Packetage Debian et Redhat Dépots publiques Patchs Commiteurs Apache
CDH3 : Doù venons nous ? Hadoop 1.0     NameNode (SPOF)     SecondarynameNode (ceci nest pas un     NameNode)     DataNode...
©http://lesjoiesdusysadmin.tumblr.com/post/35638011614
CDH4.1 : HADOOP 2 Hadoop 2.0   NameNode   DataNode   JournalNode   ZK Failover Controler (ZKFC)   Jobtracker   Tasktracker...
HDFS HA NameNode nest plus un SPOF o/ SecondaryNameNode nest plus utile 2 NameNodes en mode active/standby Bascule automat...
hdfs-site.xml : déclaration du cluster  dfs.nameservices : nom du "point daccès"  dfs.ha.namenodes.hdfscluster : liste des...
hdfs-site.xml : méthode Failover  dfs.ha.automatic-failover.enabled : bascule  automatique ?  ha.zookeeper.quorum : liste ...
hdfs-site.xml : partager les données  dfs.namenode.shared.edits.dir : dossier de  partage des meta données (sur NFS ou  Qu...
Initialisation  Hdfs NameNode (premier)    hdfs namenode -format    start hadoop-hdfs-namenode  Hdfs NameNode (second)    ...
Administration  hdfs haadmin    Usage: DFSHAAdmin [-ns    <nameserviceId>]     [-transitionToActive <serviceId>]     [-tra...
Côté client HDFS: lexemple HBase  hbase-site.xml    hbase.rootdir :    hdfs://<dfs.nameservices>/hbase  La config HDFS dan...
Résultat  Démo
Information  http://ccp.cloudera.com/display/CDH4DOC/CD  H4+High+Availability+Guide
Merci de votre attention,                à vos questions!
HDFS HA : Stockage à haute disponibilité par Damien Hardy
Prochain SlideShare
Chargement dans…5
×

HDFS HA : Stockage à haute disponibilité par Damien Hardy

2 793 vues

Publié le

Jusqu'alors dans HDFS, NameNode etait un élément critique difficile à fiabiliser. Hadoop 2 et donc CDH4 introduisait HDFS HA. CDH4.1 élimine tous les SPOF. Nous verrons comment mettre en place la haute disponibilité dans HDFS. Quels sont les nouveaux services, comment les articuler.
http://fr.viadeo.com/fr/profile/damien.hardy8

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 793
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 075
Actions
Partages
0
Téléchargements
32
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

HDFS HA : Stockage à haute disponibilité par Damien Hardy

  1. 1. Hadoop CDH4.1.2HDFS HA : Stockage à haute disponibilité Viadeo Tech Days 2012 Damien Hardy Architecte Infrastructure @Viadéo
  2. 2. Overview1. Hadoop par Cloudera2. CDH3 : Hadoop 13. CDH4 : Hadoop 24. HDFS HA5. Paramétrage6. Mire en route7. Failover8. Coté client9. Information ailleurs10.Questions
  3. 3. Cloudera : distribution Hadoop Packetage Debian et Redhat Dépots publiques Patchs Commiteurs Apache
  4. 4. CDH3 : Doù venons nous ? Hadoop 1.0 NameNode (SPOF) SecondarynameNode (ceci nest pas un NameNode) DataNode Jobtracker Tasktracker Hbase 0.90 Master server Region server Zookeeper 3.3 ...
  5. 5. ©http://lesjoiesdusysadmin.tumblr.com/post/35638011614
  6. 6. CDH4.1 : HADOOP 2 Hadoop 2.0 NameNode DataNode JournalNode ZK Failover Controler (ZKFC) Jobtracker Tasktracker Hbase 0.92 Master server Region server Zookeeper 3.4 ...
  7. 7. HDFS HA NameNode nest plus un SPOF o/ SecondaryNameNode nest plus utile 2 NameNodes en mode active/standby Bascule automatique possible (ZKFC) Pas dIP flottante ni de hearbeat/keepalive basé sur Zookeeper (déjà utilisé pour Hbase) avec ou sans NFS (grace aux JournalNodes)
  8. 8. hdfs-site.xml : déclaration du cluster dfs.nameservices : nom du "point daccès" dfs.ha.namenodes.hdfscluster : liste des 2 noms de serveurs NameNode dfs.namenode.rpc- address.hdfscluster.<nom> : adresse RPC du node dfs.namenode.http- address.hdfscluster.<nom> : adresse HTTP du node
  9. 9. hdfs-site.xml : méthode Failover dfs.ha.automatic-failover.enabled : bascule automatique ? ha.zookeeper.quorum : liste des serveurs du cluster ZooKeeper
  10. 10. hdfs-site.xml : partager les données dfs.namenode.shared.edits.dir : dossier de partage des meta données (sur NFS ou Quorum JournalNode) dfs.journalnode.edits.dir : chemin de stockage pour le JournalNode (sur chaque serveur du Quorum) dfs.ha.fencing.methods : méthode de STONITH (pour dossier partagé)
  11. 11. Initialisation Hdfs NameNode (premier) hdfs namenode -format start hadoop-hdfs-namenode Hdfs NameNode (second) hdfs namenode -bootstrapStandby start hadoop-hdfs-namenode Hdfs zkfc (bascule automatique) hdfs zkfc -formatZK start hadoop-hdfs-zkfc (sur 2 NameNode)
  12. 12. Administration hdfs haadmin Usage: DFSHAAdmin [-ns <nameserviceId>] [-transitionToActive <serviceId>] [-transitionToStandby <serviceId>] [-failover [--forcefence] [--forceactive] <serviceId> <serviceId>] [-getServiceState <serviceId>] [-checkHealth <serviceId>] [-help <command>] Pour provoquer une bascule de serveur. checkHealth non implémenté
  13. 13. Côté client HDFS: lexemple HBase hbase-site.xml hbase.rootdir : hdfs://<dfs.nameservices>/hbase La config HDFS dans le $CLASSPATH core-site.xml dfs.client.failover.proxy.provider.<ns> hdfs-site.xml
  14. 14. Résultat Démo
  15. 15. Information http://ccp.cloudera.com/display/CDH4DOC/CD H4+High+Availability+Guide
  16. 16. Merci de votre attention, à vos questions!

×