Hadoop 2.0 - The Next Level

•

0 j'aime•2,269 vues

In 2010 stellten die Entwickler von Hadoop fest, dass bei sehr große Clustern (4.000 Knoten und mehr) das bisherige MapReduce Framework nicht mehr richtig skaliert. Deshalb wurde dieses komplett überarbeitet. Das Ergebnis war YARN (Yet Another Resource Negotiator). Neben einer besseren Skalierbarkeit erzeugte YARN weitere positive Nebeneffekte. Im Oktober 2013 wurde YARN mit dem Hadoop 2.0 Release veröffentlicht. Was es mit YARN auf sich hat - und welche zusätzlichen Änderungen in Hadoop 2.0 eingeflossen sind - zeigt diese Session.

Technologie

Hadoop 2.0
The Next Level
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de

Hadoop 2.0 - Was ist Neu?
• Apache Hadoop YARN + HDFS 2.0
• Apache Tez
• Apache Hive v0.12 und die Stinger Initiative
• Apache Ambari v1.4.1
• Apache HBase v0.96

Apache Hadoop YARN
Das neue Hadoop Daten-Betriebssystem

Architektur von Hadoop 1.x
JobTracker
• Globale Ablaufplanung
• Globale Ressourcenverwaltung
TaskTracker
• Lokale Aufgabenverwaltung

Grenzen von Hadoop 1.x
Skalierbarkeit
• Max. Clustergröße ~5.000 Knoten
• Max. Parallele Aufgaben ~40.000
• Grobe Aufgabenverteilung
Integriertes MapReduce Framework
• Nicht-Optimale Ressourcennutzung
• Fehlende Unterstützung für Alternative Verarbeitung

Architektur von Hadoop 2.x
ResourceManager
• Globale Job-Ablaufplanung
• Globale, Erweiterbare
Ressourcenverwaltung
NodeManager
• Lokale Ressourcenverwaltung

Architektur von Hadoop 2.x
ApplicationMaster
• Framework-Spezifische Instanz
• Fordert Ressourcen beim
ResourceManager an
• Verantwortlich für die
Ausfallsicherheit
Container
• Verwenden gemeinsam genutzte
Ressourcen

Daten-Betriebssystem für Hadoop 2.0
Flexibel

Effizient

Verteilt

Neue Verarbeitungsmodel

Verdoppelt Verarbeitung

Stabile, verlässliche, verteilte
Basis

Native Datenverarbeitung IN Hadoop
BATCH
MapReduce

INTERAKTIV
Tez

ONLINE
HBase

STREAMING
Storm, S4, …

GRAPH
Giraph

MICROSOFT
REEF

SAS
LASR, HPA

YARN: Cluster Ressourcenverwaltung
HDFS2: Redundanter, Verlässlicher Speicher

ANDERE

HDFS 2.0 – Was ist Neu?
• NameNode Hochverfügbarkeit
• HDFS Federation
• HDFS Snapshots
Point-In-Time Wiederherstellung
• NFSv3 Lese-/Schreibzugriff
• Verschlüsselung für das
HDFS Data Transfer Protokol
• ...

Veränderte Anforderungen
Stapelverarbeitung

Interaktive Zugriffe

• Hoher Durchsatz
• Sequentielle Datenzugriffe

• Schnelle Zugriffszeiten
• Wahlfreier / Direkter Zugriffe

Data Nodes - Speichermedien
• Bestimmte Speichermedien nutzen
• Dateien Cachen

Quorum Journal Management
Before QJM

Shared Edits

• Shared Storage
• Grenzen: Spezielle Hardware, Komplexe Konfiguration…
JournalNode

QJM

JournalNode

JournalNode

Read

Write

• Quorum schickt das Log an spez. Dienste (JournalNodes)
• Paxos-ähnliches Protokol
NameNode

NameNode

JournalNodes

Active

• Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden
• Empfohlene Anzahl: 3 oder 5
DataNode

Block
Reports to
Active &
Standby

DataNode

...
..

Standby

DataNode

Apache Tez
Ein neues Kapitel der Datenverarbeitung in Hadoop

Hive/Pig Queries
Classic (MapReduce)
Job 1

Apache Tez

Mapper

Mapper

Reducer

Job 2

Mapper

Mapper

Job

Mapper

Mapper

Reducer

Reducer

Reducer
Job 3

Mapper

Mapper

Reducer

Mapper

Join

Hive – Was ist Neu?
• HiveQL angleichen an andere SQL-Sprachen
• Skalierverhalten
• Geschwindigkeit (100mal schneller als V1.x)

Ambari – Was ist Neu?
• YARN Unterstützung
(Konfiguration & Überwachung)
• NameNode HA Unterstützung
• JDK 7
• Vereinfachte Installation
• SCCM als Client
•…

HBase – Was ist Neu?
• Läuft jetzt aus Windows
• Verringerte MeantimeToRecover <1 Min
• Snapshots
• Metrics Framework
• Intergration Testing Infrastruktur
•…

Ressourcen
• HDInsight Video-Podcast
RSS: http://feeds.feedburner.com/HDInsightPodcast
YouTube: http://www.youtube.com/user/HDInsightPodcast
• Windows Azure HDInsight
http://www.windowsazure.com/en-us/services/hdinsight/
• HDP for Windows
http://hortonworks.com/products/hdp-windows/
• Meine HDInsight Blog Posts
http://www.sascha-dittmann.de/?tag=/HDInsight

Vielen
Dank!
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de

Recommandé

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH

Hadoop Einführung @codecentricimalik8088

Hadoop in modernen BI-Infrastruktureninovex GmbH

Big Data mit Apache HadoopAlexander Alten-Lorenz

Amazon RedshiftAWS Germany

BI mit Apache Hadoop (CDH)Alexander Alten-Lorenz

Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)inovex GmbH

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB

Recommandé

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH

Hadoop Einführung @codecentricimalik8088

Hadoop in modernen BI-Infrastruktureninovex GmbH

Big Data mit Apache HadoopAlexander Alten-Lorenz

Amazon RedshiftAWS Germany

BI mit Apache Hadoop (CDH)Alexander Alten-Lorenz

Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)inovex GmbH

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB

Streaming Plattformen und die Qual der WahlMatthias Niehoff

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB

Eval Apache Storm vs. Spark Streaming - GermanErik Schmiegelow

Das Back to Basics – Webinar 1: Einführung in NoSQLMongoDB

Prasentation Hadoop HDFS + YARNJrgenFennen

Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopValentin Zacharias

Apache Cassandra - EinführungAndreas Finke

4×4: Big Data in der CloudDanny Linden

Infrastructure as Code mit TerraformHarald Schmaldienst

MongoDB für Java Programmierer (JUGKA, 11.12.13)Uwe Printz

Ceph Object StoreDaniel Schneller

Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...inovex GmbH

Oracle Technology Monthly Oktober 2017oraclebudb

20181210_ITTage2018_OracleNoSQLDB_KPatengeKarin Patenge

Oracle hadoop doag-big-data_09_2014_gpiGunther Pippèrr

Leveraging the Power of Solr with SparkQAware GmbH

Storage Spaces Direct - Introduction[MVP] Florian Klaffenbach

20160310_ModernApplicationDevelopment_NoSQL_KPatengeKarin Patenge

Azure Data Factory – Data Management für die Cloudinovex GmbH

OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...AWS Germany

Service Orchestrierung mit Apache MesosRalf Ernst

SCAPE Skalierbare LangzeitarchivierungSven Schlarb

Contenu connexe

Tendances

Streaming Plattformen und die Qual der WahlMatthias Niehoff

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB

Eval Apache Storm vs. Spark Streaming - GermanErik Schmiegelow

Das Back to Basics – Webinar 1: Einführung in NoSQLMongoDB

Prasentation Hadoop HDFS + YARNJrgenFennen

Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopValentin Zacharias

Apache Cassandra - EinführungAndreas Finke

4×4: Big Data in der CloudDanny Linden

Infrastructure as Code mit TerraformHarald Schmaldienst

MongoDB für Java Programmierer (JUGKA, 11.12.13)Uwe Printz

Ceph Object StoreDaniel Schneller

Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...inovex GmbH

Oracle Technology Monthly Oktober 2017oraclebudb

20181210_ITTage2018_OracleNoSQLDB_KPatengeKarin Patenge

Oracle hadoop doag-big-data_09_2014_gpiGunther Pippèrr

Leveraging the Power of Solr with SparkQAware GmbH

Storage Spaces Direct - Introduction[MVP] Florian Klaffenbach

20160310_ModernApplicationDevelopment_NoSQL_KPatengeKarin Patenge

Azure Data Factory – Data Management für die Cloudinovex GmbH

OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...AWS Germany

Tendances (20)

Streaming Plattformen und die Qual der Wahl

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1

Eval Apache Storm vs. Spark Streaming - German

Das Back to Basics – Webinar 1: Einführung in NoSQL

Prasentation Hadoop HDFS + YARN

Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop

Apache Cassandra - Einführung

4×4: Big Data in der Cloud

Infrastructure as Code mit Terraform

MongoDB für Java Programmierer (JUGKA, 11.12.13)

Ceph Object Store

Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...

Oracle Technology Monthly Oktober 2017

20181210_ITTage2018_OracleNoSQLDB_KPatenge

Oracle hadoop doag-big-data_09_2014_gpi

Leveraging the Power of Solr with Spark

Storage Spaces Direct - Introduction

20160310_ModernApplicationDevelopment_NoSQL_KPatenge

Azure Data Factory – Data Management für die Cloud

OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...

Similaire à Hadoop 2.0 - The Next Level

Service Orchestrierung mit Apache MesosRalf Ernst

SCAPE Skalierbare LangzeitarchivierungSven Schlarb

SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE Project

Vorlesung - Cloud Infrastrukturen - Clusterbau | anyninesanynines GmbH

Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH

Schweine latein-vortragRamon Wartala

Drupal 7 auf Amazon Web ServicesSven Paulus

Query Result CachingCenarion Information Systems GmbH

Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH

Private Cloud mit Open SourceDaniel Schneller

Einführung in Elasticsearch - August 2014inovex GmbH

SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany

SQL on Hadoop für praktikables BI auf Big Datainovex GmbH

Dr. Thomas Petrik (Sphinx IT Consulting)Agenda Europe 2035

Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...OPITZ CONSULTING Deutschland

InfraCoders IHarald Schmaldienst

GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVA

DB2 High Availability für IBM Connections, Sametime oder TravelerNico Meisenzahl

Einfuehrung in Apache SparkJens Albrecht

Oracle no sql-doag-datenbank_konferenz_juni_2014Gunther Pippèrr

Similaire à Hadoop 2.0 - The Next Level (20)

Service Orchestrierung mit Apache Mesos

SCAPE Skalierbare Langzeitarchivierung

SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...

Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines

Fusion der Welten: Hadoop als DWH-Backend bei ProSieben

Schweine latein-vortrag

Drupal 7 auf Amazon Web Services

Query Result Caching

Webinar Big Data - Enterprise Readiness mit Hadoop

Private Cloud mit Open Source

Einführung in Elasticsearch - August 2014

SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud

SQL on Hadoop für praktikables BI auf Big Data

Dr. Thomas Petrik (Sphinx IT Consulting)

Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...

InfraCoders I

GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand

DB2 High Availability für IBM Connections, Sametime oder Traveler

Einfuehrung in Apache Spark

Oracle no sql-doag-datenbank_konferenz_juni_2014

Plus de Sascha Dittmann

C# + SQL = Big DataSascha Dittmann

Hochskalierbare, relationale Datenbanken in Microsoft AzureSascha Dittmann

Microsoft R - Data Science at ScaleSascha Dittmann

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSascha Dittmann

dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann

SQL Saturday #313 Rheinland - MapReduce in der PraxisSascha Dittmann

Microsoft HDInsight Podcast #001 - Was ist HDInsightSascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann

dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann

dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann

Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann

CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann

Big Data & NoSQLSascha Dittmann

NoSQL mit RavenDB und AzureSascha Dittmann

Windows Azure für Entwickler V1Sascha Dittmann

Plus de Sascha Dittmann (18)

C# + SQL = Big Data

Hochskalierbare, relationale Datenbanken in Microsoft Azure

Microsoft R - Data Science at Scale

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON

dotnet Cologne 2015 - Azure Service Fabric

SQL Saturday #313 Rheinland - MapReduce in der Praxis

Microsoft HDInsight Podcast #001 - Was ist HDInsight

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

Developer Open Space 2012 - Cloud Computing Workshop

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

CloudOps Summit 2012 - 3 Wege in die Cloud

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

Big Data & NoSQL

NoSQL mit RavenDB und Azure

Windows Azure für Entwickler V1

Hadoop 2.0 - The Next Level

1. Hadoop 2.0 The Next Level Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de

2. Hadoop 2.0 - Was ist Neu? • Apache Hadoop YARN + HDFS 2.0 • Apache Tez • Apache Hive v0.12 und die Stinger Initiative • Apache Ambari v1.4.1 • Apache HBase v0.96

3. Apache Hadoop YARN Das neue Hadoop Daten-Betriebssystem

4. Yet Another Resource Negotiator (YARN)

5. Architektur von Hadoop 1.x JobTracker • Globale Ablaufplanung • Globale Ressourcenverwaltung TaskTracker • Lokale Aufgabenverwaltung

6. Grenzen von Hadoop 1.x Skalierbarkeit • Max. Clustergröße ~5.000 Knoten • Max. Parallele Aufgaben ~40.000 • Grobe Aufgabenverteilung Integriertes MapReduce Framework • Nicht-Optimale Ressourcennutzung • Fehlende Unterstützung für Alternative Verarbeitung

7. Architektur von Hadoop 2.x ResourceManager • Globale Job-Ablaufplanung • Globale, Erweiterbare Ressourcenverwaltung NodeManager • Lokale Ressourcenverwaltung

8. Architektur von Hadoop 2.x ApplicationMaster • Framework-Spezifische Instanz • Fordert Ressourcen beim ResourceManager an • Verantwortlich für die Ausfallsicherheit Container • Verwenden gemeinsam genutzte Ressourcen

9. Daten-Betriebssystem für Hadoop 2.0 Flexibel Effizient Verteilt Neue Verarbeitungsmodel Verdoppelt Verarbeitung Stabile, verlässliche, verteilte Basis Native Datenverarbeitung IN Hadoop BATCH MapReduce INTERAKTIV Tez ONLINE HBase STREAMING Storm, S4, … GRAPH Giraph MICROSOFT REEF SAS LASR, HPA YARN: Cluster Ressourcenverwaltung HDFS2: Redundanter, Verlässlicher Speicher ANDERE

10. HDFS 2.0 Next Generation Architecture

11. HDFS 2.0 – Was ist Neu? • NameNode Hochverfügbarkeit • HDFS Federation • HDFS Snapshots Point-In-Time Wiederherstellung • NFSv3 Lese-/Schreibzugriff • Verschlüsselung für das HDFS Data Transfer Protokol • ...

12. Veränderte Anforderungen Stapelverarbeitung Interaktive Zugriffe • Hoher Durchsatz • Sequentielle Datenzugriffe • Schnelle Zugriffszeiten • Wahlfreier / Direkter Zugriffe

13. Data Nodes - Speichermedien • Bestimmte Speichermedien nutzen • Dateien Cachen

14. Quorum Journal Management Before QJM Shared Edits • Shared Storage • Grenzen: Spezielle Hardware, Komplexe Konfiguration… JournalNode QJM JournalNode JournalNode Read Write • Quorum schickt das Log an spez. Dienste (JournalNodes) • Paxos-ähnliches Protokol NameNode NameNode JournalNodes Active • Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden • Empfohlene Anzahl: 3 oder 5 DataNode Block Reports to Active & Standby DataNode ... .. Standby DataNode

15. Apache Tez Ein neues Kapitel der Datenverarbeitung in Hadoop

16. Hive/Pig Queries Classic (MapReduce) Job 1 Apache Tez Mapper Mapper Reducer Job 2 Mapper Mapper Job Mapper Mapper Reducer Reducer Reducer Job 3 Mapper Mapper Reducer Mapper Join

17. Apache Hive v0.12

18. Hive – Was ist Neu? • HiveQL angleichen an andere SQL-Sprachen • Skalierverhalten • Geschwindigkeit (100mal schneller als V1.x)

19. Demo Hive Speed Test

20. Apache Ambari v1.4.1

21. Ambari – Was ist Neu? • YARN Unterstützung (Konfiguration & Überwachung) • NameNode HA Unterstützung • JDK 7 • Vereinfachte Installation • SCCM als Client •…

22. YARN Unterstützung

23. Apache HBase v0.96

24. HBase – Was ist Neu? • Läuft jetzt aus Windows • Verringerte MeantimeToRecover <1 Min • Snapshots • Metrics Framework • Intergration Testing Infrastruktur •…

25. Ressourcen • HDInsight Video-Podcast RSS: http://feeds.feedburner.com/HDInsightPodcast YouTube: http://www.youtube.com/user/HDInsightPodcast • Windows Azure HDInsight http://www.windowsazure.com/en-us/services/hdinsight/ • HDP for Windows http://hortonworks.com/products/hdp-windows/ • Meine HDInsight Blog Posts http://www.sascha-dittmann.de/?tag=/HDInsight

26. Vielen Dank! Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de