SlideShare une entreprise Scribd logo
1  sur  26
Hadoop 2.0
The Next Level
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de
Hadoop 2.0 - Was ist Neu?
• Apache Hadoop YARN + HDFS 2.0
• Apache Tez
• Apache Hive v0.12 und die Stinger Initiative
• Apache Ambari v1.4.1
• Apache HBase v0.96
Apache Hadoop YARN
Das neue Hadoop Daten-Betriebssystem
Yet Another Resource Negotiator (YARN)
Architektur von Hadoop 1.x
JobTracker
• Globale Ablaufplanung
• Globale Ressourcenverwaltung
TaskTracker
• Lokale Aufgabenverwaltung
Grenzen von Hadoop 1.x
Skalierbarkeit
• Max. Clustergröße ~5.000 Knoten
• Max. Parallele Aufgaben ~40.000
• Grobe Aufgabenverteilung
Integriertes MapReduce Framework
• Nicht-Optimale Ressourcennutzung
• Fehlende Unterstützung für Alternative Verarbeitung
Architektur von Hadoop 2.x
ResourceManager
• Globale Job-Ablaufplanung
• Globale, Erweiterbare
Ressourcenverwaltung
NodeManager
• Lokale Ressourcenverwaltung
Architektur von Hadoop 2.x
ApplicationMaster
• Framework-Spezifische Instanz
• Fordert Ressourcen beim
ResourceManager an
• Verantwortlich für die
Ausfallsicherheit
Container
• Verwenden gemeinsam genutzte
Ressourcen
Daten-Betriebssystem für Hadoop 2.0
Flexibel

Effizient

Verteilt

Neue Verarbeitungsmodel

Verdoppelt Verarbeitung

Stabile, verlässliche, verteilte
Basis

Native Datenverarbeitung IN Hadoop
BATCH
MapReduce

INTERAKTIV
Tez

ONLINE
HBase

STREAMING
Storm, S4, …

GRAPH
Giraph

MICROSOFT
REEF

SAS
LASR, HPA

YARN: Cluster Ressourcenverwaltung
HDFS2: Redundanter, Verlässlicher Speicher

ANDERE
HDFS 2.0
Next Generation Architecture
HDFS 2.0 – Was ist Neu?
• NameNode Hochverfügbarkeit
• HDFS Federation
• HDFS Snapshots
Point-In-Time Wiederherstellung
• NFSv3 Lese-/Schreibzugriff
• Verschlüsselung für das
HDFS Data Transfer Protokol
• ...
Veränderte Anforderungen
Stapelverarbeitung

Interaktive Zugriffe

• Hoher Durchsatz
• Sequentielle Datenzugriffe

• Schnelle Zugriffszeiten
• Wahlfreier / Direkter Zugriffe
Data Nodes - Speichermedien
• Bestimmte Speichermedien nutzen
• Dateien Cachen
Quorum Journal Management
Before QJM

Shared Edits

• Shared Storage
• Grenzen: Spezielle Hardware, Komplexe Konfiguration…
JournalNode

QJM

JournalNode

JournalNode

Read

Write

• Quorum schickt das Log an spez. Dienste (JournalNodes)
• Paxos-ähnliches Protokol
NameNode

NameNode

JournalNodes

Active

• Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden
• Empfohlene Anzahl: 3 oder 5
DataNode

Block
Reports to
Active &
Standby

DataNode

...
..

Standby

DataNode
Apache Tez
Ein neues Kapitel der Datenverarbeitung in Hadoop
Hive/Pig Queries
Classic (MapReduce)
Job 1

Apache Tez

Mapper

Mapper

Reducer

Job 2

Mapper

Mapper

Job

Mapper

Mapper

Reducer

Reducer

Reducer
Job 3

Mapper

Mapper

Reducer

Mapper

Join
Apache Hive v0.12
Hive – Was ist Neu?
• HiveQL angleichen an andere SQL-Sprachen
• Skalierverhalten
• Geschwindigkeit (100mal schneller als V1.x)
Demo

Hive Speed Test
Apache Ambari v1.4.1
Ambari – Was ist Neu?
• YARN Unterstützung
(Konfiguration & Überwachung)
• NameNode HA Unterstützung
• JDK 7
• Vereinfachte Installation
• SCCM als Client
•…
YARN Unterstützung
Apache HBase v0.96
HBase – Was ist Neu?
• Läuft jetzt aus Windows
• Verringerte MeantimeToRecover <1 Min
• Snapshots
• Metrics Framework
• Intergration Testing Infrastruktur
•…
Ressourcen
• HDInsight Video-Podcast
RSS: http://feeds.feedburner.com/HDInsightPodcast
YouTube: http://www.youtube.com/user/HDInsightPodcast
• Windows Azure HDInsight
http://www.windowsazure.com/en-us/services/hdinsight/
• HDP for Windows
http://hortonworks.com/products/hdp-windows/
• Meine HDInsight Blog Posts
http://www.sascha-dittmann.de/?tag=/HDInsight
Vielen
Dank!
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de

Contenu connexe

Tendances

Streaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der WahlStreaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der WahlMatthias Niehoff
 
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB
 
Eval Apache Storm vs. Spark Streaming - German
Eval Apache Storm vs. Spark Streaming - GermanEval Apache Storm vs. Spark Streaming - German
Eval Apache Storm vs. Spark Streaming - GermanErik Schmiegelow
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLMongoDB
 
Prasentation Hadoop HDFS + YARN
Prasentation Hadoop HDFS + YARNPrasentation Hadoop HDFS + YARN
Prasentation Hadoop HDFS + YARNJrgenFennen
 
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopRealtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopValentin Zacharias
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - EinführungAndreas Finke
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der CloudDanny Linden
 
Infrastructure as Code mit Terraform
Infrastructure as Code mit TerraformInfrastructure as Code mit Terraform
Infrastructure as Code mit TerraformHarald Schmaldienst
 
MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)Uwe Printz
 
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...inovex GmbH
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017oraclebudb
 
20181210_ITTage2018_OracleNoSQLDB_KPatenge
20181210_ITTage2018_OracleNoSQLDB_KPatenge20181210_ITTage2018_OracleNoSQLDB_KPatenge
20181210_ITTage2018_OracleNoSQLDB_KPatengeKarin Patenge
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiGunther Pippèrr
 
Leveraging the Power of Solr with Spark
Leveraging the Power of Solr with SparkLeveraging the Power of Solr with Spark
Leveraging the Power of Solr with SparkQAware GmbH
 
20160310_ModernApplicationDevelopment_NoSQL_KPatenge
20160310_ModernApplicationDevelopment_NoSQL_KPatenge20160310_ModernApplicationDevelopment_NoSQL_KPatenge
20160310_ModernApplicationDevelopment_NoSQL_KPatengeKarin Patenge
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloudinovex GmbH
 
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...AWS Germany
 

Tendances (20)

Streaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der WahlStreaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der Wahl
 
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1
 
Eval Apache Storm vs. Spark Streaming - German
Eval Apache Storm vs. Spark Streaming - GermanEval Apache Storm vs. Spark Streaming - German
Eval Apache Storm vs. Spark Streaming - German
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQL
 
Prasentation Hadoop HDFS + YARN
Prasentation Hadoop HDFS + YARNPrasentation Hadoop HDFS + YARN
Prasentation Hadoop HDFS + YARN
 
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopRealtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - Einführung
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
 
Infrastructure as Code mit Terraform
Infrastructure as Code mit TerraformInfrastructure as Code mit Terraform
Infrastructure as Code mit Terraform
 
MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)
 
Ceph Object Store
Ceph Object StoreCeph Object Store
Ceph Object Store
 
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017
 
20181210_ITTage2018_OracleNoSQLDB_KPatenge
20181210_ITTage2018_OracleNoSQLDB_KPatenge20181210_ITTage2018_OracleNoSQLDB_KPatenge
20181210_ITTage2018_OracleNoSQLDB_KPatenge
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
 
Leveraging the Power of Solr with Spark
Leveraging the Power of Solr with SparkLeveraging the Power of Solr with Spark
Leveraging the Power of Solr with Spark
 
Storage Spaces Direct - Introduction
Storage Spaces Direct - IntroductionStorage Spaces Direct - Introduction
Storage Spaces Direct - Introduction
 
20160310_ModernApplicationDevelopment_NoSQL_KPatenge
20160310_ModernApplicationDevelopment_NoSQL_KPatenge20160310_ModernApplicationDevelopment_NoSQL_KPatenge
20160310_ModernApplicationDevelopment_NoSQL_KPatenge
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
OOP 2014 SQL oder NoSQL - die Auswahl der richtigen Datenbankplattform für di...
 

Similaire à Hadoop 2.0 - The Next Level

Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosRalf Ernst
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE Project
 
Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau  | anyninesVorlesung - Cloud Infrastrukturen - Clusterbau  | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau | anyninesanynines GmbH
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortragRamon Wartala
 
Drupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesDrupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesSven Paulus
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open SourceDaniel Schneller
 
Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014inovex GmbH
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany
 
SQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big DataSQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big Datainovex GmbH
 
Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Agenda Europe 2035
 
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...OPITZ CONSULTING Deutschland
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVA
 
DB2 High Availability für IBM Connections, Sametime oder Traveler
DB2 High Availability für IBM Connections, Sametime oder TravelerDB2 High Availability für IBM Connections, Sametime oder Traveler
DB2 High Availability für IBM Connections, Sametime oder TravelerNico Meisenzahl
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache SparkJens Albrecht
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Gunther Pippèrr
 

Similaire à Hadoop 2.0 - The Next Level (20)

Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache Mesos
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 
Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau  | anyninesVorlesung - Cloud Infrastrukturen - Clusterbau  | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 
Drupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesDrupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web Services
 
Query Result Caching
Query Result CachingQuery Result Caching
Query Result Caching
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
 
Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
 
SQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big DataSQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big Data
 
Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)
 
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
 
InfraCoders I
InfraCoders IInfraCoders I
InfraCoders I
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
 
DB2 High Availability für IBM Connections, Sametime oder Traveler
DB2 High Availability für IBM Connections, Sametime oder TravelerDB2 High Availability für IBM Connections, Sametime oder Traveler
DB2 High Availability für IBM Connections, Sametime oder Traveler
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014
 

Plus de Sascha Dittmann

Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureSascha Dittmann
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at ScaleSascha Dittmann
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSascha Dittmann
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSascha Dittmann
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightSascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureSascha Dittmann
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Sascha Dittmann
 

Plus de Sascha Dittmann (18)

C# + SQL = Big Data
C# + SQL = Big DataC# + SQL = Big Data
C# + SQL = Big Data
 
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at Scale
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
 
Big Data & NoSQL
Big Data & NoSQLBig Data & NoSQL
Big Data & NoSQL
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
 

Hadoop 2.0 - The Next Level

  • 1. Hadoop 2.0 The Next Level Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de
  • 2. Hadoop 2.0 - Was ist Neu? • Apache Hadoop YARN + HDFS 2.0 • Apache Tez • Apache Hive v0.12 und die Stinger Initiative • Apache Ambari v1.4.1 • Apache HBase v0.96
  • 3. Apache Hadoop YARN Das neue Hadoop Daten-Betriebssystem
  • 4. Yet Another Resource Negotiator (YARN)
  • 5. Architektur von Hadoop 1.x JobTracker • Globale Ablaufplanung • Globale Ressourcenverwaltung TaskTracker • Lokale Aufgabenverwaltung
  • 6. Grenzen von Hadoop 1.x Skalierbarkeit • Max. Clustergröße ~5.000 Knoten • Max. Parallele Aufgaben ~40.000 • Grobe Aufgabenverteilung Integriertes MapReduce Framework • Nicht-Optimale Ressourcennutzung • Fehlende Unterstützung für Alternative Verarbeitung
  • 7. Architektur von Hadoop 2.x ResourceManager • Globale Job-Ablaufplanung • Globale, Erweiterbare Ressourcenverwaltung NodeManager • Lokale Ressourcenverwaltung
  • 8. Architektur von Hadoop 2.x ApplicationMaster • Framework-Spezifische Instanz • Fordert Ressourcen beim ResourceManager an • Verantwortlich für die Ausfallsicherheit Container • Verwenden gemeinsam genutzte Ressourcen
  • 9. Daten-Betriebssystem für Hadoop 2.0 Flexibel Effizient Verteilt Neue Verarbeitungsmodel Verdoppelt Verarbeitung Stabile, verlässliche, verteilte Basis Native Datenverarbeitung IN Hadoop BATCH MapReduce INTERAKTIV Tez ONLINE HBase STREAMING Storm, S4, … GRAPH Giraph MICROSOFT REEF SAS LASR, HPA YARN: Cluster Ressourcenverwaltung HDFS2: Redundanter, Verlässlicher Speicher ANDERE
  • 10. HDFS 2.0 Next Generation Architecture
  • 11. HDFS 2.0 – Was ist Neu? • NameNode Hochverfügbarkeit • HDFS Federation • HDFS Snapshots Point-In-Time Wiederherstellung • NFSv3 Lese-/Schreibzugriff • Verschlüsselung für das HDFS Data Transfer Protokol • ...
  • 12. Veränderte Anforderungen Stapelverarbeitung Interaktive Zugriffe • Hoher Durchsatz • Sequentielle Datenzugriffe • Schnelle Zugriffszeiten • Wahlfreier / Direkter Zugriffe
  • 13. Data Nodes - Speichermedien • Bestimmte Speichermedien nutzen • Dateien Cachen
  • 14. Quorum Journal Management Before QJM Shared Edits • Shared Storage • Grenzen: Spezielle Hardware, Komplexe Konfiguration… JournalNode QJM JournalNode JournalNode Read Write • Quorum schickt das Log an spez. Dienste (JournalNodes) • Paxos-ähnliches Protokol NameNode NameNode JournalNodes Active • Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden • Empfohlene Anzahl: 3 oder 5 DataNode Block Reports to Active & Standby DataNode ... .. Standby DataNode
  • 15. Apache Tez Ein neues Kapitel der Datenverarbeitung in Hadoop
  • 16. Hive/Pig Queries Classic (MapReduce) Job 1 Apache Tez Mapper Mapper Reducer Job 2 Mapper Mapper Job Mapper Mapper Reducer Reducer Reducer Job 3 Mapper Mapper Reducer Mapper Join
  • 18. Hive – Was ist Neu? • HiveQL angleichen an andere SQL-Sprachen • Skalierverhalten • Geschwindigkeit (100mal schneller als V1.x)
  • 21. Ambari – Was ist Neu? • YARN Unterstützung (Konfiguration & Überwachung) • NameNode HA Unterstützung • JDK 7 • Vereinfachte Installation • SCCM als Client •…
  • 24. HBase – Was ist Neu? • Läuft jetzt aus Windows • Verringerte MeantimeToRecover <1 Min • Snapshots • Metrics Framework • Intergration Testing Infrastruktur •…
  • 25. Ressourcen • HDInsight Video-Podcast RSS: http://feeds.feedburner.com/HDInsightPodcast YouTube: http://www.youtube.com/user/HDInsightPodcast • Windows Azure HDInsight http://www.windowsazure.com/en-us/services/hdinsight/ • HDP for Windows http://hortonworks.com/products/hdp-windows/ • Meine HDInsight Blog Posts http://www.sascha-dittmann.de/?tag=/HDInsight