In 2010 stellten die Entwickler von Hadoop fest, dass bei sehr große Clustern (4.000 Knoten und mehr) das bisherige MapReduce Framework nicht mehr richtig skaliert.
Deshalb wurde dieses komplett überarbeitet.
Das Ergebnis war YARN (Yet Another Resource Negotiator).
Neben einer besseren Skalierbarkeit erzeugte YARN weitere positive Nebeneffekte.
Im Oktober 2013 wurde YARN mit dem Hadoop 2.0 Release veröffentlicht.
Was es mit YARN auf sich hat - und welche zusätzlichen Änderungen in Hadoop 2.0 eingeflossen sind - zeigt diese Session.
7. Architektur von Hadoop 2.x
ResourceManager
• Globale Job-Ablaufplanung
• Globale, Erweiterbare
Ressourcenverwaltung
NodeManager
• Lokale Ressourcenverwaltung
8. Architektur von Hadoop 2.x
ApplicationMaster
• Framework-Spezifische Instanz
• Fordert Ressourcen beim
ResourceManager an
• Verantwortlich für die
Ausfallsicherheit
Container
• Verwenden gemeinsam genutzte
Ressourcen
9. Daten-Betriebssystem für Hadoop 2.0
Flexibel
Effizient
Verteilt
Neue Verarbeitungsmodel
Verdoppelt Verarbeitung
Stabile, verlässliche, verteilte
Basis
Native Datenverarbeitung IN Hadoop
BATCH
MapReduce
INTERAKTIV
Tez
ONLINE
HBase
STREAMING
Storm, S4, …
GRAPH
Giraph
MICROSOFT
REEF
SAS
LASR, HPA
YARN: Cluster Ressourcenverwaltung
HDFS2: Redundanter, Verlässlicher Speicher
ANDERE
14. Quorum Journal Management
Before QJM
Shared Edits
• Shared Storage
• Grenzen: Spezielle Hardware, Komplexe Konfiguration…
JournalNode
QJM
JournalNode
JournalNode
Read
Write
• Quorum schickt das Log an spez. Dienste (JournalNodes)
• Paxos-ähnliches Protokol
NameNode
NameNode
JournalNodes
Active
• Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden
• Empfohlene Anzahl: 3 oder 5
DataNode
Block
Reports to
Active &
Standby
DataNode
...
..
Standby
DataNode