SlideShare une entreprise Scribd logo
1  sur  34
AWS – EMR
(ELASTIC MAP/REDUCE)
Serkan ÖZAL
Big Data Hackathon
Şubat 2014
İçerik
 Amazon EMR Nedir
 Amazon EMR Ana Bileşenleri
 Amazon EMR Özellikleri
 Amazon EMR Kullanım Yöntemleri
 Instance Tipleri

 Cluster Tipleri
 Amazon EMR Node Tipleri
 Amazon EMR Mimarisi
 Amazon EMR’ın Web Arayüzü İle Kullanımı

2
Hadoop-as-a-service

Map-Reduce motoru

Diğer araçlar ile entegre

EMR Nedir?
Ölçeklenebilir

Amazon servisleri ile entegre

Kolay konfigüre edilebilir ve yönetilebilir
Amazon EMR Ana Bileşenleri
 Amazon EC2
 Esnek - Kapasite kolay bir şekilde arttırılıp azaltılabilir.

 Biçimlendirilebilir: Birçok instance tipi (CPU, Memory, Storage),

işletim sistemi ve yazılım paketi destekliyor
 Güvenilir: Her Amazon EC2 Region’da 99.95%
kullanılabilirlik
 Düşük Maliyet: Reserved Instance ve Spot Instance

oranında

 Amazon S3
 1 byte’dan 5 terabyte’ kadar veri tutan object yazılıp okunabilir.
 Object’ler bucket’lar içinde tutulur.
 Tutulan veriler için 99.999999999% dayanıklılık ve 99.99% devamlılık

için tasarlanmıştır.
 Veriler şifrelenerek tutulabilir ve veri upload/download işlemleri de
güvenli bağlantı üstünden yapılabilir.
4
Amazon EMR Özellikleri
 Web arayüzü, komut satırı veya API ile kullanım






5

kolaylığı sunar.
Kolay bir şekilde Hadoop cluster’ı kurma,
yönetme, ve konfigüre etme sunar.
Distributed file system olarak kendi servisleri olan
AWS S3’ü sunar. Fakat istenirse Hadoop
HDFS’de kullanılabilir.
Çalışan cluster ve joblar monitor edilebilip
istenirse kapasiteleri değiştirilebilir.
Cluster istenilen zamanda veya joblar bittiğinde
kapatılabilir ve böylece sadece kullanıldığı kadar
ücret ödenir.
Amazon EMR Kullanım
Yöntemleri
 Web Arayüzü
 «console.aws.amazon.com»

 Rest API
 HTTP requestleri ile kullanılır.

 Command Line Tools
 Komut satırından girilen komutlar ile kullanılır.

 Programlama API
 Java
 .NET
 Ruby

 PHP
 Javascript (NodeJS için)
6
Reserved Instance
 1 ile 3 yıllık süreler boyunca belirtilen sayıda

Amazon EC2 instance’ı size ayırılır ve bu süre
boyunca siz istemediğiniz sürece sizden
alınamaz.
 Kullansanız da kullanmasanız da parasını
ödersiniz fakat normal durumda sürekli olan
kullanımla kıyaslandığında farklı optimizasyon
seviyelerine göre %65’e kadar ucuza gelebilir.
 Sürekli çalışacak instance’ların maliyet açısından
«reserved instance» olarak seçilmesi çok daha
uygundur.
7
On Demand Instance
 Belirtilen sayıda instance sizin için açılır ve siz

istemediğiniz sürece sizden alınamaz.
 Kullanıldığınız kadar ödersiniz. Kullanım süresi
saat bazlıdır. Yani 5 dk kullanım ile 55 dk
kullanımın size olan maliyeti aynıdır.
 Kısa süreli çalışacak ve kesilmesi uygun olmayan
işlerin yapılması için maliyet açısından «ondemand instance» seçilmesi daha uygundur.

8
Spot Instance
 «Spot» instance’lar «On-Demand» ve «Reserved»

9

instance’lara ek olarak sunulur ve müşterilere
hesaplama kapasitesi için ek bir opsiyon sağlar.
 «Spot» Instance kullanabilmek için müşteriler o anda
kulanılmamakta olan EC2 instance’ları için fiyat teklifi
yaparlar. Teklif edilen fiyat o anda o instance için
belirlenmiş Spot fiyatını aştığı sürece, teklif verilen
instance tipi kullanılabilir. Spot fiyatı periyodik olarak
arz ve talebe göre değişir.
 Bu tip instance’lar daha çok Anaytics, Big Data,
Financial modeling and analysis, Image and Media
encoding,
Scientific
Computing
alanlarda
kullanılmaktadır.
Cluster Tipleri
 Transient Cluster
 Cluster

job süresince var olur ve job bitince

kapatılır.
 Alive Cluster
 Sürekli açık halde bir cluster vardır ve job’lar bu

cluster’a gönderilir. Job’lar bittikten sonra cluster
sonra gelecek joblar için ayaktadır.
 Elastic Cluster

başlangıçta belirli bir node sayısı ile
başlatılır. Daha sonra manuel olarak yada otomatik
olarak (sistemdeki CPU, Memory, Network gibi yük
miktarını göz önüne alarak) cluster’daki node sayısı
dinamik olarak arttırılıp azaltılabilir.

 Cluster

10
Amazon EMR Node Tipleri
 Cluster içinde 3 çeşit node (instance) tipi

vardır:
 Master Node

 Core Node’lar
 Task Node’lar

11
Amazon EMR Mimarisi

12
Master Node
Amazon EMR cluster

Cluster’daki diğer
instanceları yönetir
ve kontrol eder.
Onlara iş atar ve
sonuçlarını
alır.
«Job Tracker» bu
node’da çalışır.

Master instance group
Master
Node

Core instance group
Core Nodes
Amazon EMR cluster

Core
instance’lar
hem «Data Node»
hem «TaskTracker
Node»
olarak
çalışırlar. Yani hem
veri deplolar, sunar
hem de ana işin alt
kısımlarını
yapan
task’ları çalıştırırlar.

Master instance group
Master
Node

HDFS

HDFS

Core instance group
Task Nodes
Amazon EMR cluster

Sistemdeki
yük
miktarına
göre
sonradan eklenip
çıkarılabilir. «Data
Node» olarak görev
yapmazlar ve veri
tutmazlar. Sadece
«TaskTracker
Node» olarak görev
yapalar ve ana işin
alt kısımları olan
task’ları çalıştırırlar.

Master instance group
Master
Node

HDFS

HDFS

Core instance group
S3
Amazon EMR cluster

Distributed
file
system
olarak
işlenilecek veriyi ve
oluşan
sonuç
verisini tutar.

Master instance group
Master
Node

HDFS

HDFS

Core instance group

Amazon S3
İşleyiş
Amazon EMR cluster

«Master
Node»
slave olarak çalışan
«Core Node» ve
«Task Node» ları
yönetir, onlara alt
işleri atar ve onları
izler. Tüm slave
node’larn
hepsi
işlerini
bitirdiği
zaman
kendisini
çağıran
sisteme
görevin
bittiğini
haber eder.

Master instance group
Master
Node

HDFS

HDFS

Core instance group

Amazon S3
Amazon EMR’ın Web Arayüzü İle
Kullanımı
 «console.aws.amazon.com/elasticmapreduce»

18
AWS Console

19
Amazon EMR Console

20
Cluster Configuration

21
Software Configuration

22
Hardware Configuration

23
Security And Access

24
Job Tipi Seçimi

25
Hadoop Jar’ının Tanımlanması

26
Cluster’ı Oluşturma

27
Job Başlıyor

28
Job Sonuçları

29
Job Sonucunun İndirilmesi - 1

30
Job Sonucunun İndirilmesi - 2

31
Cluster’ın Kapatılması

32
Job Sonuçları

33
Teşekkürler

34

Contenu connexe

Similaire à AWS EMR - Amazon Elastic Map Reduce

Kurumsal Yazılım Geliştirme ve Visual Studio 2008
Kurumsal Yazılım Geliştirme ve Visual Studio 2008Kurumsal Yazılım Geliştirme ve Visual Studio 2008
Kurumsal Yazılım Geliştirme ve Visual Studio 2008mtcakmak
 
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleri
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleriLog yönetimi ve siem projelerindeki en önemli kriter EPS değerleri
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleriErtugrul Akbas
 
Log yonetimi tecrubeleri
Log yonetimi tecrubeleriLog yonetimi tecrubeleri
Log yonetimi tecrubeleriErtugrul Akbas
 
Android mimari-cekirdek-binding-scheduler
Android mimari-cekirdek-binding-schedulerAndroid mimari-cekirdek-binding-scheduler
Android mimari-cekirdek-binding-schedulerErcan Pinar
 
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesCihan Özhan
 
Solarwinds SAM ve Patch Manager
Solarwinds SAM ve Patch ManagerSolarwinds SAM ve Patch Manager
Solarwinds SAM ve Patch ManagerKavi International
 
C# 5 Yeni özellikler
C# 5 Yeni özelliklerC# 5 Yeni özellikler
C# 5 Yeni özelliklerErkan BALABAN
 
İşletim Sistemi Bellek Yönetimi
İşletim Sistemi Bellek Yönetimiİşletim Sistemi Bellek Yönetimi
İşletim Sistemi Bellek YönetimiŞahabettin Akca
 
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiSystem Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiMustafa
 
Virtualization - Sanallaştırma
Virtualization - SanallaştırmaVirtualization - Sanallaştırma
Virtualization - SanallaştırmaMustafa Tanyer
 
KERNEL VE WİNDOWS KURULUMU
KERNEL VE WİNDOWS KURULUMUKERNEL VE WİNDOWS KURULUMU
KERNEL VE WİNDOWS KURULUMUKadir Ertan Çam
 
KORELASYON GÖSTERMELİK DEĞİLDİR
KORELASYON GÖSTERMELİK DEĞİLDİRKORELASYON GÖSTERMELİK DEĞİLDİR
KORELASYON GÖSTERMELİK DEĞİLDİRErtugrul Akbas
 
İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19Cihan Özhan
 
BTT Modul 11 Isletim Sistemlerinin Temelleri
BTT Modul 11 Isletim Sistemlerinin TemelleriBTT Modul 11 Isletim Sistemlerinin Temelleri
BTT Modul 11 Isletim Sistemlerinin Temellerideniz armutlu
 
Infraskope Security Event Manager
Infraskope  Security  Event  ManagerInfraskope  Security  Event  Manager
Infraskope Security Event Managerlogyonetimi
 

Similaire à AWS EMR - Amazon Elastic Map Reduce (20)

Kurumsal Yazılım Geliştirme ve Visual Studio 2008
Kurumsal Yazılım Geliştirme ve Visual Studio 2008Kurumsal Yazılım Geliştirme ve Visual Studio 2008
Kurumsal Yazılım Geliştirme ve Visual Studio 2008
 
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleri
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleriLog yönetimi ve siem projelerindeki en önemli kriter EPS değerleri
Log yönetimi ve siem projelerindeki en önemli kriter EPS değerleri
 
Log yonetimi tecrubeleri
Log yonetimi tecrubeleriLog yonetimi tecrubeleri
Log yonetimi tecrubeleri
 
Android mimari-cekirdek-binding-scheduler
Android mimari-cekirdek-binding-schedulerAndroid mimari-cekirdek-binding-scheduler
Android mimari-cekirdek-binding-scheduler
 
Openstack Magnum CaaS
Openstack Magnum CaaSOpenstack Magnum CaaS
Openstack Magnum CaaS
 
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as MicroservicesMLaaS - Presenting & Scaling Machine Learning Models as Microservices
MLaaS - Presenting & Scaling Machine Learning Models as Microservices
 
Solarwinds SAM ve Patch Manager
Solarwinds SAM ve Patch ManagerSolarwinds SAM ve Patch Manager
Solarwinds SAM ve Patch Manager
 
C# 5 Yeni özellikler
C# 5 Yeni özelliklerC# 5 Yeni özellikler
C# 5 Yeni özellikler
 
İşletim Sistemi Bellek Yönetimi
İşletim Sistemi Bellek Yönetimiİşletim Sistemi Bellek Yönetimi
İşletim Sistemi Bellek Yönetimi
 
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca YönetimiSystem Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
System Center 2012 Ürün Ailesi Yenilikleri ve Uçtan Uca Yönetimi
 
Virtualization - Sanallaştırma
Virtualization - SanallaştırmaVirtualization - Sanallaştırma
Virtualization - Sanallaştırma
 
KERNEL VE WİNDOWS KURULUMU
KERNEL VE WİNDOWS KURULUMUKERNEL VE WİNDOWS KURULUMU
KERNEL VE WİNDOWS KURULUMU
 
Amazon web service
Amazon web serviceAmazon web service
Amazon web service
 
KORELASYON GÖSTERMELİK DEĞİLDİR
KORELASYON GÖSTERMELİK DEĞİLDİRKORELASYON GÖSTERMELİK DEĞİLDİR
KORELASYON GÖSTERMELİK DEĞİLDİR
 
İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19İleri Seviye T-SQL Programlama - Chapter 19
İleri Seviye T-SQL Programlama - Chapter 19
 
(GFS) Google Dosya Sistemi
(GFS) Google Dosya Sistemi (GFS) Google Dosya Sistemi
(GFS) Google Dosya Sistemi
 
SCOM 2007 R2 ile SBS 2011 Monitoring
SCOM 2007 R2 ile SBS 2011 MonitoringSCOM 2007 R2 ile SBS 2011 Monitoring
SCOM 2007 R2 ile SBS 2011 Monitoring
 
BTT Modul 11 Isletim Sistemlerinin Temelleri
BTT Modul 11 Isletim Sistemlerinin TemelleriBTT Modul 11 Isletim Sistemlerinin Temelleri
BTT Modul 11 Isletim Sistemlerinin Temelleri
 
Infraskope Security Event Manager
Infraskope  Security  Event  ManagerInfraskope  Security  Event  Manager
Infraskope Security Event Manager
 
Celery
CeleryCelery
Celery
 

Plus de Serkan Özal

Flying Server-less on the Cloud with AWS Lambda
Flying Server-less on the Cloud with AWS LambdaFlying Server-less on the Cloud with AWS Lambda
Flying Server-less on the Cloud with AWS LambdaSerkan Özal
 
Improving performance of decision support queries in columnar cloud database ...
Improving performance of decision support queries in columnar cloud database ...Improving performance of decision support queries in columnar cloud database ...
Improving performance of decision support queries in columnar cloud database ...Serkan Özal
 
JVM Under the Hood
JVM Under the HoodJVM Under the Hood
JVM Under the HoodSerkan Özal
 

Plus de Serkan Özal (6)

Flying Server-less on the Cloud with AWS Lambda
Flying Server-less on the Cloud with AWS LambdaFlying Server-less on the Cloud with AWS Lambda
Flying Server-less on the Cloud with AWS Lambda
 
MySafe
MySafeMySafe
MySafe
 
Improving performance of decision support queries in columnar cloud database ...
Improving performance of decision support queries in columnar cloud database ...Improving performance of decision support queries in columnar cloud database ...
Improving performance of decision support queries in columnar cloud database ...
 
JVM Under the Hood
JVM Under the HoodJVM Under the Hood
JVM Under the Hood
 
Big data on aws
Big data on awsBig data on aws
Big data on aws
 
Big data concepts
Big data conceptsBig data concepts
Big data concepts
 

AWS EMR - Amazon Elastic Map Reduce

  • 1. AWS – EMR (ELASTIC MAP/REDUCE) Serkan ÖZAL Big Data Hackathon Şubat 2014
  • 2. İçerik  Amazon EMR Nedir  Amazon EMR Ana Bileşenleri  Amazon EMR Özellikleri  Amazon EMR Kullanım Yöntemleri  Instance Tipleri  Cluster Tipleri  Amazon EMR Node Tipleri  Amazon EMR Mimarisi  Amazon EMR’ın Web Arayüzü İle Kullanımı 2
  • 3. Hadoop-as-a-service Map-Reduce motoru Diğer araçlar ile entegre EMR Nedir? Ölçeklenebilir Amazon servisleri ile entegre Kolay konfigüre edilebilir ve yönetilebilir
  • 4. Amazon EMR Ana Bileşenleri  Amazon EC2  Esnek - Kapasite kolay bir şekilde arttırılıp azaltılabilir.  Biçimlendirilebilir: Birçok instance tipi (CPU, Memory, Storage), işletim sistemi ve yazılım paketi destekliyor  Güvenilir: Her Amazon EC2 Region’da 99.95% kullanılabilirlik  Düşük Maliyet: Reserved Instance ve Spot Instance oranında  Amazon S3  1 byte’dan 5 terabyte’ kadar veri tutan object yazılıp okunabilir.  Object’ler bucket’lar içinde tutulur.  Tutulan veriler için 99.999999999% dayanıklılık ve 99.99% devamlılık için tasarlanmıştır.  Veriler şifrelenerek tutulabilir ve veri upload/download işlemleri de güvenli bağlantı üstünden yapılabilir. 4
  • 5. Amazon EMR Özellikleri  Web arayüzü, komut satırı veya API ile kullanım     5 kolaylığı sunar. Kolay bir şekilde Hadoop cluster’ı kurma, yönetme, ve konfigüre etme sunar. Distributed file system olarak kendi servisleri olan AWS S3’ü sunar. Fakat istenirse Hadoop HDFS’de kullanılabilir. Çalışan cluster ve joblar monitor edilebilip istenirse kapasiteleri değiştirilebilir. Cluster istenilen zamanda veya joblar bittiğinde kapatılabilir ve böylece sadece kullanıldığı kadar ücret ödenir.
  • 6. Amazon EMR Kullanım Yöntemleri  Web Arayüzü  «console.aws.amazon.com»  Rest API  HTTP requestleri ile kullanılır.  Command Line Tools  Komut satırından girilen komutlar ile kullanılır.  Programlama API  Java  .NET  Ruby  PHP  Javascript (NodeJS için) 6
  • 7. Reserved Instance  1 ile 3 yıllık süreler boyunca belirtilen sayıda Amazon EC2 instance’ı size ayırılır ve bu süre boyunca siz istemediğiniz sürece sizden alınamaz.  Kullansanız da kullanmasanız da parasını ödersiniz fakat normal durumda sürekli olan kullanımla kıyaslandığında farklı optimizasyon seviyelerine göre %65’e kadar ucuza gelebilir.  Sürekli çalışacak instance’ların maliyet açısından «reserved instance» olarak seçilmesi çok daha uygundur. 7
  • 8. On Demand Instance  Belirtilen sayıda instance sizin için açılır ve siz istemediğiniz sürece sizden alınamaz.  Kullanıldığınız kadar ödersiniz. Kullanım süresi saat bazlıdır. Yani 5 dk kullanım ile 55 dk kullanımın size olan maliyeti aynıdır.  Kısa süreli çalışacak ve kesilmesi uygun olmayan işlerin yapılması için maliyet açısından «ondemand instance» seçilmesi daha uygundur. 8
  • 9. Spot Instance  «Spot» instance’lar «On-Demand» ve «Reserved» 9 instance’lara ek olarak sunulur ve müşterilere hesaplama kapasitesi için ek bir opsiyon sağlar.  «Spot» Instance kullanabilmek için müşteriler o anda kulanılmamakta olan EC2 instance’ları için fiyat teklifi yaparlar. Teklif edilen fiyat o anda o instance için belirlenmiş Spot fiyatını aştığı sürece, teklif verilen instance tipi kullanılabilir. Spot fiyatı periyodik olarak arz ve talebe göre değişir.  Bu tip instance’lar daha çok Anaytics, Big Data, Financial modeling and analysis, Image and Media encoding, Scientific Computing alanlarda kullanılmaktadır.
  • 10. Cluster Tipleri  Transient Cluster  Cluster job süresince var olur ve job bitince kapatılır.  Alive Cluster  Sürekli açık halde bir cluster vardır ve job’lar bu cluster’a gönderilir. Job’lar bittikten sonra cluster sonra gelecek joblar için ayaktadır.  Elastic Cluster başlangıçta belirli bir node sayısı ile başlatılır. Daha sonra manuel olarak yada otomatik olarak (sistemdeki CPU, Memory, Network gibi yük miktarını göz önüne alarak) cluster’daki node sayısı dinamik olarak arttırılıp azaltılabilir.  Cluster 10
  • 11. Amazon EMR Node Tipleri  Cluster içinde 3 çeşit node (instance) tipi vardır:  Master Node  Core Node’lar  Task Node’lar 11
  • 13. Master Node Amazon EMR cluster Cluster’daki diğer instanceları yönetir ve kontrol eder. Onlara iş atar ve sonuçlarını alır. «Job Tracker» bu node’da çalışır. Master instance group Master Node Core instance group
  • 14. Core Nodes Amazon EMR cluster Core instance’lar hem «Data Node» hem «TaskTracker Node» olarak çalışırlar. Yani hem veri deplolar, sunar hem de ana işin alt kısımlarını yapan task’ları çalıştırırlar. Master instance group Master Node HDFS HDFS Core instance group
  • 15. Task Nodes Amazon EMR cluster Sistemdeki yük miktarına göre sonradan eklenip çıkarılabilir. «Data Node» olarak görev yapmazlar ve veri tutmazlar. Sadece «TaskTracker Node» olarak görev yapalar ve ana işin alt kısımları olan task’ları çalıştırırlar. Master instance group Master Node HDFS HDFS Core instance group
  • 16. S3 Amazon EMR cluster Distributed file system olarak işlenilecek veriyi ve oluşan sonuç verisini tutar. Master instance group Master Node HDFS HDFS Core instance group Amazon S3
  • 17. İşleyiş Amazon EMR cluster «Master Node» slave olarak çalışan «Core Node» ve «Task Node» ları yönetir, onlara alt işleri atar ve onları izler. Tüm slave node’larn hepsi işlerini bitirdiği zaman kendisini çağıran sisteme görevin bittiğini haber eder. Master instance group Master Node HDFS HDFS Core instance group Amazon S3
  • 18. Amazon EMR’ın Web Arayüzü İle Kullanımı  «console.aws.amazon.com/elasticmapreduce» 18

Notes de l'éditeur

  1. EMR Is managed Hadoop Offering that takes burden of deploying and maintaining hadoop clusters away from developers. EMR uses Apache Hadoop mapreduce engine and integrates with variety of different tools.
  2. Manages the job flow: coordinating the distribution of the MapReduce executable and subsets of the raw data, to the core and task instance groups It also tracks the status of each task performed, and monitors the health of the instance groups. To monitor the progress of the job flow, you can SSH into the master node as the Hadoop user and either look at the Hadoop log files directly or access the user interface that Hadoop
  3. Contains all of the core nodes of a job flow. A core node is an EC2 instance that runs Hadoop map and reduce tasks and stores data using the Hadoop Distributed File System (HDFS). The EC2 instances you assign as core nodes are capacity that must be allotted for the entire job flow run. Core nodes run both the DataNodes and TaskTrackerHadoop daemons.
  4. Contains all of the task nodes in a job flow. The task instance group is optional. You can add it when you start the job flow or add a task instance group to a job flow in progress. You can increase and decrease the number of task nodes. Because they don't store data and can be added and removed from a job flow, you can use task nodes to manage the EC2 instance capacity your job flow uses
  5. We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.
  6. We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.