4. Amazon EMR Ana Bileşenleri
Amazon EC2
Esnek - Kapasite kolay bir şekilde arttırılıp azaltılabilir.
Biçimlendirilebilir: Birçok instance tipi (CPU, Memory, Storage),
işletim sistemi ve yazılım paketi destekliyor
Güvenilir: Her Amazon EC2 Region’da 99.95%
kullanılabilirlik
Düşük Maliyet: Reserved Instance ve Spot Instance
oranında
Amazon S3
1 byte’dan 5 terabyte’ kadar veri tutan object yazılıp okunabilir.
Object’ler bucket’lar içinde tutulur.
Tutulan veriler için 99.999999999% dayanıklılık ve 99.99% devamlılık
için tasarlanmıştır.
Veriler şifrelenerek tutulabilir ve veri upload/download işlemleri de
güvenli bağlantı üstünden yapılabilir.
4
5. Amazon EMR Özellikleri
Web arayüzü, komut satırı veya API ile kullanım
5
kolaylığı sunar.
Kolay bir şekilde Hadoop cluster’ı kurma,
yönetme, ve konfigüre etme sunar.
Distributed file system olarak kendi servisleri olan
AWS S3’ü sunar. Fakat istenirse Hadoop
HDFS’de kullanılabilir.
Çalışan cluster ve joblar monitor edilebilip
istenirse kapasiteleri değiştirilebilir.
Cluster istenilen zamanda veya joblar bittiğinde
kapatılabilir ve böylece sadece kullanıldığı kadar
ücret ödenir.
6. Amazon EMR Kullanım
Yöntemleri
Web Arayüzü
«console.aws.amazon.com»
Rest API
HTTP requestleri ile kullanılır.
Command Line Tools
Komut satırından girilen komutlar ile kullanılır.
Programlama API
Java
.NET
Ruby
PHP
Javascript (NodeJS için)
6
7. Reserved Instance
1 ile 3 yıllık süreler boyunca belirtilen sayıda
Amazon EC2 instance’ı size ayırılır ve bu süre
boyunca siz istemediğiniz sürece sizden
alınamaz.
Kullansanız da kullanmasanız da parasını
ödersiniz fakat normal durumda sürekli olan
kullanımla kıyaslandığında farklı optimizasyon
seviyelerine göre %65’e kadar ucuza gelebilir.
Sürekli çalışacak instance’ların maliyet açısından
«reserved instance» olarak seçilmesi çok daha
uygundur.
7
8. On Demand Instance
Belirtilen sayıda instance sizin için açılır ve siz
istemediğiniz sürece sizden alınamaz.
Kullanıldığınız kadar ödersiniz. Kullanım süresi
saat bazlıdır. Yani 5 dk kullanım ile 55 dk
kullanımın size olan maliyeti aynıdır.
Kısa süreli çalışacak ve kesilmesi uygun olmayan
işlerin yapılması için maliyet açısından «ondemand instance» seçilmesi daha uygundur.
8
9. Spot Instance
«Spot» instance’lar «On-Demand» ve «Reserved»
9
instance’lara ek olarak sunulur ve müşterilere
hesaplama kapasitesi için ek bir opsiyon sağlar.
«Spot» Instance kullanabilmek için müşteriler o anda
kulanılmamakta olan EC2 instance’ları için fiyat teklifi
yaparlar. Teklif edilen fiyat o anda o instance için
belirlenmiş Spot fiyatını aştığı sürece, teklif verilen
instance tipi kullanılabilir. Spot fiyatı periyodik olarak
arz ve talebe göre değişir.
Bu tip instance’lar daha çok Anaytics, Big Data,
Financial modeling and analysis, Image and Media
encoding,
Scientific
Computing
alanlarda
kullanılmaktadır.
10. Cluster Tipleri
Transient Cluster
Cluster
job süresince var olur ve job bitince
kapatılır.
Alive Cluster
Sürekli açık halde bir cluster vardır ve job’lar bu
cluster’a gönderilir. Job’lar bittikten sonra cluster
sonra gelecek joblar için ayaktadır.
Elastic Cluster
başlangıçta belirli bir node sayısı ile
başlatılır. Daha sonra manuel olarak yada otomatik
olarak (sistemdeki CPU, Memory, Network gibi yük
miktarını göz önüne alarak) cluster’daki node sayısı
dinamik olarak arttırılıp azaltılabilir.
Cluster
10
11. Amazon EMR Node Tipleri
Cluster içinde 3 çeşit node (instance) tipi
vardır:
Master Node
Core Node’lar
Task Node’lar
11
13. Master Node
Amazon EMR cluster
Cluster’daki diğer
instanceları yönetir
ve kontrol eder.
Onlara iş atar ve
sonuçlarını
alır.
«Job Tracker» bu
node’da çalışır.
Master instance group
Master
Node
Core instance group
14. Core Nodes
Amazon EMR cluster
Core
instance’lar
hem «Data Node»
hem «TaskTracker
Node»
olarak
çalışırlar. Yani hem
veri deplolar, sunar
hem de ana işin alt
kısımlarını
yapan
task’ları çalıştırırlar.
Master instance group
Master
Node
HDFS
HDFS
Core instance group
15. Task Nodes
Amazon EMR cluster
Sistemdeki
yük
miktarına
göre
sonradan eklenip
çıkarılabilir. «Data
Node» olarak görev
yapmazlar ve veri
tutmazlar. Sadece
«TaskTracker
Node» olarak görev
yapalar ve ana işin
alt kısımları olan
task’ları çalıştırırlar.
Master instance group
Master
Node
HDFS
HDFS
Core instance group
17. İşleyiş
Amazon EMR cluster
«Master
Node»
slave olarak çalışan
«Core Node» ve
«Task Node» ları
yönetir, onlara alt
işleri atar ve onları
izler. Tüm slave
node’larn
hepsi
işlerini
bitirdiği
zaman
kendisini
çağıran
sisteme
görevin
bittiğini
haber eder.
Master instance group
Master
Node
HDFS
HDFS
Core instance group
Amazon S3
18. Amazon EMR’ın Web Arayüzü İle
Kullanımı
«console.aws.amazon.com/elasticmapreduce»
18
EMR Is managed Hadoop Offering that takes burden of deploying and maintaining hadoop clusters away from developers. EMR uses Apache Hadoop mapreduce engine and integrates with variety of different tools.
Manages the job flow: coordinating the distribution of the MapReduce executable and subsets of the raw data, to the core and task instance groups It also tracks the status of each task performed, and monitors the health of the instance groups. To monitor the progress of the job flow, you can SSH into the master node as the Hadoop user and either look at the Hadoop log files directly or access the user interface that Hadoop
Contains all of the core nodes of a job flow. A core node is an EC2 instance that runs Hadoop map and reduce tasks and stores data using the Hadoop Distributed File System (HDFS). The EC2 instances you assign as core nodes are capacity that must be allotted for the entire job flow run. Core nodes run both the DataNodes and TaskTrackerHadoop daemons.
Contains all of the task nodes in a job flow. The task instance group is optional. You can add it when you start the job flow or add a task instance group to a job flow in progress. You can increase and decrease the number of task nodes. Because they don't store data and can be added and removed from a job flow, you can use task nodes to manage the EC2 instance capacity your job flow uses
We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.
We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.