20160127三木会 RDB経験者のためのspark

データベース技術者の皆様に
なるべくわかりやすく
Apache Spark
を説明してみます
Sky株式会社玉川竜司

玉川竜司です
• 本職はセキュリティソフトの開発
• 一番使っているのはSQL Server
• SQLiteも大好きです
• db tech showcaseではMongoDBの
人としてデビュー
• 今年はSparkの人で登壇？
• オライリージャパンで翻訳してます
• FB: Ryuji Tamagawa
• Twitter : tamagawa_ryuji

本日の内容
• HadoopエコシステムとSpark
• MapReduceとSpark
• Sparkの動作
• Sparkの今後

HadoopエコシステムとSpark

Hadoop 0.xの時代
HadoopRDB
OS
ファイルI/O
メモリバッファ
クエリ実行エンジン
SQL
ドライバ
OS
HDFS
MapReduce
• 分散処理の基盤だけが
ある状態
• HDFS / MapReduceに
よる耐障害性と分散処
理の性能の保証
• プログラミングはめっ
ちゃ大変

Hadoop 1.xの時代
HadoopRDB
OS
ファイルI/O
SQL
ドライバ
OS
HDFS
Hive e.t.c.
HBase
MapReduce
ドライバ
• 「上物」の整備が進む
• Hiveの登場で、SQLでの
アクセスが可能に
• ランダムアクセスで読み書
き可能なデータベースエン
ジンであるHBaseが登場
• その他、エコシステムの
整備が進む

Hadoop 2.xとSparkの登場
OS
HDFS
Hive e.t.c.
HBaseMapReduce
YARN
Spark
（Spark Streaming, MLlib,
GraphX, Spark SQL)
注：この階層図は技術的に正確ではありません。 
複雑すぎて正確に描くことはたぶん無理･･･
Impalaなど
（インメモ
リ系SQL）
「Hadoopって何？」という問いに対する答はどんどん難しくなって
いて、狭義ではHDFS+YARN+MapReduceあたりです。ただ、全
部ひっくるめて「エコシステム」って表現することが多くなりました。
RDB
OS
ファイルI/O
SQL
ドライバ
MapReduceによらない
クエリ実行エンジンが増えてきた

ターゲットの違い
基本的な指向 I/Oの特性集中 / 分散
RDB
小さいレコード
を細かく読み・
書き・更新
比較的小さな領
域をランダムア
クセス
集中
Hadoop
エコシステム
1回書いて何度
も読む
比較的大きな領
域をシーケンシ
ャルアクセス
分散
• RDBもHadoopエコシステムも、それぞれの領域をカバーするような取り組
みが進んでいますが、基本的な性格を理解しておくことは重要だと思います。

Sparkが注目される2つの理由
処理が高速
プログラミングが容易

その他の特徴
• Scale-inが容易（小規模な方向へのスケーラビリティ）
• インタラクティブシェルによる探索的コンピューティング
• 豊富なライブラリ（MLlib、GraphX、SparkStreaming･･･）
• ファイルI/OはHadoopのライブラリを利用できる
• HDFSやS3をファイルシステムとしてそのまま活用できる

フレームワークの違い
基本的な処理
の単位
処理の対象 JVM クラスタ管理
MapReduce Map / Reduce ファイル
フェーズごとに起
動・終了
YARN
Spark
RDD / DataFrameに
対する操作
（高レベルなAPI）
RDD 起動しっぱなし
YARN / Mesos / ス
タンドアローン

Sparkが高速な理由
map
JVM Invocation
I/0
HDFS
reduce
JVM Invocation
I/0
map
JVM Invocation
I/0
reduce
JVM Invocation
I/0
f1（read data to RDD）
Executor（JVM）Invocation
HDFS
I/O
f2
f3
f4（persist to storage）
f5（does shufﬂe） I/O
f6
f7
Memory(RDDs)
access
access
access
access I/O
access
access
MapReduce Spark

MapReduceとSparkの速度
Spark
MapReduce
データ量
処理時間
注：イメージです

RDD（耐障害性分散データセット）
• 論理的には、プログラミング言語でいうところのコレクション
• 実体としては、RDBでのビューにキャッシュの機能を追加したもの、という感じ
• 「パーティション」に分割され、クラスタを構成するノード群にまたがって配置
される
ノード
RDD-A Partition #1
RDD-B Partition #1
ノード
Partition #2
Partition #2
ノード
Partition #3
Partition #3
ノード
Partition #4
Partition #4

RDDの処理
• 論理的にはコレクション。物理的にはクラスタ内のノードに分散配置される
• RDDに対して「変換」をかけて、新たなRDDを生成する。データベースで言え
ば、ビューの定義にビューの定義を重ねているような感じ。
• RDDに対して「アクション」を行うと、RDDをさかのぼって計算が実行される。
# テキストを読んでRDDを生成
rmRDD = sc.textfile(‘readme.md’)
#フィルタをかけて次のRDDを生
spRDD = rmRDD.filter(…)
#もう1つフィルタ。
sp10RDD = spRDD.filter(…)
#この時点ではまだテキストファイルも読まれていない
#行数のカウント。この時点ですべての処理が走る
count = sp10RDD.count()
元のファイル
rmRDD
spRDD
sp10RDD
123
table
create view…
create view…
create view…
select count…

RDDの処理（論理構造）
#フィルタをかけて次のRDDを生成
RDD_1 = rmRDD.filter(…)
RDD_2 = RDD_1.filter(…)
#キャッシュを指示
RDD_2.persist()
#1つめの分岐
RDD_2_a = RDD_2.filter(…)
count = RDD_2_a.count() #RDD_2はここでキャッシュ
#2つめの分岐
RDD_2_b = RDD_2.filter(…)
count = RDD_2_b.count() #演算はRDD_2以降のみ
ファイル
rmRDD
RDD_1
RDD_2
RDD_2_a RDD_2_a
123 456

RDDの処理（実行）
driver Executor1 Executor2
#フィルタをかけて次のRDDを生成
RDD_1 = rmRDD.filter(…) #フィルタ1
RDD_2 = RDD_1.filter(…) #フィルタ2
#キャッシュを指示
RDD_2.persist()
#1つめの分岐
RDD_2_a = RDD_2.filter(…) #フィルタ2a
count = RDD_2_a.count() #RDD_2はここでキャッシュ
#2つめの分岐
RDD_2_b = RDD_2.filter(…) #フィルタ2b
count = RDD_2_b.count() #演算はRDD_2以降のみ
rmRDD登録
フィルタ1登録
フィルタ2登録
RDD_2のキャッシュ準備
フィルタ2a登録
rmRDDの読み取り、フィルタ1,2,2a
の実行、RDD_2のキャッシュ
フィルタ2b登録
フィルタ2b実行

シャッフルについて
• RDDの変換は2種類に分類でき
る。シャッフルを伴うものと伴わ
ないもの
• シャッフルを伴わないもの：変換
前のパーティションと変換後のパー
ティションが一対一対応するもの。
例えば単純なフィルタリング。
• シャッフルを伴うもの。変換前後
でパーティション構成が変化する
もの。例えば集計や結合処理。
Executor1
Partition #1
Partition #1’
Partition #A
Executor2
Partition #2
Partition2’
Partition #B
Executor3
Partition #3
Partition3’
Partition #C

シャッフルについて
• 並列処理を行う際のコスト構造が
RDBとは大きく異なる
• Sparkにおいては、シャッフルの
際にはストレージI/Oが生ずるた
め、非常にコストが大きい
• プロセスをまたがるデータの転送
はネットワークを経由するという
点でもコストが大きい
• 耐障害性の観点からも差異がある
Executor1
Partition #1
Partition #1’
Partition #A
Executor2
Partition #2
Partition2’
Partition #B
Executor3
Partition #3
Partition3’
Partition #C

DataFrame /
Dataset（SchemaRDD）
• RDDはスキーマレス
• スキーマを適用することで、効
率化とSQLでの処理をできるよ
うにしたのがSchamaRDD（1.3）
• SchemaRDDをさらに発展させた
のがDataFrame
• SQLはHiveに準拠。Select系の
SQLは普通に書けるレベル
デモします

Project Tangsten
• RDBでいうクエリオプティマイザの強化プロ
ジェクト
• バージョン1.5で登場
• まだまだ進行中

今後も発展していきそう
• 「MapReduceは徐々にSparkに置き換えられていくだろう」
• 機械学習の分野がドライバになっている（MLlib）。イテレー
ティブな処理においては、MapReduceよりも圧倒的に高速
• Sparkをデータ処理の基盤としておくと何かとつぶしがきく感
• SQLもいけるし、手続き型の言語（Java, Scala, Python）も
いける。Rもいける

20160127三木会 RDB経験者のためのspark

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 20160127三木会 RDB経験者のためのspark

Similaire à 20160127三木会 RDB経験者のためのspark (20)

Plus de Ryuji Tamagawa

Plus de Ryuji Tamagawa (20)

20160127三木会 RDB経験者のためのspark