17. HDFSのデータの読み書き処理の概要
Client
Master
HDFS
ClientNode
HDFS
NameNode
HDFS
Client
(file name, block id)
(block id, block location)
instructions
to datanode
(block id,
byte range)
block data
Name
Node
heartbeat:
datanode
state
HDFS
DataNode
HDFS
DataNode
HDFS
DataNode
Data
Node
Data
Node
Data
Node
Data
Blocks
Data
Blocks
Data
Blocks
Slaves
18. HDFSの動作のトレース
Client
Master
HDFS
ClientNode
HDFS
NameNode
HDFS
Client
(file name, block id)
(block id, block location)
instructions
to datanode
(block id,
byte range)
M
block data
HDFS READ/WRITE
バイトサイズ、実行時間
Name
Node
heartbeat:
datanode
state
HDFS
DataNode
HDFS
DataNode
HDFS
DataNode
Data
Node
Data
Node
Data
Node
Data
Blocks
Data
Blocks
Data
Blocks
Slaves
31. 関連研究
J. Dai, et al: Hitune: Dataflow-Based Performance Analysis for Big Data Cloud,
USENIXATC’11
高次のデータフローをトレースし、低次元でのパフォーマンスボトルネック
を推定する
-
E. Marinelli, et al: Kahuna: Problem diagnosis for Mapreduce-based cloud
computing environments, NOMS’10
Hadoopが提供するメトリクス、ログを用いてノード間の乖離の自動検知を
行う
-
H. Herodotou, et al: Starfish: A Self-tuning for Big Data Analytics, CIDR’11
BTraceを用いて、map/reduceメソッドの実行時間を取得し、パフォーマ
ンスボトルネックの検知を行う
-
31