Contenu connexe
Similaire à [B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka (20)
Plus de Insight Technology, Inc. (20)
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
- 3. たとえば… ⾼速性
他の Hadoop
YCSB Benchmark MapR 3.0.1
YCSB Benchmark
3.0.1
ディストリビューション M7 Advantage
デ
トリビ
シ
d
(M7エディション)
(ops/sec/node)
(HBase)
50% read, 50% update
50% read 50% update
7965
2918
2.7x
2 7x
95% read, 5% update
3850
1541
2.5x
Random Read
5934
865
6.9x
Range Scan (50 rows)
Range Scan (50
)
838
274
3.1x
3 1x
Hardware Configuration
©MapR Technologies ‐ Confidential
CPU : Intel® Xeon® CPU E5645 2.40GHz 12 cores x2
RAM : 48 GB
Data Disk : 12x 3TB (7200 rpm)
Size – record size = 1k, data size = 2TB
OS : CentOS Release 6.2 (Final)
3
10‐Node Cluster
- 9.
Apache HB
A
h HBase のア キテクチ と課題
のアーキテクチャと課題
MapR とは?/MapR の優位点
MapR M7 エディション
まとめ
©MapR Technologies ‐ Confidential
9
- 10. MapR = Apache Hadoop + Innovation
Apache HBase Table
JVM
HDFS
File
File
File
JVM
Linux ファイルシステム
Ext3/Ext4
ディスクデバイス
Apache HBase Table
JVM
File
File
MapR‐FS File
ディスクデバイス
Table
File
File
MapR‐FS File
ディスクデバイス
その他のHadoop
ディストリビューション
MapR-FS: ランダムアクセスとNFSマウントが可能なファイルシステム
©MapR Technologies ‐ Confidential
10
- 11. アーキテクチャ設計と再実装による性能向上
Apahce Hadoop
Java API
MapR
100%互換
Java API
MapReduce
HDFS
MB/s
様々な追加機能
MapReduce
再設計
C/C++実装
MapR-FS
DFSIO性能
• J bT k HA
JobTracker
• Direct Shuffle
•
•
•
•
•
•
ランダムアクセス
分散NameNode
NFSアクセス
ボリューム
ミラーリング
スナップショット
ハードウェアの限界性能を引き出すため
のアーキテクチャ設計・再実装
MapR
•
•
•
•
10ノード, 2xクアッドコア, 24GBメモリ, 11x7200rpm SATA
©MapR Technologies ‐ Confidential
11
ビルトイン圧縮によるI/O削減
分散NameNode
RPC経由のShuffle転送
Java GCの影響の排除
- 13. システム管理機能の充実によるコスト削減
NFS経由の効率的なデータ⼊出⼒
Web サーバ
処理結果
MapR FS
NFSマウント
マウントポイント: xx
容量上限: xx
レプリケーション数: x
管理権限: xx
アプリケーショ
プ
ン
MapReduce
ログ出⼒
ボリューム活⽤によるマルチテナント運⽤
ボリュ ムC ミラ 設定
ボリュームC ミラー設定
NFSマウント
xxx
「ボリューム」単位でファイルシステムを論理分割し、異
なるポリシーを設定して運⽤管理を分離
スナップショットによるデータ喪失への備え
差分更新
xxx
ボリュームB
ログの出⼒を直接Hadoopファイルシステムにして中
間ファイルサーバやデータ移動の⼿順を削減
⽉曜⽇の
スナップショッ
ト
ボリュームA
クラスタ稼働状況の瞬時の把握と集中管理
ボリューム
⽕曜⽇の
スナップショッ
ト
差分更新
使いやすい
Web管理画⾯と
“Heat Map”
表⽰、アラーム
⽔曜⽇の
スナップショッ
ト
差分更新
最新版
スナップショットはHadoop
ファイルシステム内に作られ、差分のみを格納
©MapR Technologies ‐ Confidential
13
- 15. ボリューム
クラスタを構成するノードを論理的に束ねることで、ボリュームを構成
することができます。
•各ボリュームはROOTボリュームを頂点とするファイルシステムの単⼀ネームス
各ボリュ ムはROOTボリュ ムを頂点とするファイルシステムの単 ネ ムス
ペースにマウントされます。
ラック#1
ラック#2
ラック#3
ラック#4
/ (ROOT)
/ (ROOT)
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
user/
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
HDD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
vol_1/
fast/
/user/vol_1/
/user/vol 1/
/fast/
•ボリューム機能の利点
•ボリューム毎にレプリケーション数、ユーザーアクセスコントロール、クォータ、スナップショット、ミ
ラーリングの設定ができる。→マルチテナンシー
•特定のデータを間接的に特定のノードに配置できる。→アクセススピードが求められるデータをSSDノー
ドに格納する。
•使⽤状況に応じてボリューム毎にノードの拡張、縮退がオンラインのまま可能。
©MapR Technologies ‐ Confidential
15
- 17. CLDB (Container Location Database)
CLDBはコンテナの位置情報を提供します。
•CLDBプロセスは複数のノードに常駐し、冗⻑構成します。これらのノードの⼀つにCLDBコン
テナが作成され、他のCLDBプロセスノードにレプリケートされます。
•CLDBコンテナにはクラスタ内のすべてのコンテナのノード情報が記録されます。CLDBプロセ
スはCLDBコンテナの内容をメモリにロードします。
•各ボリュームにはネームコンテナが配置されます。ネームコンテナはボリューム内のファイルの
位置情報が記録されます。
位置情報が記録されます
CLDBコンテナ
ネームコンテナ
ボリューム名→ネームコンテナID
•ノード#1
コンテナID → •ノード#2
•ノード#3
ファイルパス
ァ
↓
マウント先ボリューム名/
データコンテナID
例:/user/vol_1/test.data のデータコンテナ解決
“/(ROOT)”ボリューム→ CLDB
→“user/”ボリューム→
“
/”ボリ
ム
“vol_1/”ボリューム→
CLDB
CLDB
CLDB
→ネームコンテナID/ノード/”/user/vol_1/test.data”→
→ネームコンテナID/ノード/”vol_1/test.data”→
ネ ム ンテナID/ノ ド/” l 1/t t d t ”
→ネームコンテナID/ノード/”test.data”→
ROOT:ネームコンテナ
user:ネームコンテナ
ネ
ナ
Vol_1:ネームコンテナ
→データコンテナID→
→ノード/データコンテナID/”test.data”→ データコンテナ
•クライアントはCLDB/ネームコンテナの検索結果を常にキャッシュします。
©MapR Technologies ‐ Confidential
17
→
- 18. ネームノード vs. CLDB
CLDB
CLDB
CLDB
MapR
Apache Hadoop
CLDB
コンテナ
NameNode
ネームコンテナ
ネ ムコンテナ
DataNode
DataNode
ネームコンテナ
ネ ムコンテナ
DataNode
データコンテナ
データコンテナ データコンテナ
ボリューム
©MapR Technologies ‐ Confidential
ネームコンテナ
ネ ムコンテナ
18
データコンテナ データコンテナ
ボリューム
データコンテナ
ボリューム
- 20.
Apache HB
A
h HBase のア キテクチ と課題
のアーキテクチャと課題
MapR とは?/MapR の優位点
MapR M7 エディション
まとめ
Table
File
MapR‐FS File
MapR FS File
ディスクデバイス
©MapR Technologies ‐ Confidential
20
- 24. Apache HBase HFile の構造
それぞれのセルはキー・バリューペア(レコードではない)
- カラムの数だけキーを繰り返す
昇順にソート
昇順にソ ト
されたキー・
バリューペア
64Kバイトのブ
ロック単位で圧縮
圧縮ブロックへのインデッ
クスが付加される
©MapR Technologies ‐ Confidential
24
- 29.
Apache HB
A
h HBase のア キテクチ と課題
のアーキテクチャと課題
MapR とは?/MapR の優位点
MapR M7 エディション
まとめ
©MapR Technologies ‐ Confidential
29
- 32. Apache HBase との⽐較
MapR M7
Apache HBase
Apache HBase
ファイル/テーブル・ネームス
ペースの統合
〇
X
クォータ制御
ク
タ制御
〇
X
データ配置制御
〇
X
ネットワ クトラフィックの圧縮
ネットワークトラフィックの圧縮
〇
X
特定ストレージの割当
〇
X
SSDノードへの明示的な割当
スナップショット
スナ プシ ト
〇
X
ミラーリング
〇
X
コンパクションの排除
〇
X
オンラインアップグレード
〇
X
©MapR Technologies ‐ Confidential
32
- 33. Apache HBase の制限事項の排除
MapR M7
Apache HBase
Apache HBase
テーブル数
数十億
100
ノード数
10,000
数百
64
3
カラムファミリ数
©MapR Technologies ‐ Confidential
33
- 34. M7 vs. CDH: 50-50 load (read latency)
CDH
MapR
p
©MapR Technologies ‐ Confidential
35
- 35. M7 vs. CDH: 50-50 Mix (Reads)
MapR:スループット
CDH:レイテンシ
CDH:スループット
MapR:レイテンシ
イテ シ
©MapR Technologies ‐ Confidential
36
- 40. MapR: Apache Hadoop ディストリビューション
Ecoシステムも含めたHadoop完全パッケージ
EcoシステムについてもMapR内で検証の上、製品パッケ ジとして提供
EcoシステムについてもMapR内で検証の上、製品パッケージとして提供
EcoシステムのパッチもMapRから提供
100%標準Hadoopインターフェイス
エンタープライズ向け⾼信頼性
柔軟なファイルシステム
⾼パフォーマンス
⾼パフォ マンス
©MapR Technologies ‐ Confidential
41