Cassandraのしくみデータの読み書き編

- データ読み書き編 - 2010/4/28 Cassandra 勉強会 @yukim の仕組み

翻訳者募集中 ! 森下雄貴 @yukim Cassandra wiki 翻訳に参加してます http:// wiki.apache.org/cassandra/FrontPage_JP

Bigtable + α のリッチなデータモデル Keyspace ColumnFamily Column Column Column Column Column Column Column Column Column Key Key Key ColumnFamily Column Column Column Key Key SuperColumn Column Column Column SuperColumn Column Column Column SuperColumn Column Column Column SuperColumn

Dynamo をベースとした P2P の分散ハッシュテーブルキーを元に計算されたトークンがどのレンジに属するかによって、データを保持するノードが決まる。 A D G K O C

Dynamo をベースとした P2P の分散ハッシュテーブルレプリケーション戦略に基づいたデータのレプリカを保持する。 Eventual Consistent A D G K O C

Cassandra はどのノードに対しても読み書き可能。 SPoF なし。 Dynamo をベースとした P2P の分散ハッシュテーブル

操作ごとに制御可能な一貫性レベル W + R > N W: 書き込み時のレベル R: 読み込み時のレベル N: レプリカ数強い一貫性が得られる ZERO ANY ONE QUORUM (N/2 + 1) ALL ZERO ANY ONE QUORUM (N/2 + 1) ALL Read Write

現時点で最新の 0.6.1 をベースに今日は書き込みと読み込みの話 Cassandra の読み書きの仕組みを紐解いてみる

クライアントは一貫性レベルを指定して、データの書き込み ( 登録 / 更新 / 削除 ) 要求をクラスタ内のノードに送信。要求を受けたノードは、どのノードにデータを保持するかを決定し、要求をフォワードする。 insert batch_mutate remove 書き込み要求データを保持するノードへ要求をフォワード

書き込み要求 ,[object Object],[object Object],[object Object],一貫性レベルに応じて挙動がかわる。を行い書き込み要求をフォワードするノードを決定。 ( ローカルの場合もある ) ,[object Object],[object Object],[object Object],[object Object]

1. トークンを計算し、データを保持するノードを決定 <Partitioner> org.apache.cassandra.dht.RandomPartitioner </Partitioner> プラッガブルパーティショニング方法 (IPartitioner の実装 ) に基づいてどのノードに属するデータかを決定 ,[object Object],[object Object],[object Object],[object Object]

2. レプリケーションを保持するノードを決定レプリケーション戦略 ,[object Object],[object Object],[object Object],こちらもプラッガブル <ReplicaPlacementStrategy> org.apache.cassandra.locator.RackUnawareStrategy </ReplicaPlacementStrategy>

3. Hinted Handoff の必要性を判定ノード故障の判定 ,[object Object],[object Object],Hinted Handoff ,[object Object]

書き込み要求を受け取ったノードでは… CommitLog Memtable SSTable フラッシュ (flush) => 非同期メモリ上ディスク上

設定 ( デフォルト :128MB) されたサイズに到達するとログがローテートされるコミットログヘッダ RowMutation + チェックサム (CRC32) CF ごとのダーティフラグ CF ごとのファイルポジションリプレイを開始するポジションリプレイが必要か CommitLog セグメント CommitLog ,[object Object],[object Object],[object Object],RowMutation + チェックサム (CRC32) RowMutation + チェックサム (CRC32)

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],<CommitLogSync> CommitLog <CommitLogDirectory> <CommitLogRotationThresholdInMB> ,[object Object],[object Object]

Memtable Key Column Column Column Token でソートカラム名でソート Memtable ,[object Object],(Token, Key) ColumFamily (Token, Key) (Token, Key) OrderPreservingPartitioner のみキーでのソートが保証される

Memtable < MemtableThroughputInMB > < MemtableFlushAfterMinutes > < MemtableOperationsInMillions > ,[object Object],[object Object],[object Object]

[object Object],[object Object],SSTable Bloom Filter Index Data Memtable の内容が格納されたデータファイル。あるキーがデータファイルに存在するか ( ただし偽陽性 ) をコンパクトに知るためのファイル。 ( おそらく ) キーに対応するデータの位置を保存。

[object Object],[object Object],[object Object],[object Object],コンパクション (Compaction) 2 種類のコンパクション ,[object Object],[object Object],[object Object],ディスクの残量に注意 !

[object Object],( 補足 ) データの削除分散環境での削除 Tombstone と <GCGraceSeconds> ,[object Object],[object Object]

読み込み要求一貫性レベルに応じて挙動がかわる。 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Read Repair ,[object Object],[object Object],[object Object]

読み込み要求を受けたノードでは… Memtable SSTable メモリ上ディスク上読み込み Row Cache

[object Object],[object Object],[object Object],[object Object],[object Object],キャッシュ Cassandra は 2 種類のキャッシュを備える

Bloom Filter 、 Index の活用 Memtable 、 SSTable からの読み込みすべての SSTable ファイルからあるキーを探し出す必要があるため、極力ムダを省きたい。まず Bloom Filter をチェックし、読み込む SSTable のファイルを絞り込む。

まとめ ,[object Object],[object Object],[object Object],[object Object]

Cassandraのしくみデータの読み書き編

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Cassandraのしくみデータの読み書き編

Similar to Cassandraのしくみデータの読み書き編 (20)

More from Yuki Morishita

More from Yuki Morishita (11)

Recently uploaded

Recently uploaded (10)