SlideShare une entreprise Scribd logo
1  sur  45
Télécharger pour lire hors ligne
1	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
新製品Kudu  及びRecordService  の概要
セキュリティ強化  +  ファストデータの⾼高速分析
Amr  Awadallah  |  Cloudera  共同創業者、CTO
Twitter:  @awadallah
2	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
現在のセキュリティアーキテクチャ:  統⼀一性の⽋欠如  =  限定的なアクセス
HDFS
Hive
ポリシー  A
Hive
しかしその⼀一⽅方で  ...
細かな制約を
サポートするエンジンも存在  ...
統⼀一的でよりきめ細かな
ポリシーの提供
RecordService  とは
総合的なアクセスコントロールの適⽤用
MapReduce
(テーブルレベル)
RecordService
(ポリシー適⽤用)
Impala
Sentry
(ポリシー定義)
Sentry
(ポリシー定義)
...
Impala
(カラムレベル)
HDFS HDFS
Spark MR
Spark
(テーブルレベル)
3	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
アジェンダ
Kudo  とは?  (動機と⽬目標)
ユースケース
デザインと内部構造概要  
簡単なベンチマーク
現状、そしてこれから始めるには
4	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  とは  ?
5	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Hadoop  の現状のストレージランドスケープ
HDFS  の優位点:
•  ⼤大量量データの効率率率的なスキャン
•  ⾼高スループットでデータを蓄積
HBase  の優位点:
•  各⾏行行に対する効率率率的な検索索と書き込み
•  データは変更更可能
こうした特性が同時に必要な場合、ギャップ
が発⽣生する
Hadoop  の  
ストレージに
存在する「ギャップ」
6	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
•  ⼤大規模なスキャンを⾼高スループットで実⾏行行
•  低レイテンシでランダムアクセスを実⾏行行
•  ⾼高いCPUパフォーマンスを確保するため、RAMと
フラッシュの優位性を活⽤用
•  1カラムのスキャンレートを、HBase  の  10~∼100倍⾼高速に
•  ⾼高効率率率  I/O
•  型独⾃自のエンコーディングによる、カラムストア
•  特定のカラムにアクセスする場合の効率率率的な分析
•  叙述的(Expressive)で進化可能なデータモデル
•  マルチデータセンター運⽤用が可能なアーキテクチャ
Kudu  の設計⽬目標
7	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ハードウェアのランドスケープを変える
•  HDD  →  SSD
•  NAND  フラッシュ:  iops:  最⼤大  450k  (read),  250k  (write),  スループット:  約  2GB/sec  (read),  1.5GB/sec  (write)  
価格は  $3/GB  以下でさらに低下する傾向
•  3D  XPoint  memory  (NAND  の  1,000倍⾼高速。RAMよりも低価格)
•  RAM  は価格が低下し、容量量は増加
•  過去の数年年で  64  →  128  →  256GB  以上に
結論 1 :
次のボトルネックは  CPU  に発⽣生する。現状のストレージシステムは
CPUの効率率率を考慮して設計されていない
結論 2:
  ランダムアクセスには、カラムストアがふさわしい
8	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kuduの概要
ファストデータに対する⾼高速分析のためのストレージ
•  Hadoop向けの新たなカラムストア
•  更更新されるデータに対する分析アプリ
ケーション構築のためのアーキテクチャを
シンプル化
•  ⾼高速分析を実⾏行行するためのデザイン
•  Hadoopとネイティブに統合
•  Apacheライセンスオープンソース
(ASFインキュベータ提案中)
•  ベータ版が利利⽤用可能
ファイルシステム
HDFS
NoSQL
HBASE
インジェスト  –  SQOOP,  FLUME,  KAFKA
データ統合とストレージ
セキュリティ  –  SENTRY
リソース管理理  –  YARN
統合データサービス
バッチ ストリーム SQL 検索索 モデル オンライン
データエンジニアリング データディスカバリと分析 データアプリ
SPARK,  
HIVE,  PIG
SPARK IMPALA SOLR SPARK HBASE
リレーショナル
KUDU
9	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  を使う
•  テーブルは  SQLライクなスキーマを持っている
•  無限数のカラム(HBase/Cassandraとは異異なる)
•  タイプ:  BOOL,  INT8,  INT16,  INT32,  INT64,  FLOAT,  DOUBLE,  STRING,  BINARY,  
TIMESTAMP
•  カラムの⼀一部はパッシブリー複合主キー(possibly-‐‑‒composite  primary  key)  を形成
•  ⾼高速  ALTER  TABLE
•  Java  および  C++  “NoSQL”  スタイルの  API
•  Insert(),  Update(),  Delete(),  Scan()
•  MapReduce,  Spark,  and  Impala  との統合
•  乞うご期待!
9	
  
10	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  は何ではないか
•  SQL  インタフェースそのものではない  
•  ストレージレイヤに過ぎない  -  「SQLは⾃自分で⽤用意」(例例えば  Impala  や  Spark)
•  HDFS上で稼働するアプリケーションではない
•  ネイティブな  Hadoop  ストレージエンジン
•  HDFSと共存させるのが望ましい
•  HDFSやHBase  を置き換えるものではない
•  適切切なユースケースに適切切なストレージを選択
•  Cloudera  はこれらを引き続きサポート、投資する
11	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  のユースケース
12	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  ユースケース
Kudu  は、シーケンシャルとランダム  READ/WRITE  を同時に組み合わせて使⽤用する
といったユースケースに最適。例例えば:
●  時系列列
○  例例:  ストリームマーケットデータ、不不正アクセス検知・防御、リスクモニタリング
○  ワークロード:  Insert,  Update,  Scan,  Lookup
●  マシンデータの分析
○  例例:  ネットワークへの侵⼊入の検知
○  ワークロード:  Insert,  Scan,  Lookup
●  オンラインレポーティング
○  例例:  ODS
○  ワークロード:  Insert,  Update,  Scan,  Lookup
13	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
業界適⽤用例例
•  ストリーミングマーケット
データ
•  リアルタイム不不正検知と防御
•  リスクモニタリング
•  リアルタイム商品提案
•  ローケーションベース
ターゲティング
•  地理理空間モニタリング
•  リスクおよび侵⼊入の検知
(リアルタイム)
⾦金金融サービス ⼩小売 公共
14	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
現在の  Hadoop  のリアルタイム分析
実世界における不不正検知  =  ストレージが複雑になりがち
考慮点:
●  プロセス実⾏行行中に障害が発⽣生した
場合の対処⽅方法は?
●  レポーティング⽤用フォーマットに、
どの程度度の頻度度でストリーミング
データを再構成し投⼊入すればよい
のか?
●  レポーティングする場合、データ
がまだ再構成されていないことを
どう確認すればよいのか?
●  重要なジョブがメンテナンスで
停⽌止しないようにするには?
新規のパーティション
直近⽤用のパーティション
過去データ
HBase
Parquet  
File
⼗十分にデータが
蓄積されたか  ?
HBase  ファイル
をParquet  に
再構成
•  実⾏行行処理理の完了了を待機
•  新しく書き込まれた  Parquet  ファイルを
参照し、新規  Impalaパーティションを定義
⼊入⼒力力データ  
(メッセージング
システム)
レポーティング
リクエスト
Impala  on  HDFS
15	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kuduを使⽤用したHadoop  のリアルタイム分析
ハイブリッドアプリーチに⽐比べ、シンブルでより優れたパフォーマンスのアーキテクチャ
Impala  on  Kudu
⼊入⼒力力データ
  (メッセージング
システム)
レポーティング
リクエスト
16	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
デザインと内部構造
17	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  の基本的なデザイン
•  型付けされた  (typed)  ストレージ
•  基本構造:  テーブル  
•  テーブルはタブレットに分解される  (ほぼパーティションと同義)
•  Paxos  に似たクォーラムモデル  (Raft)  により、⼀一貫性を維持
•  地理理的に離離れた、アクティブ/アクティブなシステムをサポートするアーキテクチャ
18	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
テーブルとタブレット
•  テーブルはパーティションに⽔水平分割される
•  範囲パーティショニング  または  ハッシュパーティショニング
•  プライマリキー(ホスト、メトリック、タイムスタンプ)は、ハッシュ(タイムスタンプ)により
100以上のバケットに分散
•  各タブレットは  Raft  コンセンサスで、N個(3または5)の複製を持つ
•  任意のレプリカからの読み込み、低いMTTRでリーダ主導の書き込みが可能
•  タブレットサーバがタブレットを保持する
•  データはローカルディスクに保存(HDFSは不不要)
18	
  
19	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
クライアント
メタキャッシュ
20	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Client	
  
Meta	
  Cache	
  
「todd@cloudera.com  の⾏行行はテーブルTのど
こにありますか?」(Masterに尋ねる)
21	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
クライアント
メタキャッシュ
「todd@cloudera.com  の⾏行行はテーブルTのど
こにありますか?」(Masterに尋ねる)
サーバ  {Z,Y,X}  の  タブレット2にあります。
さらに、他のタブレット:T1,T2,T3,  ...  についての情
報もあります
22	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
クライアント
「todd@cloudera.com  の⾏行行はテーブルTのど
こにありますか?」(Masterに尋ねる)
サーバ  {Z,Y,X}  の  タブレット2にあります。
さらに、他のタブレット:T1,T2,T3,  ...  についての情
報もあります
メタキャッシュ
T1:  …
T2:  …
T3:  …
23	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
クライアント
UPDATE  
todd@cloudera.com  
SET  …
メタキャッシュ
T1:  …
T2:  …
T3:  …
「todd@cloudera.com  の⾏行行はテーブルTのど
こにありますか?」(Masterに尋ねる)
サーバ  {Z,Y,X}  の  タブレット2にあります。
さらに、他のタブレット:T1,T2,T3,  ...  についての情
報もあります
24	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
タブレットのデザイン
•  インメモリストアにInsertがバッファされる(HBaseの  memstore  と同様)
•  ディスクにフラッシュ
•  カラムナレイアウト、Apache  Parquet  に類似
•  MVCC  を使ってアップデート(タイムスタンプでタグをアップデート:  in-‐‑‒place  ではない)
•  “SELECT  AS  OF  <timestamp>”  クエリを許可、またタブレットスキャン全体で整合性を維持
•  “current  time”  スキャンにほぼ最適な  READパス
•  ⾏行行毎の分岐がなく、⾼高速なベクトル化でコーディングと術語評価  (predicate  evaluation)
•  直近のアップデート数に応じてパフォーマンスが劣劣化
24	
  
25	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
メタデータ
•  マスタは複製される  (Replicated  master)  *
•  タブレットのディレクトリとして機能  (“META”  テーブル)
•  カタログとして機能(テーブルスキーマなど)
•  ロードバランサーとして機能(TS  の⽣生存を追跡、レプリケーション中の
タブレットの再レプリケーション)
•  パフォーマンス確保のためすべてのメタデータをRAMにキャッシュ
•  80ノードによるロードテスト、GetTableLocations  RPC  のパフォーマンス:
•  99パーセンタイル:68us、99.99パーセンタイル:657us  
•  CPU使⽤用率率率はピークで  2%  未満
•  マスタのアドレスをクライアントに設定
•  必要に応じてマスタにタブレットの場所を問い合せてキャッシュする
25	
  
26	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu  のトレードオフ
•  ランダムアクセスの速度度劣劣化
•  HBase  モデルは、ディスクシーク無しにランダムアップデートが可能
•  Kudu  はアップデート前のキー検索索、インサート前の  Bloom検索索が必要
•  1⾏行行だけの  READ  速度度が劣劣化する場合がある
•  カラムナはスキャンに対して最低化されたデザインになっている
•  今後:  1⾏行行だけのアクセスが重要がアプリケーションのために、カラムグループ
  (Column  groups)  を提供予定
27	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ベンチマーク
28	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
TPC-‐‑‒H(分析向けベンチマーク)
•  75TS  +  1  マスタクラスタ
•  各クラスタに  12  のハードドライブとデータセットに⼗十分なRAMを搭載
•  Kudu  0.5.0、Impala  2.2  with  Kudu  support、CDH  5.4  を使⽤用
•  TPC-‐‑‒H  Scale  Factor  100  (100GB)
•  サンプルクエリ:	
  
•  SELECT n_name, sum(l_extendedprice * (1 - l_discount)) as revenue FROM customer,
orders, lineitem, supplier, nation, region WHERE c_custkey = o_custkey AND
l_orderkey = o_orderkey AND l_suppkey = s_suppkey AND c_nationkey = s_nationkey
AND s_nationkey = n_nationkey AND n_regionkey = r_regionkey AND r_name = 'ASIA'
AND o_orderdate >= date '1994-01-01' AND o_orderdate < '1995-01-01’ GROUP BY
n_name ORDER BY revenue desc;
28	
  
29	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
-‐‑‒  RAM上のデータに対して、Kudu  が  Parquet  を  31%  上回る(幾何平均)
-‐‑‒  HDD内のデータ(より⼤大きな  I/Oリクエスト)に対しては、Parquet  が  Kudu  を上回ると想定される
30	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache  Phoenix  の場合
•  10  ノードクラスタ(9  ワーカ、  1  マスタ)
•  HBase  1.0、Phoenix  4.3
•  TPC-‐‑‒H  LINEITEM  テーブルのみ  (六六⼗十億⾏行行)
30	
  
2152	
  
219	
  
76	
  
131	
  
0.04	
  
1918	
  
13.2	
  
1.7	
  
0.7	
  
0.15	
  
155	
  
9.3	
  
1.4	
   1.5	
   1.37	
  
0.01	
  
0.1	
  
1	
  
10	
  
100	
  
1000	
  
10000	
  
Load	
   TPCH	
  Q1	
   COUNT(*)	
  
COUNT(*)	
  
WHERE…	
  
single-­‐row	
  
lookup	
  
時間  (秒)
Phoenix	
  
Kudu	
  
Parquet	
  
31	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
NoSQL  スタイルランダムアクセス  (YCSB)
•  YCSB  0.5.0-‐‑‒スナップショット
•  10  ノードクラスタ
(9  ワーカ、1  マスタ)
•  HBase  1.0
•  ⼀一億⾏行行、⼗十億ops
31	
  
32	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Xiaomi  ユースケース
•  モバイルアプリやバックエンドサービスから、重要な  RPC  トレーシングイベントを収集
•  サービスモニタリングおよびトラブルシューティング⽤用ツール
•  優れた  WRITE  スループット
•  1⽇日  50  億超のレコード、さらに成⻑⾧長中
•  最新データをクエリし、素早く応答
•  問題を迅速に特定し解決することが可能
•  個別レコードの検索索が可能
•  容易易なトラブルシューティング
33	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ビッグデータ分析パイプライン
Kudu  以前
•  ロングパイプライン
⼤大きなレイテンシ(1時間~∼1⽇日)、データ変換がネック
•  順序付けがない
ログの到着(ストレージ)順序がそのまま論論理理的な順番とは限らない
例例えば、1⽇日のログ確認に2~∼3⽇日のログの読み込みが必要
34	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ビッグデータ分析パイプライン
Kudu  による簡素化
•  ETL  パイプライン  (0~∼10秒のレイテンシ)
バックプレッシャーを避ける必要がある、あるいは  ETLが必要なアプリ
•  ダイレクトパイプライン(レイテンシなし)
ETLを必要としないバックプレッシャーの問題のないアプリ	
  
OLAP  スキャン
サイドテーブル検索索
結果のストア
35	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ユースケース1:ベンチマーク
環境
•  71  ノードクラスタ
•  ハードウェア
•  CPU:  E5-‐‑‒2620  2.1GHz  *  24  core    Memory:  64GB  
•  ネットワーク:  1Gb    ディスク:  12  HDD
•  ソフトウェア
•  Hadoop2.6/Impala  2.1/Kudu
データ
•  サーバ側の  1⽇日のトレースデータ
•  最⼤大  26億⾏行行
•  最⼤大  270  byte/⾏行行
•  列列:17,  キー列列:5
36	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ユースケース1:  ベンチマーク結果  
1.4	
  	
   2.0	
  	
   2.3	
  	
  
3.1	
  	
  
1.3	
  	
   0.9	
  	
  1.3	
  	
  
2.8	
  	
  
4.0	
  	
  
5.7	
  	
  
7.5	
  	
  
16.7	
  	
  
Q1	
   Q2	
   Q3	
   Q4	
   Q5	
   Q6	
  
kudu	
  
parquet	
  
合計時間(s) スループット(合計) スループット(ノードあたり)
Kudu 961.1 2.8M  record/s 39.5k  record/s
Parquet 114.6 23.5M  record/s 331k  records/s
Impala  を使⽤用したバルクロード  (INSERT  INTO):  
クエリレイテンシ:
*  HDFS  Parquet  ファイルレプリケーション  =  3、kudu  テーブルレプリケーション  =  3
*  各クエリを5回実⾏行行した平均値
37	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
現状、そしてこれから始めるには
38	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
現状
✔ アーキテクチャのコアとなるコンポーネントはすべて完了了
✔ Java  と  C++  API
✔ Impala、MapReduce  および  Spark  の統合
✔ SSD  と  HDD  をサポート
✔ フォールトリカバリ
✔ パブリックベータ利利⽤用可能
39	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
これから始めるには
ユーザー:
ベータをインストールまたは  VMで試す:
getkudu.io
サポートは:
kudu-‐‑‒user@googlegroups.com
ホワイトペーパー:
getkudu.io/kudu.pdf
開発者:
コントリビューション:
github.com/cloudera/kudu  (コミット)
gerrit.cloudera.org  (レビュー)
issues.cloudera.org  (JIRA  は2013年年)
開発者リストに参加:
kudu-‐‑‒dev@googlegroups.com
コントリビューションを歓迎しています!
40	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ご静聴ありがとうございました
41	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Appendix	
  
42	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Fault	
  tolerance	
  
•  Transient	
  FOLLOWER	
  failure:	
  
• Leader	
  can	
  s]ll	
  achieve	
  majority	
  
• Restart	
  follower	
  TS	
  within	
  5	
  min	
  and	
  it	
  will	
  rejoin	
  transparently	
  
•  Transient	
  LEADER	
  failure:	
  
• Followers	
  expect	
  to	
  hear	
  a	
  heartbeat	
  from	
  their	
  leader	
  every	
  1.5	
  seconds	
  
• 3	
  missed	
  heartbeats:	
  leader	
  elec]on!	
  
•  New	
  LEADER	
  is	
  elected	
  from	
  remaining	
  nodes	
  within	
  a	
  few	
  seconds	
  
• Restart	
  within	
  5	
  min	
  and	
  it	
  rejoins	
  as	
  a	
  FOLLOWER	
  
•  N	
  replicas	
  handle	
  (N-­‐1)/2	
  failures	
  
42	
  
43	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Fault	
  tolerance	
  (2)	
  
•  Permanent	
  failure:	
  
• Leader	
  no]ces	
  that	
  a	
  follower	
  has	
  been	
  dead	
  for	
  5	
  minutes	
  
• Evicts	
  that	
  follower	
  
• Master	
  selects	
  a	
  new	
  replica	
  
• Leader	
  copies	
  the	
  data	
  over	
  to	
  the	
  new	
  one,	
  which	
  joins	
  as	
  a	
  new	
  FOLLOWER	
  
43	
  
44	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
LSM	
  vs	
  Kudu	
  
•  LSM	
  –	
  Log	
  Structured	
  Merge	
  (Cassandra,	
  HBase,	
  etc)	
  
• Inserts	
  and	
  updates	
  all	
  go	
  to	
  an	
  in-­‐memory	
  map	
  (MemStore)	
  and	
  later	
  flush	
  to	
  
on-­‐disk	
  files	
  (HFile/SSTable)	
  
• Reads	
  perform	
  an	
  on-­‐the-­‐fly	
  merge	
  of	
  all	
  on-­‐disk	
  HFiles	
  
•  Kudu	
  
• Shares	
  some	
  traits	
  (memstores,	
  compac]ons)	
  
• More	
  complex.	
  
• Slower	
  writes	
  in	
  exchange	
  for	
  faster	
  reads	
  (especially	
  scans)	
  
44	
  
45	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Kudu	
  storage	
  –	
  Compac]on	
  policy	
  
•  Solves	
  an	
  op]miza]on	
  problem	
  (knapsack	
  problem)	
  
•  Minimize	
  “height”	
  of	
  rowsets	
  for	
  the	
  average	
  key	
  lookup	
  
• Bound	
  on	
  number	
  of	
  seeks	
  for	
  write	
  or	
  random-­‐read	
  
•  Restrict	
  total	
  IO	
  of	
  any	
  compac]on	
  to	
  a	
  budget	
  (128MB)	
  
• No	
  long	
  compac7ons,	
  ever	
  
• No	
  “minor”	
  vs	
  “major”	
  dis7nc7on	
  
• Always	
  be	
  compac]ng	
  or	
  flushing	
  
• Low	
  IO	
  priority	
  maintenance	
  threads	
  
45	
  

Contenu connexe

Tendances

基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015Cloudera Japan
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Cloudera Japan
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltToshihiro Suzuki
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajpImpala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajpCloudera Japan
 
Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Cloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27Cloudera Japan
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014Cloudera Japan
 
HBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caHBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caCloudera Japan
 

Tendances (20)

基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajpImpala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
 
Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Impalaチューニングポイントベストプラクティス
ImpalaチューニングポイントベストプラクティスImpalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
 
HBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caHBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_ca
 

En vedette

Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ Seiji Takahashi
 
Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習圭輔 大曽根
 
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation WrangleConf
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTHiroaki Kudo
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のことHiroaki Kudo
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話Kentaro Yoshida
 
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理圭輔 大曽根
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97圭輔 大曽根
 
マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト圭輔 大曽根
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例圭輔 大曽根
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyHiroaki Kudo
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標圭輔 大曽根
 

En vedette (13)

Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
 
Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習
 
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
 
マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 

Similaire à 「新製品 Kudu 及び RecordServiceの概要」 #cwt2015

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)NTT DATA OSS Professional Services
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)VirtualTech Japan Inc.
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
CloudStackユーザ会 OSC.cloud
CloudStackユーザ会 OSC.cloudCloudStackユーザ会 OSC.cloud
CloudStackユーザ会 OSC.cloudsamemoon
 
Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Junji Nishihara
 
Cassandra における SSD の活用
Cassandra における SSD の活用Cassandra における SSD の活用
Cassandra における SSD の活用Yuji Ito
 
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphere
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphereQuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphere
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphereWataru Unno
 
Apache CloudStack 4.0 インストール(ver0.5)
Apache CloudStack 4.0 インストール(ver0.5)Apache CloudStack 4.0 インストール(ver0.5)
Apache CloudStack 4.0 インストール(ver0.5)Yasuhiro Arai
 
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)オラクルエンジニア通信
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートオラクルエンジニア通信
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...NTT DATA Technology & Innovation
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...オラクルエンジニア通信
 
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon RedshiftAmazon Web Services Japan
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke HiramaInsight Technology, Inc.
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Web Services Japan
 
LagopusとAzureとIPsecとDPDK
LagopusとAzureとIPsecとDPDKLagopusとAzureとIPsecとDPDK
LagopusとAzureとIPsecとDPDKTomoya Hibi
 

Similaire à 「新製品 Kudu 及び RecordServiceの概要」 #cwt2015 (20)

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
 
Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
CloudStackユーザ会 OSC.cloud
CloudStackユーザ会 OSC.cloudCloudStackユーザ会 OSC.cloud
CloudStackユーザ会 OSC.cloud
 
Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Lenovo seminar rancher_200513
Lenovo seminar rancher_200513
 
Cassandra における SSD の活用
Cassandra における SSD の活用Cassandra における SSD の活用
Cassandra における SSD の活用
 
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphere
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphereQuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphere
QuickDemo HashiCorp Terraform with Microsoft Azure and VMware vSphere
 
Apache CloudStack 4.0 インストール(ver0.5)
Apache CloudStack 4.0 インストール(ver0.5)Apache CloudStack 4.0 インストール(ver0.5)
Apache CloudStack 4.0 インストール(ver0.5)
 
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...
[Modern Cloud Day Tokyo 2019] Oracle Cloud (PaaS/IaaS)入門:事例を聞いて使ってみたくなったら ~サー...
 
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
 
HPC on AWS 2020 Summer
HPC on AWS 2020 Summer HPC on AWS 2020 Summer
HPC on AWS 2020 Summer
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
 
LagopusとAzureとIPsecとDPDK
LagopusとAzureとIPsecとDPDKLagopusとAzureとIPsecとDPDK
LagopusとAzureとIPsecとDPDK
 

Plus de Cloudera Japan

分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 

Plus de Cloudera Japan (15)

分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 

Dernier

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Dernier (8)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

「新製品 Kudu 及び RecordServiceの概要」 #cwt2015

  • 1. 1  ©  Cloudera,  Inc.  All  rights  reserved.   新製品Kudu  及びRecordService  の概要 セキュリティ強化  +  ファストデータの⾼高速分析 Amr  Awadallah  |  Cloudera  共同創業者、CTO Twitter:  @awadallah
  • 2. 2  ©  Cloudera,  Inc.  All  rights  reserved.   現在のセキュリティアーキテクチャ:  統⼀一性の⽋欠如  =  限定的なアクセス HDFS Hive ポリシー  A Hive しかしその⼀一⽅方で  ... 細かな制約を サポートするエンジンも存在  ... 統⼀一的でよりきめ細かな ポリシーの提供 RecordService  とは 総合的なアクセスコントロールの適⽤用 MapReduce (テーブルレベル) RecordService (ポリシー適⽤用) Impala Sentry (ポリシー定義) Sentry (ポリシー定義) ... Impala (カラムレベル) HDFS HDFS Spark MR Spark (テーブルレベル)
  • 3. 3  ©  Cloudera,  Inc.  All  rights  reserved.   アジェンダ Kudo  とは?  (動機と⽬目標) ユースケース デザインと内部構造概要   簡単なベンチマーク 現状、そしてこれから始めるには
  • 4. 4  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  とは  ?
  • 5. 5  ©  Cloudera,  Inc.  All  rights  reserved.   Hadoop  の現状のストレージランドスケープ HDFS  の優位点: •  ⼤大量量データの効率率率的なスキャン •  ⾼高スループットでデータを蓄積 HBase  の優位点: •  各⾏行行に対する効率率率的な検索索と書き込み •  データは変更更可能 こうした特性が同時に必要な場合、ギャップ が発⽣生する Hadoop  の   ストレージに 存在する「ギャップ」
  • 6. 6  ©  Cloudera,  Inc.  All  rights  reserved.   •  ⼤大規模なスキャンを⾼高スループットで実⾏行行 •  低レイテンシでランダムアクセスを実⾏行行 •  ⾼高いCPUパフォーマンスを確保するため、RAMと フラッシュの優位性を活⽤用 •  1カラムのスキャンレートを、HBase  の  10~∼100倍⾼高速に •  ⾼高効率率率  I/O •  型独⾃自のエンコーディングによる、カラムストア •  特定のカラムにアクセスする場合の効率率率的な分析 •  叙述的(Expressive)で進化可能なデータモデル •  マルチデータセンター運⽤用が可能なアーキテクチャ Kudu  の設計⽬目標
  • 7. 7  ©  Cloudera,  Inc.  All  rights  reserved.   ハードウェアのランドスケープを変える •  HDD  →  SSD •  NAND  フラッシュ:  iops:  最⼤大  450k  (read),  250k  (write),  スループット:  約  2GB/sec  (read),  1.5GB/sec  (write)   価格は  $3/GB  以下でさらに低下する傾向 •  3D  XPoint  memory  (NAND  の  1,000倍⾼高速。RAMよりも低価格) •  RAM  は価格が低下し、容量量は増加 •  過去の数年年で  64  →  128  →  256GB  以上に 結論 1 : 次のボトルネックは  CPU  に発⽣生する。現状のストレージシステムは CPUの効率率率を考慮して設計されていない 結論 2:  ランダムアクセスには、カラムストアがふさわしい
  • 8. 8  ©  Cloudera,  Inc.  All  rights  reserved.   Kuduの概要 ファストデータに対する⾼高速分析のためのストレージ •  Hadoop向けの新たなカラムストア •  更更新されるデータに対する分析アプリ ケーション構築のためのアーキテクチャを シンプル化 •  ⾼高速分析を実⾏行行するためのデザイン •  Hadoopとネイティブに統合 •  Apacheライセンスオープンソース (ASFインキュベータ提案中) •  ベータ版が利利⽤用可能 ファイルシステム HDFS NoSQL HBASE インジェスト  –  SQOOP,  FLUME,  KAFKA データ統合とストレージ セキュリティ  –  SENTRY リソース管理理  –  YARN 統合データサービス バッチ ストリーム SQL 検索索 モデル オンライン データエンジニアリング データディスカバリと分析 データアプリ SPARK,   HIVE,  PIG SPARK IMPALA SOLR SPARK HBASE リレーショナル KUDU
  • 9. 9  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  を使う •  テーブルは  SQLライクなスキーマを持っている •  無限数のカラム(HBase/Cassandraとは異異なる) •  タイプ:  BOOL,  INT8,  INT16,  INT32,  INT64,  FLOAT,  DOUBLE,  STRING,  BINARY,   TIMESTAMP •  カラムの⼀一部はパッシブリー複合主キー(possibly-‐‑‒composite  primary  key)  を形成 •  ⾼高速  ALTER  TABLE •  Java  および  C++  “NoSQL”  スタイルの  API •  Insert(),  Update(),  Delete(),  Scan() •  MapReduce,  Spark,  and  Impala  との統合 •  乞うご期待! 9  
  • 10. 10  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  は何ではないか •  SQL  インタフェースそのものではない   •  ストレージレイヤに過ぎない  -  「SQLは⾃自分で⽤用意」(例例えば  Impala  や  Spark) •  HDFS上で稼働するアプリケーションではない •  ネイティブな  Hadoop  ストレージエンジン •  HDFSと共存させるのが望ましい •  HDFSやHBase  を置き換えるものではない •  適切切なユースケースに適切切なストレージを選択 •  Cloudera  はこれらを引き続きサポート、投資する
  • 11. 11  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  のユースケース
  • 12. 12  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  ユースケース Kudu  は、シーケンシャルとランダム  READ/WRITE  を同時に組み合わせて使⽤用する といったユースケースに最適。例例えば: ●  時系列列 ○  例例:  ストリームマーケットデータ、不不正アクセス検知・防御、リスクモニタリング ○  ワークロード:  Insert,  Update,  Scan,  Lookup ●  マシンデータの分析 ○  例例:  ネットワークへの侵⼊入の検知 ○  ワークロード:  Insert,  Scan,  Lookup ●  オンラインレポーティング ○  例例:  ODS ○  ワークロード:  Insert,  Update,  Scan,  Lookup
  • 13. 13  ©  Cloudera,  Inc.  All  rights  reserved.   業界適⽤用例例 •  ストリーミングマーケット データ •  リアルタイム不不正検知と防御 •  リスクモニタリング •  リアルタイム商品提案 •  ローケーションベース ターゲティング •  地理理空間モニタリング •  リスクおよび侵⼊入の検知 (リアルタイム) ⾦金金融サービス ⼩小売 公共
  • 14. 14  ©  Cloudera,  Inc.  All  rights  reserved.   現在の  Hadoop  のリアルタイム分析 実世界における不不正検知  =  ストレージが複雑になりがち 考慮点: ●  プロセス実⾏行行中に障害が発⽣生した 場合の対処⽅方法は? ●  レポーティング⽤用フォーマットに、 どの程度度の頻度度でストリーミング データを再構成し投⼊入すればよい のか? ●  レポーティングする場合、データ がまだ再構成されていないことを どう確認すればよいのか? ●  重要なジョブがメンテナンスで 停⽌止しないようにするには? 新規のパーティション 直近⽤用のパーティション 過去データ HBase Parquet   File ⼗十分にデータが 蓄積されたか  ? HBase  ファイル をParquet  に 再構成 •  実⾏行行処理理の完了了を待機 •  新しく書き込まれた  Parquet  ファイルを 参照し、新規  Impalaパーティションを定義 ⼊入⼒力力データ   (メッセージング システム) レポーティング リクエスト Impala  on  HDFS
  • 15. 15  ©  Cloudera,  Inc.  All  rights  reserved.   Kuduを使⽤用したHadoop  のリアルタイム分析 ハイブリッドアプリーチに⽐比べ、シンブルでより優れたパフォーマンスのアーキテクチャ Impala  on  Kudu ⼊入⼒力力データ  (メッセージング システム) レポーティング リクエスト
  • 16. 16  ©  Cloudera,  Inc.  All  rights  reserved.   デザインと内部構造
  • 17. 17  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  の基本的なデザイン •  型付けされた  (typed)  ストレージ •  基本構造:  テーブル   •  テーブルはタブレットに分解される  (ほぼパーティションと同義) •  Paxos  に似たクォーラムモデル  (Raft)  により、⼀一貫性を維持 •  地理理的に離離れた、アクティブ/アクティブなシステムをサポートするアーキテクチャ
  • 18. 18  ©  Cloudera,  Inc.  All  rights  reserved.   テーブルとタブレット •  テーブルはパーティションに⽔水平分割される •  範囲パーティショニング  または  ハッシュパーティショニング •  プライマリキー(ホスト、メトリック、タイムスタンプ)は、ハッシュ(タイムスタンプ)により 100以上のバケットに分散 •  各タブレットは  Raft  コンセンサスで、N個(3または5)の複製を持つ •  任意のレプリカからの読み込み、低いMTTRでリーダ主導の書き込みが可能 •  タブレットサーバがタブレットを保持する •  データはローカルディスクに保存(HDFSは不不要) 18  
  • 19. 19  ©  Cloudera,  Inc.  All  rights  reserved.   クライアント メタキャッシュ
  • 20. 20  ©  Cloudera,  Inc.  All  rights  reserved.   Client   Meta  Cache   「todd@cloudera.com  の⾏行行はテーブルTのど こにありますか?」(Masterに尋ねる)
  • 21. 21  ©  Cloudera,  Inc.  All  rights  reserved.   クライアント メタキャッシュ 「todd@cloudera.com  の⾏行行はテーブルTのど こにありますか?」(Masterに尋ねる) サーバ  {Z,Y,X}  の  タブレット2にあります。 さらに、他のタブレット:T1,T2,T3,  ...  についての情 報もあります
  • 22. 22  ©  Cloudera,  Inc.  All  rights  reserved.   クライアント 「todd@cloudera.com  の⾏行行はテーブルTのど こにありますか?」(Masterに尋ねる) サーバ  {Z,Y,X}  の  タブレット2にあります。 さらに、他のタブレット:T1,T2,T3,  ...  についての情 報もあります メタキャッシュ T1:  … T2:  … T3:  …
  • 23. 23  ©  Cloudera,  Inc.  All  rights  reserved.   クライアント UPDATE   todd@cloudera.com   SET  … メタキャッシュ T1:  … T2:  … T3:  … 「todd@cloudera.com  の⾏行行はテーブルTのど こにありますか?」(Masterに尋ねる) サーバ  {Z,Y,X}  の  タブレット2にあります。 さらに、他のタブレット:T1,T2,T3,  ...  についての情 報もあります
  • 24. 24  ©  Cloudera,  Inc.  All  rights  reserved.   タブレットのデザイン •  インメモリストアにInsertがバッファされる(HBaseの  memstore  と同様) •  ディスクにフラッシュ •  カラムナレイアウト、Apache  Parquet  に類似 •  MVCC  を使ってアップデート(タイムスタンプでタグをアップデート:  in-‐‑‒place  ではない) •  “SELECT  AS  OF  <timestamp>”  クエリを許可、またタブレットスキャン全体で整合性を維持 •  “current  time”  スキャンにほぼ最適な  READパス •  ⾏行行毎の分岐がなく、⾼高速なベクトル化でコーディングと術語評価  (predicate  evaluation) •  直近のアップデート数に応じてパフォーマンスが劣劣化 24  
  • 25. 25  ©  Cloudera,  Inc.  All  rights  reserved.   メタデータ •  マスタは複製される  (Replicated  master)  * •  タブレットのディレクトリとして機能  (“META”  テーブル) •  カタログとして機能(テーブルスキーマなど) •  ロードバランサーとして機能(TS  の⽣生存を追跡、レプリケーション中の タブレットの再レプリケーション) •  パフォーマンス確保のためすべてのメタデータをRAMにキャッシュ •  80ノードによるロードテスト、GetTableLocations  RPC  のパフォーマンス: •  99パーセンタイル:68us、99.99パーセンタイル:657us   •  CPU使⽤用率率率はピークで  2%  未満 •  マスタのアドレスをクライアントに設定 •  必要に応じてマスタにタブレットの場所を問い合せてキャッシュする 25  
  • 26. 26  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  のトレードオフ •  ランダムアクセスの速度度劣劣化 •  HBase  モデルは、ディスクシーク無しにランダムアップデートが可能 •  Kudu  はアップデート前のキー検索索、インサート前の  Bloom検索索が必要 •  1⾏行行だけの  READ  速度度が劣劣化する場合がある •  カラムナはスキャンに対して最低化されたデザインになっている •  今後:  1⾏行行だけのアクセスが重要がアプリケーションのために、カラムグループ  (Column  groups)  を提供予定
  • 27. 27  ©  Cloudera,  Inc.  All  rights  reserved.   ベンチマーク
  • 28. 28  ©  Cloudera,  Inc.  All  rights  reserved.   TPC-‐‑‒H(分析向けベンチマーク) •  75TS  +  1  マスタクラスタ •  各クラスタに  12  のハードドライブとデータセットに⼗十分なRAMを搭載 •  Kudu  0.5.0、Impala  2.2  with  Kudu  support、CDH  5.4  を使⽤用 •  TPC-‐‑‒H  Scale  Factor  100  (100GB) •  サンプルクエリ:   •  SELECT n_name, sum(l_extendedprice * (1 - l_discount)) as revenue FROM customer, orders, lineitem, supplier, nation, region WHERE c_custkey = o_custkey AND l_orderkey = o_orderkey AND l_suppkey = s_suppkey AND c_nationkey = s_nationkey AND s_nationkey = n_nationkey AND n_regionkey = r_regionkey AND r_name = 'ASIA' AND o_orderdate >= date '1994-01-01' AND o_orderdate < '1995-01-01’ GROUP BY n_name ORDER BY revenue desc; 28  
  • 29. 29  ©  Cloudera,  Inc.  All  rights  reserved.   -‐‑‒  RAM上のデータに対して、Kudu  が  Parquet  を  31%  上回る(幾何平均) -‐‑‒  HDD内のデータ(より⼤大きな  I/Oリクエスト)に対しては、Parquet  が  Kudu  を上回ると想定される
  • 30. 30  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Phoenix  の場合 •  10  ノードクラスタ(9  ワーカ、  1  マスタ) •  HBase  1.0、Phoenix  4.3 •  TPC-‐‑‒H  LINEITEM  テーブルのみ  (六六⼗十億⾏行行) 30   2152   219   76   131   0.04   1918   13.2   1.7   0.7   0.15   155   9.3   1.4   1.5   1.37   0.01   0.1   1   10   100   1000   10000   Load   TPCH  Q1   COUNT(*)   COUNT(*)   WHERE…   single-­‐row   lookup   時間  (秒) Phoenix   Kudu   Parquet  
  • 31. 31  ©  Cloudera,  Inc.  All  rights  reserved.   NoSQL  スタイルランダムアクセス  (YCSB) •  YCSB  0.5.0-‐‑‒スナップショット •  10  ノードクラスタ (9  ワーカ、1  マスタ) •  HBase  1.0 •  ⼀一億⾏行行、⼗十億ops 31  
  • 32. 32  ©  Cloudera,  Inc.  All  rights  reserved.   Xiaomi  ユースケース •  モバイルアプリやバックエンドサービスから、重要な  RPC  トレーシングイベントを収集 •  サービスモニタリングおよびトラブルシューティング⽤用ツール •  優れた  WRITE  スループット •  1⽇日  50  億超のレコード、さらに成⻑⾧長中 •  最新データをクエリし、素早く応答 •  問題を迅速に特定し解決することが可能 •  個別レコードの検索索が可能 •  容易易なトラブルシューティング
  • 33. 33  ©  Cloudera,  Inc.  All  rights  reserved.   ビッグデータ分析パイプライン Kudu  以前 •  ロングパイプライン ⼤大きなレイテンシ(1時間~∼1⽇日)、データ変換がネック •  順序付けがない ログの到着(ストレージ)順序がそのまま論論理理的な順番とは限らない 例例えば、1⽇日のログ確認に2~∼3⽇日のログの読み込みが必要
  • 34. 34  ©  Cloudera,  Inc.  All  rights  reserved.   ビッグデータ分析パイプライン Kudu  による簡素化 •  ETL  パイプライン  (0~∼10秒のレイテンシ) バックプレッシャーを避ける必要がある、あるいは  ETLが必要なアプリ •  ダイレクトパイプライン(レイテンシなし) ETLを必要としないバックプレッシャーの問題のないアプリ   OLAP  スキャン サイドテーブル検索索 結果のストア
  • 35. 35  ©  Cloudera,  Inc.  All  rights  reserved.   ユースケース1:ベンチマーク 環境 •  71  ノードクラスタ •  ハードウェア •  CPU:  E5-‐‑‒2620  2.1GHz  *  24  core    Memory:  64GB   •  ネットワーク:  1Gb    ディスク:  12  HDD •  ソフトウェア •  Hadoop2.6/Impala  2.1/Kudu データ •  サーバ側の  1⽇日のトレースデータ •  最⼤大  26億⾏行行 •  最⼤大  270  byte/⾏行行 •  列列:17,  キー列列:5
  • 36. 36  ©  Cloudera,  Inc.  All  rights  reserved.   ユースケース1:  ベンチマーク結果   1.4     2.0     2.3     3.1     1.3     0.9    1.3     2.8     4.0     5.7     7.5     16.7     Q1   Q2   Q3   Q4   Q5   Q6   kudu   parquet   合計時間(s) スループット(合計) スループット(ノードあたり) Kudu 961.1 2.8M  record/s 39.5k  record/s Parquet 114.6 23.5M  record/s 331k  records/s Impala  を使⽤用したバルクロード  (INSERT  INTO):   クエリレイテンシ: *  HDFS  Parquet  ファイルレプリケーション  =  3、kudu  テーブルレプリケーション  =  3 *  各クエリを5回実⾏行行した平均値
  • 37. 37  ©  Cloudera,  Inc.  All  rights  reserved.   現状、そしてこれから始めるには
  • 38. 38  ©  Cloudera,  Inc.  All  rights  reserved.   現状 ✔ アーキテクチャのコアとなるコンポーネントはすべて完了了 ✔ Java  と  C++  API ✔ Impala、MapReduce  および  Spark  の統合 ✔ SSD  と  HDD  をサポート ✔ フォールトリカバリ ✔ パブリックベータ利利⽤用可能
  • 39. 39  ©  Cloudera,  Inc.  All  rights  reserved.   これから始めるには ユーザー: ベータをインストールまたは  VMで試す: getkudu.io サポートは: kudu-‐‑‒user@googlegroups.com ホワイトペーパー: getkudu.io/kudu.pdf 開発者: コントリビューション: github.com/cloudera/kudu  (コミット) gerrit.cloudera.org  (レビュー) issues.cloudera.org  (JIRA  は2013年年) 開発者リストに参加: kudu-‐‑‒dev@googlegroups.com コントリビューションを歓迎しています!
  • 40. 40  ©  Cloudera,  Inc.  All  rights  reserved.   ご静聴ありがとうございました
  • 41. 41  ©  Cloudera,  Inc.  All  rights  reserved.   Appendix  
  • 42. 42  ©  Cloudera,  Inc.  All  rights  reserved.   Fault  tolerance   •  Transient  FOLLOWER  failure:   • Leader  can  s]ll  achieve  majority   • Restart  follower  TS  within  5  min  and  it  will  rejoin  transparently   •  Transient  LEADER  failure:   • Followers  expect  to  hear  a  heartbeat  from  their  leader  every  1.5  seconds   • 3  missed  heartbeats:  leader  elec]on!   •  New  LEADER  is  elected  from  remaining  nodes  within  a  few  seconds   • Restart  within  5  min  and  it  rejoins  as  a  FOLLOWER   •  N  replicas  handle  (N-­‐1)/2  failures   42  
  • 43. 43  ©  Cloudera,  Inc.  All  rights  reserved.   Fault  tolerance  (2)   •  Permanent  failure:   • Leader  no]ces  that  a  follower  has  been  dead  for  5  minutes   • Evicts  that  follower   • Master  selects  a  new  replica   • Leader  copies  the  data  over  to  the  new  one,  which  joins  as  a  new  FOLLOWER   43  
  • 44. 44  ©  Cloudera,  Inc.  All  rights  reserved.   LSM  vs  Kudu   •  LSM  –  Log  Structured  Merge  (Cassandra,  HBase,  etc)   • Inserts  and  updates  all  go  to  an  in-­‐memory  map  (MemStore)  and  later  flush  to   on-­‐disk  files  (HFile/SSTable)   • Reads  perform  an  on-­‐the-­‐fly  merge  of  all  on-­‐disk  HFiles   •  Kudu   • Shares  some  traits  (memstores,  compac]ons)   • More  complex.   • Slower  writes  in  exchange  for  faster  reads  (especially  scans)   44  
  • 45. 45  ©  Cloudera,  Inc.  All  rights  reserved.   Kudu  storage  –  Compac]on  policy   •  Solves  an  op]miza]on  problem  (knapsack  problem)   •  Minimize  “height”  of  rowsets  for  the  average  key  lookup   • Bound  on  number  of  seeks  for  write  or  random-­‐read   •  Restrict  total  IO  of  any  compac]on  to  a  budget  (128MB)   • No  long  compac7ons,  ever   • No  “minor”  vs  “major”  dis7nc7on   • Always  be  compac]ng  or  flushing   • Low  IO  priority  maintenance  threads   45  

Notes de l'éditeur

  1. Monash Feedback Names: Flow, streaming, gateway