SlideShare une entreprise Scribd logo
1  sur  47
Télécharger pour lire hors ligne
1
CDH最新情報
Kiyoshi  Mizuamru  |  Systems  Engineer
Cloudera  World  Tokyo  2013
⾃自⼰己紹介
•  ⽔水丸淳(みずまるきよし)
•  email:  maru@cloudera.com
•  2013年年2⽉月にCloudera株式会社⼊入社
•  プリセールス段階の技術対応を担当
•  2010年年6⽉月からとある研究所のプロジェクトでHadoop対抗となる
分散フレームワークの開発に従事
•  Hadoopとの関わりは3年年⽬目
2
本⽇日のアジェンダ
•  CDHとは
•  CDH開発の歴史
•  CDH4
•  CDH5ではこう変わる
3
4
ビッグデータに取り組むためのプラットフォーム
CDHとは
CDHとは何か
•  Clouderaʼ’s  Distribution  including  Apache  Hadoop
•  エンタープライズ向けに開発された100%オープンソースの
Hadoopディストリビューション
•  Apache  Hadoopを中⼼心としたオープンソースコンポーネント
(CDH4.4現在)
5
CDHで実現するビッグデータプラットフォーム
6
CDH概念念図
•  総てのデータを集約
•  その上に様々な処理理
を乗せる
7
統合
ストレージ
リソース管理理
メタデータ
バッチ
処理理
MAPREDUCE,  
HIVE,  PIG
インタラク
ティブ
SQL
CLOUDERA  
IMPALA
インタラク
ティブ
サーチ
CLOUDERA  
SEARCH
機械学習
MAHOUT,  
DATAFU
…
CDHを採⽤用する理理由
8
ポイント ユーザにもたらされるメリット
パッケージ化済み 他のどの形態のHadoopよりはるかに簡単にインストールすることがで
きます
パッチ適⽤用済み Apacheブランチをただダウンロードするよりも安定かつセキュアにし
てくれます
実績の証明済み 数千もの組織が既にCDHを使っているため、利利⽤用リスクが低くなって
います
⾼高機能 CDHはより多くのユースケースをカバーし、ユーザはコアのHadoopだ
けを使っていたときよりも⽣生産性を向上できます
統合済み 全体を把握するための時間を節約し、バージョン間あるいはパッチ間
依存に基づく障害のリスクを減らします
標準と認められている 既に多額の投資をしているRDBMS,  ETL,  そしてBIなどとCDHは最も
うまく連携できます
サポートあり CDHは商業組織が⽀支援しているディストリビューションです
100%  Apacheライセンス この技術への投資は保障されています
CDH開発の歴史
9
2009 2010 2011 2012 2012/06 2012/09 2013 2013/02 2013/05 2013/09
CDH3
Q2  2011
CDH4
2012/06
•  ⾼高可⽤用性ネームノード(NFS)
•  複数のデータ処理理フレームワーク
(MR1とMR2)
CDH4.1
2012/09
•  ⾼高可⽤用性ネームノード
(QJM)
CDH4.2
2013/02
•  ジョブトラッカーHA
•  HBaseスナップショット
CDH4.3
2013/05
•  データノードディスク間
バランシング
•  HueにPigエディタ搭載
CDH1
Q3  2009
CDH2
Q1  2010
CDH4.4
2013/09
•  ロールベースの認可
CDHバージョンの意味
10
•  CDH3以前:CDH3u0,  CDH3u1,  CDH3u2  …
•  2013/06/20にメンテナンス終了了済み(EOM)
•  CDH4以降降:CDH  X.Y.Z
•  X:メジャーバージョン(⼤大規模な変更更を含む)
•  Y:マイナーバージョン(CDH3以前のupdateに相当)
•  Z:ポイントバージョン(重⼤大なバグ修正のみ)
•  最新のリリース版はCDH4.4.0
CDH5ではこう変わる
主要な変更更について
おねがい
•  CDH  5  Release  Notesを読みましょう
•  ここではすべての変更更点をカバーしません
•  β版のドラフトから正式リリースまでに更更新される可能性あり
•  Release  Notesのセクション構成
•  New  Features  in  CDH5
•  Incompatible  Changes
•  Known  issues  in  CDH5
•  Release  Notesの配布場所
•  https://www.cloudera.com/content/cloudera-‐‑‒content/cloudera-‐‑‒
docs/CDH5/latest/CDH5-‐‑‒Release-‐‑‒Notes/CDH5-‐‑‒Release-‐‑‒
Notes.html
12
CDH  5.0.0  β1  コンポーネント⼀一覧
13
CDH  5.0.0  β1 CDH  4.4.0
Apache  Avro avro-‐‑‒1.7.4+3
Apache  Hadoop  2.0 hadoop-‐‑‒2.2.0+353 2.0.0+1475
Apache  DataFu pig-‐‑‒udf-‐‑‒
datafu-‐‑‒0.0.4+12
0.0.4+22
Apache  Flume flume-‐‑‒ng-‐‑‒1.4.0+44 1.4.0+23
Apache  HBase hbase-‐‑‒0.95.2+272 0.94.6+132
HBase  Solr hbase-‐‑‒solr-‐‑‒1.2+16
Apache  Hive hive-‐‑‒0.11.0+483 0.10.0+198
Apache  Mahout mahout-‐‑‒0.8+27 0.7+21
Apache  Oozie oozie-‐‑‒4.0.0+54 3.3.2+92
Apache  Pig pig-‐‑‒0.11.0+46 0.11.0+33
Apache  Sentry  (incubating) sentry-‐‑‒1.2.0+10 1.1.0
CDH  5.0.0  β1  コンポーネント⼀一覧・続き
14
CDH  5.0.0  β1 CDH  4.4.0
Apache  Solr solr-‐‑‒4.4.0+98
Apache  Sqoop sqoop-‐‑‒1.4.4+20 1.4.3+62
Apache  Sqoop  2 sqoop2-‐‑‒1.99.2+105 1.99.2+85
Apache  Whirr whirr-‐‑‒0.8.2+19 0.8.2+15
Apache  ZooKeper zookeeper-‐‑‒3.4.5+25 3.4.5+23
Parquet parquet-‐‑‒1.0.0+7
Cloudera  Development  Kit cdk-‐‑‒0.7.0+3
Cloudera  Hue hue-‐‑‒3.0.0+266 2.5.0+139
Cloudera  Impala impala-‐‑‒1.2.0+0 1.1.1
Cloudera  Llama llama-‐‑‒1.0.0+0
Cloudera  Search search-‐‑‒1.0.0+0 1.0.0
Java対応
•  CDH5はOracle  JDK  1.7をサポートします
•  CDH5ではJDK  1.7でコンパイルされたアプリケーションをサポート
•  CDH5  Beta1の検証バージョンはJDK  1.7.0_̲25
•  すべてのコンポーネントにおいて上記バージョンでテストを実施
•  CDH5ではJDK  1.6はノンサポートです
•  Oracle  JDK  1.7に移⾏行行をお願いします
15
MapReduce  2.0の正式サポート
•  YARNでMapReduce以外のジョブも効率率率的に
•  YARN(Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator)
•  JobTracker+TaskTrackerを置き換え
•  JobTrakerの持っていた以下の機能を分離離
•  リソース管理理
•  ジョブスケジューリング/モニタリング
16
MapReduce  1.0のおさらい
17
Job  Client
Submit	
  Job JobTracker
TaskTracker
Map  Slot
Reduce  Slot
TaskTracker TaskTracker TaskTracker
TaskTracker TaskTracker TaskTracker TaskTracker
YARNのアーキテクチャ
18
Client
Submit	
  Application
ResourceManager
NodeManager
Client
AppMaster
Container
NodeManager
Cotainer
AppMaster
NodeManager
Container
Container
NodeManager
Container
ContainerCotainer
Container
YARNのアーキテクチャ
•  クラスタ全体でただひとつのResourceManager(RM)
•  ⾼高可⽤用性対応済み
•  アプリケーションごとに存在するApplicationManager  (AM)
•  フレームワーク固有のライブラリ
•  ResourceManagerから割り当てられたリソースで動作する
•  NodeManagerと協⼒力力してタスクを実⾏行行・モニタリングする
•  ノードごとに存在するNodeManager(NM)
•  MapReduce  2.0では
•  ResourceManagerとApplicationMasterがJobTrackerを置き換える
•  NodeManagerがTaskTrackerを置き換える
19
MapReduce  1.0のサポートも継続
•  MRv1かMRv2のどちらかを選択
•  MRv1とYARNのプロセスを同時に実⾏行行することはノンサポート
•  CDH5のMRv1では若若⼲干のAPI変更更あり
•  Hadoop  2.0.0との互換性維持のため
•  CDH4で利利⽤用していたMRv1アプリケーションをCDH5  MRv1で利利⽤用す
るためにはリコンパイルが必要
•  CDH5上でMRv1からMRv2への移⾏行行はリコンパイル不不要
20
⾮非推奨プロパティ
•  Hadoop  2.0.0以降降で多くのプロパティが廃⽌止予定に
•  HadoopとHDFSに関連するもの
•  CDH5のMRv1では引き続き動作します
•  これらを置き換える新しい  mapreduce*  プロパティは
CDH5のMRv1では動作しません
•  廃⽌止予定のプロパティのリスト
•  http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-‐‑‒
project-‐‑‒dist/hadoop-‐‑‒common/DeprecatedProperties.html
21
Apache  Flume新機能
•  Twitter  Sourceの追加
•  FLUME-‐‑‒2190
•  Twitterからデータを取得する
•  HTTP  SourceのHTTPS対応
•  FLUME-‐‑‒2109
22
Apache  HBase新機能
•  Hadoop  2.0対応
•  MTTRの改善
•  互換性の向上とアップグレードのしやすさの改善
•  スナップショット対応
•  CDH4.2/HBase0.94へバックポート済み
•  オンラインでのリージョンマージ
•  REST  proxyサーバでのセキュリティ、機能改善
23
Apache  HBase管理理に関係する機能
•  サーバ間のネットワークを通りHBaseファイルフォーマット
で読み書きされるデータは拡張可能なProtoBufエンコーディ
ングでシリアライズされるように変更更
•  将来の拡張で互換性を維持しやすくなることを期待
•  以前のバージョンとの互換性は維持できない
•  ネームスペースのサポート
•  テーブルをいくつかの管理理ドメインにまとめる
•  管理理者に特定のネームスペースの権限を付与する
24
Apache  HBase障害に関係する機能
•  MasterからRS/Clientへのコストなしでの通知
•  MasterからClientへマルチキャストコネクションを張る
•  あるRSがMasterにより異異常と認識識されたとき、Masterからマル
チキャストメッセージを送出することでClientはソケットタイム
アウトまで待たずにRSの異異常に気付くことができる
•  .META.,  -‐‑‒ROOT-‐‑‒専⽤用のHLog  .metaの導⼊入
•  サーバクラッシュ時にメタ情報を優先的に回復復
•  試験的な機能
•  分散ログリプレイ
•  リージョンとノードのマッピングを参照/編集するツール
25
Apache  HBaseデータ保護に関係する機能
•  レプリケーション機能のバグ修正
•  レプリケーションの信頼性を向上(HBASE-‐‑‒9373)
•  循環レプリケーションの深刻なバグを修正(HBASE-‐‑‒9158)
•  スナップショット対応
•  オンラインスナップショット
•  ディレクトリ名を.snapshotから.hbase_̲snapshotsへ変更更
•  CopyTableの機能強化
•  startRow,  stopRowオプションの追加
•  Import  MapReduceジョブの機能強化
•  取り込むデータにフィルターをかけることが可能に
26
Apache  HBase注意すべき変更更点
•  CDH5  HBase(Apache  HBase  0.95.2/0.96.xに基づく)
とCDH4  HBase(同0.92/0.94に基づく)とで通信に互換
性がありません
•  CDH  5  HBaseへのローリングアップグレードはできません
•  HBaseを完全に停⽌止させる必要があります
•  -‐‑‒ROOT-‐‑‒の廃⽌止
•  .META.の場所はZooKeeperに直接格納
•  TotalOrderPartitonerの廃⽌止
•  ネームスペース導⼊入に伴うディレクトリ構成の変更更
•  HFile  v1はサポートされなくなりました
27
Apache  HDFS新機能
•  mmapを利利⽤用したHDFSローカルリード
•  HDFS  RW/ROスナップショット
•  HDFSへのNFSv3インターフェース
•  ファイル単位のHDFSアドバイザリ・キャッシング
•  WebHdfsFileSystemでのフェイルオーバーとリトライ
•  HdfsFileStatusでディレクトリの⼦子供の数を取得
•  INodeIdからINodeへのマッピング
•  DistributedFileSystemのCreate  API拡張によるブロック配置
を優先的に⾏行行うDataNode指定
28
Apache  HDFS変更更点
•  ファイルに実⾏行行属性ビットが付与できるように
•  CDH5ではcopyToLocalで持ってきたファイルに実⾏行行属性が付いている
場合がある
•  ランダムに⽣生成されていたブロックIDがシーケンシャル
に⽣生成されるように
•  HDFSバランサーコマンドの終了了コードの変更更
•  成功すると1が返る
•  それまでは0が返っていた
•  スクリプトで運⽤用している場合は要注意
29
Cloudera  Hue新機能
•  Sqoop  App
•  データベースとHDFSの間でデータを簡単にエクスポート・インポート
•  ウィザードでジョブを作成、ダッシュボードから進捗状況とログの参照
•  ZooKeeper  App
•  Znode階層構造・ZooKeeperクラスタのブラウジング
•  Znodeの追加・削除・編集と複数クラスタの管理理
•  Pig  Editor,  HBase  Browser,  Sqoop  App
•  Hue  Shellは廃⽌止されて上記アプリケーションで置き換え
30
Cloudera  Hue変更更点
•  画⾯面レイアウトの再設計
•  ⾼高可⽤用性JobTracker対応の強化
•  HiveServer2の採⽤用
•  Beeswaxデーモンから置き換え
•  CDH5のHueはHiveServer2にしか対応しない
•  Djangoバックエンドを1.2から1.4に
•  SAML認証によるシングルサインオン
31
Cloudera  Hue変更更点・続き
•  ドキュメントモデルの改善
•  Hive/Impalaのクエリ画⾯面にメタストア情報を統合
•  メタストア情報の詳細な表⽰示
•  Hueの機能紹介をするミニツアーの追加
•  Hue  Shell  Appの完全な廃⽌止
•  YARNがデフォルトに
32
Apache  Hive・HCatalog新機能
•  テーブルのTRUNCATE対応
•  HIVE-‐‑‒466
•  LEAD/LAG/FIRST/LAST関数の追加
•  Hiveで利利⽤用可能な分析⽤用ウィンドウ関数の充実
•  HIVE-‐‑‒896
•  DECIMALデータ型の追加
•  HIVE-‐‑‒2693
•  ALTER  VIEW  AS  SELECT構⽂文の追加
•  HIVE-‐‑‒3834
33
Apache  Hive・HCatalog変更更点
•  メタストアバージョンの⼀一貫性チェック
•  HIVE-‐‑‒3764
•  ORDER  BYのパラレル実⾏行行サポート
•  HIVE-‐‑‒1402
•  相関検出・最適化のための新しいオプティマイザ
•  HIVE-‐‑‒2206
•  GROUP  BYの構造体サポート
•  HIVE-‐‑‒2517
•  HQLによる関数定義のサポート
•  HIVE-‐‑‒2655
34
Apache  Hive変更更点
•  CDH5  β1のHiveバージョンは0.11
•  Hive  0.11へアップグレードするためにはメタストアのスキーマアップ
グレードが必要
•  新しいバージョンのHiveを使い始める前にメタストアのアップグレード
を
•  忘れるとメタストア破壊に繋がるので特に注意を
•  CDH5に含まれる新しいschematool
•  メタストアスキーマをオフラインでアップグレードするための推奨ツール
•  JDBCアプリケーションとHiveServer2
•  HiveServer2に接続するためには新しいCDH5  JDBCパッケージが必要
•  アプリケーションの再コンパイルは必要なし
•  CDH5  HueはCDH4のHiveServer2とは互換性なし
35
Cloudera  Impala新機能
•  UDF対応
•  ImpalaをETL/ELTパイプラインに組み込みことが容易易に
•  これまではUDFを使⽤用するときはHiveに頼らざるを得なかった
•  スカラUDFに加えてユーザ定義の集約関数も実⾏行行可能
•  C++で記述された関数の実⾏行行サポート
•  Javaで記述された既存のHive関数の実⾏行行サポート
•  CREATE  FUNCTION⽂文によるUDFの作成
•  DROP  FUNCTION⽂文によるUDFの削除
36
Cloudera  Impala新機能
•  メタデータの⾃自動伝搬
•  INVALIDATE  METADATA,  REFRESHの必要性が減ります
•  Impalaノードから実⾏行行されたCREATE  TABLE,  ALTER  TABLE,  
DROP  TABLE,  INSERT,  LOAD  DATAに起因するメタデータは他
のImpalaノードに⾃自動的に伝搬していく
•  Hiveから加えられたメタデータの変更更については引き続き
INVALIDATE  METADATA,  REFRESHの操作が必要
•  catalogdデーモンにより実現
37
Cloudera  Impala新機能
•  YARNリソース管理理フレームワークとの統合
•  CDH5でのみ
•  LlamaがYARNに対してリソースを要求、必要なリソースが確保
できたときにのみImpalaクエリを実⾏行行
•  テーブルの統計情報取得を怠ると正しいリソースの⾒見見積もりが出
せないので注意
•  EXPLAIN出⼒力力の詳細化
•  EXPLAIN_̲LEVELオプションの新設
•  リソース消費の⾒見見込み量量を表⽰示
•  テーブル・カラムの統計情報有無を表⽰示
38
Cloudera  Llama
•  Long-‐‑‒Lived  Application  MAster
•  YARNがフォーカスしているのはバッチ処理理
•  Impalaの低レイテンシクエリではImpalaの起動コストは無視できない
•  キューごとにAMを事前に起動しておいて使い回す
•  ImpalaとYARNの間でリソースの調停を⾏行行う
•  Hadoopクラスタ内のリソースの確保、利利⽤用、解放をImpalaから実⾏行行
•  Impalaでリソース管理理を有効にしているときだけ必要
39
Apache  Mahout新機能
•  Vector,  Matrixの実装とAPIの変更更によるパフォーマンスの改善
•  レコメンダーの実装変更更によるパフォーマンスの改善
•  バイアス有りのアイテムベースレコメンダをサポート
•  SGD⾏行行列列の因⼦子分解
•  SVD++のサポート
•  LuceneストレージインデックスからSequenceFileへの変換
•  k-‐‑‒meansのストリーミング実装によるオンラインクラスタリング
•  ⾏行行列列の結合ユーティリティ
40
Apache  MapReduce  2.0(YARN)新機能
•  ResourceManagerの⾼高可⽤用性対応
•  複数のResourceManagerを利利⽤用することでSPOFを回避
•  実⾏行行中のジョブは完了了済みのタスクを再実⾏行行することなく回復復可能
•  リソース管理理
•  cgroupsを利利⽤用したメモリ・CPU使⽤用量量のモニタリングと制限
•  継続的スケジューリング
•  ノードのハートビートと切切り離離すことで⼤大規模クラスタでのパフォーマ
ンスを改善
41
Apache  Oozie新機能
•  ⾼高可⽤用性対応
•  Oozieサーバを複数利利⽤用してサービスを提供
•  スケーラビリティも同時に実現
•  HCatalogの統合
•  コーディネータでHCatalogテーブルのパーティションを依存関係の中
に組み込むことが可能に
•  SLAモニタリング
•  ジョブを監視してSLAを満⾜足した、満たせなかった、について通知を送
ることが可能に
•  JMS通知
•  JMSプロバイダに対してジョブの状態やSLAイベントを通知可能
42
Apache  Oozie変更更点
•  Oozie共有ライブラリ
•  CDH5  Beta  1パッケージで提供されるものに置き換えが必要
•  Oozieデータベース
•  データベースのアップグレードが必要
•  Oozieクライアント
•  CDH4.xのクライアントはCDH5.xのOozieサーバと互換性なし
•  すべてのOozieクライアントをアップデートしてください
43
44
補⾜足資料料
CDH4  コンポーネント⼀一覧
45
CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0
DataFu 0.0.4+14 0.0.4+17 0.0.4+20 0.0.4+22
Flume 1.2.0+142 1.3.0+97 1.3.0+161 1.4.0+23
Hadoop 2.0.0+573 2.0.0+968 2.0.0+1369 2.0.0+1475
HBase 0.92.1+176 0.94.2+228 0.94.6+107 0.94.6+132
HCatalog 0.4.0+219 0.5.0+11 0.5.0+13
Hive 0.9.0+161 0.10.0+84 0.10.0+135 0.10.0+198
Mahout 0.7+14 0.7+17 0.7+19 0.7+21
MR1 0.20.2+1281 0.20.2+1361 0.20.2+1369 0.20.2+1475
Oozie 3.2.0+140 3.3.0+83 3.3.2+54 3.3.2+92
Pig 0.10.0+64 0.10.0+511 0.11.0+30 0.11.0+33
CDH4  コンポーネント⼀一覧・続き
46
CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0
Sqoop 1.4.1+60 1.4.2+61 1.4.3+36 1.4.3+62
Sqoop2 1.99.1+34 1.99.1+117 1.99.2+85
Whirr 0.8.0+24 0.8.0+27 0.8.2+13 0.8.2+15
ZooKeeper 3.4.3+35 3.4.5+17 3.4.5+21 3.4.5+23
Sentry 1.1.0 1.1.0
Cloudera  Hue 2.1.0+226 2.2.0+198 2.3.0+140 2.5.0+139
Cloudera  Impala 1.1.1 1.1.1
Cloudera  Search 1.0.0 1.0.0
47

Contenu connexe

Tendances

Tendances (20)

CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
 
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj20145分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービュー
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
 
Impalaチューニングポイントベストプラクティス
ImpalaチューニングポイントベストプラクティスImpalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
 

En vedette

AnalyzingMovieData and Business Intelligence
AnalyzingMovieData and Business IntelligenceAnalyzingMovieData and Business Intelligence
AnalyzingMovieData and Business Intelligence
JUNWEI GUAN
 
Unit testing Agile OpenSpace
Unit testing Agile OpenSpaceUnit testing Agile OpenSpace
Unit testing Agile OpenSpace
Andrei Savu
 
Apache Accumulo and Cloudera
Apache Accumulo and ClouderaApache Accumulo and Cloudera
Apache Accumulo and Cloudera
Joey Echeverria
 
Apache HBase 入門 (第1回)
Apache HBase 入門 (第1回)Apache HBase 入門 (第1回)
Apache HBase 入門 (第1回)
tatsuya6502
 

En vedette (20)

HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかHBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
 
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
Sqoopコネクタを書いてみた (Hadoopソースコードリーディング第12回 発表資料)
 
AnalyzingMovieData and Business Intelligence
AnalyzingMovieData and Business IntelligenceAnalyzingMovieData and Business Intelligence
AnalyzingMovieData and Business Intelligence
 
Single node hadoop cluster installation
Single node hadoop cluster installation Single node hadoop cluster installation
Single node hadoop cluster installation
 
One Hadoop, Multiple Clouds - NYC Big Data Meetup
One Hadoop, Multiple Clouds - NYC Big Data MeetupOne Hadoop, Multiple Clouds - NYC Big Data Meetup
One Hadoop, Multiple Clouds - NYC Big Data Meetup
 
Unit testing Agile OpenSpace
Unit testing Agile OpenSpaceUnit testing Agile OpenSpace
Unit testing Agile OpenSpace
 
Apache Accumulo and Cloudera
Apache Accumulo and ClouderaApache Accumulo and Cloudera
Apache Accumulo and Cloudera
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
 
Recommendation Engine using Apache Mahout
Recommendation Engine using Apache MahoutRecommendation Engine using Apache Mahout
Recommendation Engine using Apache Mahout
 
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
 
Cloudera hadoop installation
Cloudera hadoop installationCloudera hadoop installation
Cloudera hadoop installation
 
YARN High Availability
YARN High AvailabilityYARN High Availability
YARN High Availability
 
Introducing Cloudera Director at Big Data Bash
Introducing Cloudera Director at Big Data BashIntroducing Cloudera Director at Big Data Bash
Introducing Cloudera Director at Big Data Bash
 
Hadoop Operations for Production Systems (Strata NYC)
Hadoop Operations for Production Systems (Strata NYC)Hadoop Operations for Production Systems (Strata NYC)
Hadoop Operations for Production Systems (Strata NYC)
 
Extending and Automating Cloudera Manager via API
Extending and Automating Cloudera Manager via APIExtending and Automating Cloudera Manager via API
Extending and Automating Cloudera Manager via API
 
Cloudera Director: Unlock the Full Potential of Hadoop in the Cloud
Cloudera Director: Unlock the Full Potential of Hadoop in the CloudCloudera Director: Unlock the Full Potential of Hadoop in the Cloud
Cloudera Director: Unlock the Full Potential of Hadoop in the Cloud
 
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
Samsung’s First 90-Days Building a Next-Generation Analytics PlatformSamsung’s First 90-Days Building a Next-Generation Analytics Platform
Samsung’s First 90-Days Building a Next-Generation Analytics Platform
 
Cluster management and automation with cloudera manager
Cluster management and automation with cloudera managerCluster management and automation with cloudera manager
Cluster management and automation with cloudera manager
 
Five Tips for Running Cloudera on AWS
Five Tips for Running Cloudera on AWSFive Tips for Running Cloudera on AWS
Five Tips for Running Cloudera on AWS
 
Apache HBase 入門 (第1回)
Apache HBase 入門 (第1回)Apache HBase 入門 (第1回)
Apache HBase 入門 (第1回)
 

Similaire à CDH5最新情報 #cwt2013

Windows Azure for PHP Developers
Windows Azure for PHP DevelopersWindows Azure for PHP Developers
Windows Azure for PHP Developers
fumios
 

Similaire à CDH5最新情報 #cwt2013 (20)

Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
CDH4セミナー資料
CDH4セミナー資料 CDH4セミナー資料
CDH4セミナー資料
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
 
Hadoop and Kerberos
Hadoop and KerberosHadoop and Kerberos
Hadoop and Kerberos
 
CloudFoundryをつかってみよう
CloudFoundryをつかってみようCloudFoundryをつかってみよう
CloudFoundryをつかってみよう
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS CloudJAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
 
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
Osdt s3
Osdt s3Osdt s3
Osdt s3
 
Windows Azure for PHP Developers
Windows Azure for PHP DevelopersWindows Azure for PHP Developers
Windows Azure for PHP Developers
 
おいしいフルマネージドデータベース はじめました
おいしいフルマネージドデータベース はじめましたおいしいフルマネージドデータベース はじめました
おいしいフルマネージドデータベース はじめました
 

Plus de Cloudera Japan

Plus de Cloudera Japan (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 

CDH5最新情報 #cwt2013

  • 1. 1 CDH最新情報 Kiyoshi  Mizuamru  |  Systems  Engineer Cloudera  World  Tokyo  2013
  • 2. ⾃自⼰己紹介 •  ⽔水丸淳(みずまるきよし) •  email:  maru@cloudera.com •  2013年年2⽉月にCloudera株式会社⼊入社 •  プリセールス段階の技術対応を担当 •  2010年年6⽉月からとある研究所のプロジェクトでHadoop対抗となる 分散フレームワークの開発に従事 •  Hadoopとの関わりは3年年⽬目 2
  • 5. CDHとは何か •  Clouderaʼ’s  Distribution  including  Apache  Hadoop •  エンタープライズ向けに開発された100%オープンソースの Hadoopディストリビューション •  Apache  Hadoopを中⼼心としたオープンソースコンポーネント (CDH4.4現在) 5
  • 7. CDH概念念図 •  総てのデータを集約 •  その上に様々な処理理 を乗せる 7 統合 ストレージ リソース管理理 メタデータ バッチ 処理理 MAPREDUCE,   HIVE,  PIG インタラク ティブ SQL CLOUDERA   IMPALA インタラク ティブ サーチ CLOUDERA   SEARCH 機械学習 MAHOUT,   DATAFU …
  • 8. CDHを採⽤用する理理由 8 ポイント ユーザにもたらされるメリット パッケージ化済み 他のどの形態のHadoopよりはるかに簡単にインストールすることがで きます パッチ適⽤用済み Apacheブランチをただダウンロードするよりも安定かつセキュアにし てくれます 実績の証明済み 数千もの組織が既にCDHを使っているため、利利⽤用リスクが低くなって います ⾼高機能 CDHはより多くのユースケースをカバーし、ユーザはコアのHadoopだ けを使っていたときよりも⽣生産性を向上できます 統合済み 全体を把握するための時間を節約し、バージョン間あるいはパッチ間 依存に基づく障害のリスクを減らします 標準と認められている 既に多額の投資をしているRDBMS,  ETL,  そしてBIなどとCDHは最も うまく連携できます サポートあり CDHは商業組織が⽀支援しているディストリビューションです 100%  Apacheライセンス この技術への投資は保障されています
  • 9. CDH開発の歴史 9 2009 2010 2011 2012 2012/06 2012/09 2013 2013/02 2013/05 2013/09 CDH3 Q2  2011 CDH4 2012/06 •  ⾼高可⽤用性ネームノード(NFS) •  複数のデータ処理理フレームワーク (MR1とMR2) CDH4.1 2012/09 •  ⾼高可⽤用性ネームノード (QJM) CDH4.2 2013/02 •  ジョブトラッカーHA •  HBaseスナップショット CDH4.3 2013/05 •  データノードディスク間 バランシング •  HueにPigエディタ搭載 CDH1 Q3  2009 CDH2 Q1  2010 CDH4.4 2013/09 •  ロールベースの認可
  • 10. CDHバージョンの意味 10 •  CDH3以前:CDH3u0,  CDH3u1,  CDH3u2  … •  2013/06/20にメンテナンス終了了済み(EOM) •  CDH4以降降:CDH  X.Y.Z •  X:メジャーバージョン(⼤大規模な変更更を含む) •  Y:マイナーバージョン(CDH3以前のupdateに相当) •  Z:ポイントバージョン(重⼤大なバグ修正のみ) •  最新のリリース版はCDH4.4.0
  • 12. おねがい •  CDH  5  Release  Notesを読みましょう •  ここではすべての変更更点をカバーしません •  β版のドラフトから正式リリースまでに更更新される可能性あり •  Release  Notesのセクション構成 •  New  Features  in  CDH5 •  Incompatible  Changes •  Known  issues  in  CDH5 •  Release  Notesの配布場所 •  https://www.cloudera.com/content/cloudera-‐‑‒content/cloudera-‐‑‒ docs/CDH5/latest/CDH5-‐‑‒Release-‐‑‒Notes/CDH5-‐‑‒Release-‐‑‒ Notes.html 12
  • 13. CDH  5.0.0  β1  コンポーネント⼀一覧 13 CDH  5.0.0  β1 CDH  4.4.0 Apache  Avro avro-‐‑‒1.7.4+3 Apache  Hadoop  2.0 hadoop-‐‑‒2.2.0+353 2.0.0+1475 Apache  DataFu pig-‐‑‒udf-‐‑‒ datafu-‐‑‒0.0.4+12 0.0.4+22 Apache  Flume flume-‐‑‒ng-‐‑‒1.4.0+44 1.4.0+23 Apache  HBase hbase-‐‑‒0.95.2+272 0.94.6+132 HBase  Solr hbase-‐‑‒solr-‐‑‒1.2+16 Apache  Hive hive-‐‑‒0.11.0+483 0.10.0+198 Apache  Mahout mahout-‐‑‒0.8+27 0.7+21 Apache  Oozie oozie-‐‑‒4.0.0+54 3.3.2+92 Apache  Pig pig-‐‑‒0.11.0+46 0.11.0+33 Apache  Sentry  (incubating) sentry-‐‑‒1.2.0+10 1.1.0
  • 14. CDH  5.0.0  β1  コンポーネント⼀一覧・続き 14 CDH  5.0.0  β1 CDH  4.4.0 Apache  Solr solr-‐‑‒4.4.0+98 Apache  Sqoop sqoop-‐‑‒1.4.4+20 1.4.3+62 Apache  Sqoop  2 sqoop2-‐‑‒1.99.2+105 1.99.2+85 Apache  Whirr whirr-‐‑‒0.8.2+19 0.8.2+15 Apache  ZooKeper zookeeper-‐‑‒3.4.5+25 3.4.5+23 Parquet parquet-‐‑‒1.0.0+7 Cloudera  Development  Kit cdk-‐‑‒0.7.0+3 Cloudera  Hue hue-‐‑‒3.0.0+266 2.5.0+139 Cloudera  Impala impala-‐‑‒1.2.0+0 1.1.1 Cloudera  Llama llama-‐‑‒1.0.0+0 Cloudera  Search search-‐‑‒1.0.0+0 1.0.0
  • 15. Java対応 •  CDH5はOracle  JDK  1.7をサポートします •  CDH5ではJDK  1.7でコンパイルされたアプリケーションをサポート •  CDH5  Beta1の検証バージョンはJDK  1.7.0_̲25 •  すべてのコンポーネントにおいて上記バージョンでテストを実施 •  CDH5ではJDK  1.6はノンサポートです •  Oracle  JDK  1.7に移⾏行行をお願いします 15
  • 16. MapReduce  2.0の正式サポート •  YARNでMapReduce以外のジョブも効率率率的に •  YARN(Yet-‐‑‒Another-‐‑‒Resource-‐‑‒Negotiator) •  JobTracker+TaskTrackerを置き換え •  JobTrakerの持っていた以下の機能を分離離 •  リソース管理理 •  ジョブスケジューリング/モニタリング 16
  • 17. MapReduce  1.0のおさらい 17 Job  Client Submit  Job JobTracker TaskTracker Map  Slot Reduce  Slot TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
  • 19. YARNのアーキテクチャ •  クラスタ全体でただひとつのResourceManager(RM) •  ⾼高可⽤用性対応済み •  アプリケーションごとに存在するApplicationManager  (AM) •  フレームワーク固有のライブラリ •  ResourceManagerから割り当てられたリソースで動作する •  NodeManagerと協⼒力力してタスクを実⾏行行・モニタリングする •  ノードごとに存在するNodeManager(NM) •  MapReduce  2.0では •  ResourceManagerとApplicationMasterがJobTrackerを置き換える •  NodeManagerがTaskTrackerを置き換える 19
  • 20. MapReduce  1.0のサポートも継続 •  MRv1かMRv2のどちらかを選択 •  MRv1とYARNのプロセスを同時に実⾏行行することはノンサポート •  CDH5のMRv1では若若⼲干のAPI変更更あり •  Hadoop  2.0.0との互換性維持のため •  CDH4で利利⽤用していたMRv1アプリケーションをCDH5  MRv1で利利⽤用す るためにはリコンパイルが必要 •  CDH5上でMRv1からMRv2への移⾏行行はリコンパイル不不要 20
  • 21. ⾮非推奨プロパティ •  Hadoop  2.0.0以降降で多くのプロパティが廃⽌止予定に •  HadoopとHDFSに関連するもの •  CDH5のMRv1では引き続き動作します •  これらを置き換える新しい  mapreduce*  プロパティは CDH5のMRv1では動作しません •  廃⽌止予定のプロパティのリスト •  http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-‐‑‒ project-‐‑‒dist/hadoop-‐‑‒common/DeprecatedProperties.html 21
  • 22. Apache  Flume新機能 •  Twitter  Sourceの追加 •  FLUME-‐‑‒2190 •  Twitterからデータを取得する •  HTTP  SourceのHTTPS対応 •  FLUME-‐‑‒2109 22
  • 23. Apache  HBase新機能 •  Hadoop  2.0対応 •  MTTRの改善 •  互換性の向上とアップグレードのしやすさの改善 •  スナップショット対応 •  CDH4.2/HBase0.94へバックポート済み •  オンラインでのリージョンマージ •  REST  proxyサーバでのセキュリティ、機能改善 23
  • 24. Apache  HBase管理理に関係する機能 •  サーバ間のネットワークを通りHBaseファイルフォーマット で読み書きされるデータは拡張可能なProtoBufエンコーディ ングでシリアライズされるように変更更 •  将来の拡張で互換性を維持しやすくなることを期待 •  以前のバージョンとの互換性は維持できない •  ネームスペースのサポート •  テーブルをいくつかの管理理ドメインにまとめる •  管理理者に特定のネームスペースの権限を付与する 24
  • 25. Apache  HBase障害に関係する機能 •  MasterからRS/Clientへのコストなしでの通知 •  MasterからClientへマルチキャストコネクションを張る •  あるRSがMasterにより異異常と認識識されたとき、Masterからマル チキャストメッセージを送出することでClientはソケットタイム アウトまで待たずにRSの異異常に気付くことができる •  .META.,  -‐‑‒ROOT-‐‑‒専⽤用のHLog  .metaの導⼊入 •  サーバクラッシュ時にメタ情報を優先的に回復復 •  試験的な機能 •  分散ログリプレイ •  リージョンとノードのマッピングを参照/編集するツール 25
  • 26. Apache  HBaseデータ保護に関係する機能 •  レプリケーション機能のバグ修正 •  レプリケーションの信頼性を向上(HBASE-‐‑‒9373) •  循環レプリケーションの深刻なバグを修正(HBASE-‐‑‒9158) •  スナップショット対応 •  オンラインスナップショット •  ディレクトリ名を.snapshotから.hbase_̲snapshotsへ変更更 •  CopyTableの機能強化 •  startRow,  stopRowオプションの追加 •  Import  MapReduceジョブの機能強化 •  取り込むデータにフィルターをかけることが可能に 26
  • 27. Apache  HBase注意すべき変更更点 •  CDH5  HBase(Apache  HBase  0.95.2/0.96.xに基づく) とCDH4  HBase(同0.92/0.94に基づく)とで通信に互換 性がありません •  CDH  5  HBaseへのローリングアップグレードはできません •  HBaseを完全に停⽌止させる必要があります •  -‐‑‒ROOT-‐‑‒の廃⽌止 •  .META.の場所はZooKeeperに直接格納 •  TotalOrderPartitonerの廃⽌止 •  ネームスペース導⼊入に伴うディレクトリ構成の変更更 •  HFile  v1はサポートされなくなりました 27
  • 28. Apache  HDFS新機能 •  mmapを利利⽤用したHDFSローカルリード •  HDFS  RW/ROスナップショット •  HDFSへのNFSv3インターフェース •  ファイル単位のHDFSアドバイザリ・キャッシング •  WebHdfsFileSystemでのフェイルオーバーとリトライ •  HdfsFileStatusでディレクトリの⼦子供の数を取得 •  INodeIdからINodeへのマッピング •  DistributedFileSystemのCreate  API拡張によるブロック配置 を優先的に⾏行行うDataNode指定 28
  • 29. Apache  HDFS変更更点 •  ファイルに実⾏行行属性ビットが付与できるように •  CDH5ではcopyToLocalで持ってきたファイルに実⾏行行属性が付いている 場合がある •  ランダムに⽣生成されていたブロックIDがシーケンシャル に⽣生成されるように •  HDFSバランサーコマンドの終了了コードの変更更 •  成功すると1が返る •  それまでは0が返っていた •  スクリプトで運⽤用している場合は要注意 29
  • 30. Cloudera  Hue新機能 •  Sqoop  App •  データベースとHDFSの間でデータを簡単にエクスポート・インポート •  ウィザードでジョブを作成、ダッシュボードから進捗状況とログの参照 •  ZooKeeper  App •  Znode階層構造・ZooKeeperクラスタのブラウジング •  Znodeの追加・削除・編集と複数クラスタの管理理 •  Pig  Editor,  HBase  Browser,  Sqoop  App •  Hue  Shellは廃⽌止されて上記アプリケーションで置き換え 30
  • 31. Cloudera  Hue変更更点 •  画⾯面レイアウトの再設計 •  ⾼高可⽤用性JobTracker対応の強化 •  HiveServer2の採⽤用 •  Beeswaxデーモンから置き換え •  CDH5のHueはHiveServer2にしか対応しない •  Djangoバックエンドを1.2から1.4に •  SAML認証によるシングルサインオン 31
  • 32. Cloudera  Hue変更更点・続き •  ドキュメントモデルの改善 •  Hive/Impalaのクエリ画⾯面にメタストア情報を統合 •  メタストア情報の詳細な表⽰示 •  Hueの機能紹介をするミニツアーの追加 •  Hue  Shell  Appの完全な廃⽌止 •  YARNがデフォルトに 32
  • 33. Apache  Hive・HCatalog新機能 •  テーブルのTRUNCATE対応 •  HIVE-‐‑‒466 •  LEAD/LAG/FIRST/LAST関数の追加 •  Hiveで利利⽤用可能な分析⽤用ウィンドウ関数の充実 •  HIVE-‐‑‒896 •  DECIMALデータ型の追加 •  HIVE-‐‑‒2693 •  ALTER  VIEW  AS  SELECT構⽂文の追加 •  HIVE-‐‑‒3834 33
  • 34. Apache  Hive・HCatalog変更更点 •  メタストアバージョンの⼀一貫性チェック •  HIVE-‐‑‒3764 •  ORDER  BYのパラレル実⾏行行サポート •  HIVE-‐‑‒1402 •  相関検出・最適化のための新しいオプティマイザ •  HIVE-‐‑‒2206 •  GROUP  BYの構造体サポート •  HIVE-‐‑‒2517 •  HQLによる関数定義のサポート •  HIVE-‐‑‒2655 34
  • 35. Apache  Hive変更更点 •  CDH5  β1のHiveバージョンは0.11 •  Hive  0.11へアップグレードするためにはメタストアのスキーマアップ グレードが必要 •  新しいバージョンのHiveを使い始める前にメタストアのアップグレード を •  忘れるとメタストア破壊に繋がるので特に注意を •  CDH5に含まれる新しいschematool •  メタストアスキーマをオフラインでアップグレードするための推奨ツール •  JDBCアプリケーションとHiveServer2 •  HiveServer2に接続するためには新しいCDH5  JDBCパッケージが必要 •  アプリケーションの再コンパイルは必要なし •  CDH5  HueはCDH4のHiveServer2とは互換性なし 35
  • 36. Cloudera  Impala新機能 •  UDF対応 •  ImpalaをETL/ELTパイプラインに組み込みことが容易易に •  これまではUDFを使⽤用するときはHiveに頼らざるを得なかった •  スカラUDFに加えてユーザ定義の集約関数も実⾏行行可能 •  C++で記述された関数の実⾏行行サポート •  Javaで記述された既存のHive関数の実⾏行行サポート •  CREATE  FUNCTION⽂文によるUDFの作成 •  DROP  FUNCTION⽂文によるUDFの削除 36
  • 37. Cloudera  Impala新機能 •  メタデータの⾃自動伝搬 •  INVALIDATE  METADATA,  REFRESHの必要性が減ります •  Impalaノードから実⾏行行されたCREATE  TABLE,  ALTER  TABLE,   DROP  TABLE,  INSERT,  LOAD  DATAに起因するメタデータは他 のImpalaノードに⾃自動的に伝搬していく •  Hiveから加えられたメタデータの変更更については引き続き INVALIDATE  METADATA,  REFRESHの操作が必要 •  catalogdデーモンにより実現 37
  • 38. Cloudera  Impala新機能 •  YARNリソース管理理フレームワークとの統合 •  CDH5でのみ •  LlamaがYARNに対してリソースを要求、必要なリソースが確保 できたときにのみImpalaクエリを実⾏行行 •  テーブルの統計情報取得を怠ると正しいリソースの⾒見見積もりが出 せないので注意 •  EXPLAIN出⼒力力の詳細化 •  EXPLAIN_̲LEVELオプションの新設 •  リソース消費の⾒見見込み量量を表⽰示 •  テーブル・カラムの統計情報有無を表⽰示 38
  • 39. Cloudera  Llama •  Long-‐‑‒Lived  Application  MAster •  YARNがフォーカスしているのはバッチ処理理 •  Impalaの低レイテンシクエリではImpalaの起動コストは無視できない •  キューごとにAMを事前に起動しておいて使い回す •  ImpalaとYARNの間でリソースの調停を⾏行行う •  Hadoopクラスタ内のリソースの確保、利利⽤用、解放をImpalaから実⾏行行 •  Impalaでリソース管理理を有効にしているときだけ必要 39
  • 40. Apache  Mahout新機能 •  Vector,  Matrixの実装とAPIの変更更によるパフォーマンスの改善 •  レコメンダーの実装変更更によるパフォーマンスの改善 •  バイアス有りのアイテムベースレコメンダをサポート •  SGD⾏行行列列の因⼦子分解 •  SVD++のサポート •  LuceneストレージインデックスからSequenceFileへの変換 •  k-‐‑‒meansのストリーミング実装によるオンラインクラスタリング •  ⾏行行列列の結合ユーティリティ 40
  • 41. Apache  MapReduce  2.0(YARN)新機能 •  ResourceManagerの⾼高可⽤用性対応 •  複数のResourceManagerを利利⽤用することでSPOFを回避 •  実⾏行行中のジョブは完了了済みのタスクを再実⾏行行することなく回復復可能 •  リソース管理理 •  cgroupsを利利⽤用したメモリ・CPU使⽤用量量のモニタリングと制限 •  継続的スケジューリング •  ノードのハートビートと切切り離離すことで⼤大規模クラスタでのパフォーマ ンスを改善 41
  • 42. Apache  Oozie新機能 •  ⾼高可⽤用性対応 •  Oozieサーバを複数利利⽤用してサービスを提供 •  スケーラビリティも同時に実現 •  HCatalogの統合 •  コーディネータでHCatalogテーブルのパーティションを依存関係の中 に組み込むことが可能に •  SLAモニタリング •  ジョブを監視してSLAを満⾜足した、満たせなかった、について通知を送 ることが可能に •  JMS通知 •  JMSプロバイダに対してジョブの状態やSLAイベントを通知可能 42
  • 43. Apache  Oozie変更更点 •  Oozie共有ライブラリ •  CDH5  Beta  1パッケージで提供されるものに置き換えが必要 •  Oozieデータベース •  データベースのアップグレードが必要 •  Oozieクライアント •  CDH4.xのクライアントはCDH5.xのOozieサーバと互換性なし •  すべてのOozieクライアントをアップデートしてください 43
  • 45. CDH4  コンポーネント⼀一覧 45 CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0 DataFu 0.0.4+14 0.0.4+17 0.0.4+20 0.0.4+22 Flume 1.2.0+142 1.3.0+97 1.3.0+161 1.4.0+23 Hadoop 2.0.0+573 2.0.0+968 2.0.0+1369 2.0.0+1475 HBase 0.92.1+176 0.94.2+228 0.94.6+107 0.94.6+132 HCatalog 0.4.0+219 0.5.0+11 0.5.0+13 Hive 0.9.0+161 0.10.0+84 0.10.0+135 0.10.0+198 Mahout 0.7+14 0.7+17 0.7+19 0.7+21 MR1 0.20.2+1281 0.20.2+1361 0.20.2+1369 0.20.2+1475 Oozie 3.2.0+140 3.3.0+83 3.3.2+54 3.3.2+92 Pig 0.10.0+64 0.10.0+511 0.11.0+30 0.11.0+33
  • 46. CDH4  コンポーネント⼀一覧・続き 46 CDH4.1.5 CDH4.2.2 CDH4.3.2 CDH4.4.0 Sqoop 1.4.1+60 1.4.2+61 1.4.3+36 1.4.3+62 Sqoop2 1.99.1+34 1.99.1+117 1.99.2+85 Whirr 0.8.0+24 0.8.0+27 0.8.2+13 0.8.2+15 ZooKeeper 3.4.3+35 3.4.5+17 3.4.5+21 3.4.5+23 Sentry 1.1.0 1.1.0 Cloudera  Hue 2.1.0+226 2.2.0+198 2.3.0+140 2.5.0+139 Cloudera  Impala 1.1.1 1.1.1 Cloudera  Search 1.0.0 1.0.0
  • 47. 47