SlideShare une entreprise Scribd logo
1  sur  61
Télécharger pour lire hors ligne
© MapR Technologies, confidential
®
®
M.	
  C.	
  Srivas	
  
CTO	
  &	
  Founder	
  
srivas@mapr.com	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Hadoop	
  最新情報	
  
© MapR Technologies, confidential
®
Say	
  BIG	
  DATA	
  
one	
  more	
  3me	
  ...	
  
© MapR Technologies, confidential
®
バックグラウンド
•  	
  サーチ	
  
– 	
  MapReduce,	
  Bigtable	
  
	
  
•  チーフアーキテクト	
  
– 	
  現 Netapp	
  
	
  
•  AFS	
  
– 	
  AFS	
  チームリード	
  
– 	
  現	
  
© MapR Technologies, confidential
®
MapR の歴史
	
  	
  	
  	
   ‘09	
   ‘11	
  07	
  06	
  
MapReduce	
  
論文を発表	
  
MR	
  論文もとに

Hadoop	
  を開発	
Hadoop	
  を利用開始	
  
Hadoop	
  を利用開始	
  
Hadoop	
  を利用開始	
  
NYダウが14,300	
  
から 6,800	
  に急落	
2009年7月 MapR	
  設立	
  	
  
‘13	
  ‘12	
  
2011年7月 高信頼性
Hadoopを発表	
	
  
とのパートナー	
数々の世界記録を
更新	
2500	
  ノードの最
大の商用クラスタ	
MapR	
  M7	
  
世界最速NoSQL
© MapR Technologies, confidential
®
South Pacific Ocean	

North Pacific Ocean	

 North Pacific Ocean	

Indian Ocean	

Arctic Ocean	

North Atlantic Ocean	

South Atlantic Ocean	

 Zimbabwe	

Zambia	

Yemen	

Vietnam	

Somoa	

Venezuela	

Vanuatu	

Uzbekistan	

Uruguay	

United States	

U. K.	

U.A.E.	

Ukraine	

Uganda	

Turkmenistan	

Turkey	

Tunisia	

Trinidad & Tobago	

Tonga	

Togo	

Thailand	

Tanzania	

Tajikistan	

Syria	

Switz.	

Sweden	

Swaziland	

Suriname	

Sudan	

Sri Lanka	

Spain	

South Africa	

Somalia	

Solomon Islands	

Slovenia	

Slovakia	

Singapore	

Sierra	

Leone	

Senegal	

Saudi Arabia	

Rwanda	

Russia	

Romania	

Qatar	

Puerto	

Rico	

Portugal	

Poland	

Philippines	

Peru	

Paraguay	

Papua	

New Guinea	

Panama	

Palau	

Pakistan	

Oman	

Norway	

Nigeria	

Niger	

Nicaragua	

New Zealand	

Neth.	

Nepal	

Namibia	

Mozambique	

Morocco	

Mongolia	

Mold.	

Mexico	

Mauritania	

Malta	

Mali	

Malaysia	

Malawi	

Madagascar	

Mace.	

Lux.	

Lithuania	

Libya	

Liberia	

Lesotho	

Lebanon	

Latvia	

Laos	

Kyrgyzstan	

Kuwait	

South	

Korea	

North Korea	

Kenya	

Kazakhstan	

Jordan	

Japan	

Jamaica	

Italy	

Israel	

Ireland	

Iraq	

Iran	

Indonesia	

India	

Iceland	

Hungary	

Honduras	

Haiti	

Guyana	

Guinea-Bissau	

 Guinea	

Guatemala	

Greenland	

Greece	

Ghana	

Germany	

Georgia	

Gambia	

Gabon	

French	

Guiana	

France	

Finland	

Fiji	

Taiwan	

Ethiopia	

Estonia	

Eritrea	

Equatorial Guinea	

El Salvador	

Egypt	

Ecuador	

Timor Leste (East Timor)	

Dom.	

Rep.	

Dijbouti	

Denmark	

Czech Rep.	

Cyprus	

Cuba	

Croatia	

Cote d'Ivoire	

Costa Rica	

Congo	

Dem. Republic	

of Congo	

Colombia	

China	

Chile	

Chad	

Central Africa Republic	

Cape Verde	

Canada	

Cameroon	

Cambodia	

Burundi	

Myanmar	

(Burma)	

Burkina Faso	

Bulgaria	

Brunei	

Brazil	

Botswana	

Bosnia &	

Herz.	

Bolivia	

Bhutan	

Benin	

Belize	

Belgium	

Belarus	

Bangladesh	

Bahamas	

Azerb.	

Austria	

Australia	

Armenia	

Argentina	

Angola	

Algeria	

Albania	

Afghanistan	

Western Sahara	

(Occupied by Morocco)	

Serbia	

Mont.	

Kos.	

世界の MapR オフィス
© MapR Technologies, confidential
®
エンタープライズ Hadoop運用管理
MapR データプラットフォーム
APACHE HADOOP エコシステム
6
Storm
Drill
Shark
…
Sentry
Spark
Impala
HBase
MapReduce
Hue
Solr
YARN
Flume
Cascading
Pig
Sqoop
Hive/
Stinger/
Tez
Whirr
Oozie
Mahout
Zookeeper
エンタープライズグレード 相互運用性 マルチテナント セキュリティ 業務利用
© MapR Technologies, confidential
®
本日のトピック
•  Hadoop	
  スケジューラ	
  
•  YARN,	
  MR1	
  
•  MapR	
  Omni:	
  	
  既存のコードを変更無しにHadoop上で動かすしくみ	
  
•  SQL:	
  Drill,	
  Impala,	
  Shark,	
  VerUca	
  
© MapR Technologies, confidential
®
MapR:	
  唯一の汎用 Hadoop	
  ディストリビューション	
  
管理ツール	
  
汎用分散ストレージプラットフォーム	
  
YARN	
  
Hadoop	
  API	
  
Hadoop	
  および非 Hadoop	
  アプリケーション	
  
SQL	
   Search	
  NoSQL	
   HPC	
   C,	
  C++,	
  Python,	
  Ruby,	
  non-­‐Java	
  MapReduce	
   …
99.999%	
  
高可用性	
  
データ保護	
  
リアルタイム
データ投入	
  
ディザスター
リカバリ	
  
スケーラビリテ
ィ &	
  性能	
  
マルチテナント	
  &	
  
データ配置管理	
  
®
POSIX,	
  ODBC	
  
Omni	
  MR1	
  
© MapR Technologies, confidential
®
MR1 – JobTracker と TaskTracker
TT	
  は	
  JT	
  に定期的にハー
トビートを送信	
  
•  スロットの空き状況	
  
•  タスクの進捗	
  
•  生存確認	
  
ハートビートの応答として
JT	
  は	
  TT	
  に指示を送る	
  
•  タスクの起動	
  
•  タスクの強制終了	
  
•  Reducerの入力の準
備状況	
  
© MapR Technologies, confidential
®
MR1
利点	
  
– 速いスケジューリング	
  
– JVM	
  の再利用	
  
– 最適化された JT-­‐TT	
  間通信	
  
– 障害復旧がシンプル	
  
欠点	
  
– 静的で固定のスロット、異なるサ
イズのジョブへの適合が困難	
  
– リソースの過剰な確保	
  
– リソースの確保の不足	
  
– MapReduce	
  のみのスケジューリ
ング、それ以外は未対応	
  
– 大規模クラスタでは JT	
  がボトル
ネック	
  
© MapR Technologies, confidential
®
YARN	
  と MR2	
  
クラスタ全体で1つの ResourceManager	
  (RM)	
  
•  NodeManager	
  (NM)	
  は各ノード上のエー
ジェント	
  
•  CPU	
  と	
  RAM	
  のみを管理	
  
•  CPU/RAM	
  は Yarn	
  コンテナ として割り当
てられる	
  
•  各ノード上の	
  NM	
  が管理	
  
•  Linux	
  コンテナとの混同に注意	
  
「ジョブ」ごとに個別の AppMaster	
  
•  コンテナ内部で起動される	
  
•  RM	
  にコンテナを要求	
  
•  MR2	
  の	
  Map	
  および Reduce	
  スロット	
  
•  1つのジョブのみを管理	
  
•  RM/NM	
  は MapReduce	
  を関知しない	
  
2階層モデル	
  
© MapR Technologies, confidential
®
YARN
利点	
  
– 様々なジョブの要求に容易
に応じることが可能	
  
– リソースの過剰な確保を防止	
  
– MapReduceだけでなく、様
々なタイプのクラスタサービ
スに対応	
  
– JT	
  ボトルネックを「興味深い
方法で」解決	
  
© MapR Technologies, confidential
®
MapR	
  の	
  YARN	
  はより優れている	
  
•  MR1	
  と YARN	
  の両方をサポート	
  
– 両者を単一クラスタの全てのノードで同時に利用可能	
  
– MapReduce	
  1.0	
  アプリを YARN	
  向けに書き直し/再コンパイルは不要	
  
•  アプリの移行が一度にできる	
  
– 新旧のフレームワークを使って結果を検証	
  
– 古いものを使い続けるか、新しいものに移行するかを判断	
  
•  MapR	
  のみが実現	
  
© MapR Technologies, confidential
®
YARN
利点	
  
– 様々なジョブの要求に容易
に応じることが可能	
  
– リソースの過剰な確保を防止	
  
– MapReduceだけでなく、様
々なタイプのクラスタサービ
スに対応	
  
– JT	
  ボトルネックを「興味深い
方法で」解決	
  
欠点	
  
– スケジューリングが遅い	
  
– JVM	
  の再利用なし	
  
– アプリは	
  YARN	
  API	
  を使って開
発する必要がある	
  
– 障害復旧は非常に複雑で、
Apache	
  Hadoop	
  では未実装	
  
– 既存のアプリは	
  Yarn	
  とクラスタ
を共有できない	
  
© MapR Technologies, confidential
®
MapR Omni
•  init	
  により起動	
  
•  CPU/RAM	
  を割り当て	
  
•  物理RAMの%,	
  最大,	
  最小	
  
•  起動,	
  停止,	
  再起動,	
  監視	
  
•  フェールオーバーを支援	
  
– 1	
  of	
  N	
  
– M	
  of	
  N	
  
Omni	
  
/etc/init.d/	
  
MapR	
  Data	
  Plaaorm	
  
MR	
  1	
   YARN	
  
Zookeeper	
  
VerUca	
  Shark/Spark	
  
© MapR Technologies, confidential
®
MapR Omni
•  コードではなく設定で対応	
  
– Omni	
  向けにサービスを宣言	
  
– HA	
  が必要か?	
  
再起動で十分か?	
  
– 起動順序	
  
•  必要なノードで設定	
  
– MapR	
  の一括設定が利用可
能	
  
/opt/mapr/conf/warden.vertica.conf
diplayname=vertica # on MapR’s GUI
heap.min=1G
heap.max=10G
heap.percent=15
start=/opt/vertica/start-vertica
stop=/opt/vertica/stop-vertica
monitor=/opt/vertica/check-health
uri=…
HA=10 # of 20
© MapR Technologies, confidential
®
MapR の MapReduce 性能 (速い!)
TeraSort	
  記録	
  
1	
  TB	
  を 54	
  秒	
  
1003	
  ノード	
  
MinuteSort	
  記録	
  
1.5	
  TB	
  を 59	
  秒	
  
2103	
  ノード	
  
®
© MapR Technologies, confidential
®
MapR/Cisco の MapReduce 性能 (より速い!)
TeraSort	
  記録	
  
1	
  TB	
  を 54	
  秒	
  
1003	
  ノード	
  
MinuteSort	
  記録	
  
1.5	
  TB	
  を 59	
  秒	
  
2103	
  ノード	
  
1.65	
  
300	
  
®
© MapR Technologies, confidential
®
まとめ	
  
MapR は唯一の汎用 Hadoop フレームワーク
•  MR1 + YARN + Omni: 汎用プロセッシングフレームワーク
•  MapR データプラットフォーム: 汎用ストレージシステム
•  MapR Hadoop: 上記を統合した唯一のディストリビューション
•  MapR のみが実現 : Hadoop と非 Hadoop アプリが同じデータを共有
© MapR Technologies, confidential
®
20
運用管理	
  
	
  	
  	
  
MapR	
  データプラットフォーム	
  
APACHE HADOOP と OSS エコシステム
Spark	
   Hue	
  
HP	
  
VerUca	
  
Shark	
  Impala	
  Drill	
  
Hive/	
  
SUnger/	
  
Tez	
  
Storm	
   Sentry	
  Solr	
  Mahout	
  Cascading	
  Zookeeper	
  Flume	
  
Oozie	
   HBase	
  MapReduce	
  YARN	
  Pig	
  Whirr	
  Sqoop	
  
SQL アクセス
SQL ディスカッション
© MapR Technologies, confidential
®
どの SQL-on-Hadoop がお好みですか?
SQL	
  から MapReduce	
  
への変換	
  
SQL	
  クエリエンジン	
   SQL	
  ベースの分析	
  
Impala
リアルタイム	
  
インタラクティブクエリ	
  
リアルタイム	
  
インタラクティブクエリ	
  
presto shark
© MapR Technologies, confidential
®
© MapR Technologies, confidential
®
自己表現型のデータが一般的になってきている
中央管理されたスキーマ	
  
-­‐	
  静的	
  
-­‐	
  DB	
  管理者による管理	
  
-­‐	
  中央管理のレポジトリ	
  
	
  
入念なデータの準備のために長い時間が必要	
  
(ETL,	
  スキーマの作成/変更,	
  等)	
  
	
  –	
  6〜18	
  ヶ月	
  
自己表現型もしくはスキーマレスデータ	
  
-­‐  動的/更新されていく	
  
-­‐  アプリケーションによる管理	
  
-­‐  データに埋め込まれる	
  
	
  
スキーマをなくすことで,	
  大容量・多用途・更新の
速いデータにより適している	
  
Apache	
  Drill	
  は両方のスキーマをサポート	
  
© MapR Technologies, confidential
®
基本的な処理の流れ
Zookeeper	
  
DFS/HBase	
   DFS/HBase	
   DFS/HBase	
  
Drillbit	
  
分散キャッシュ	
  
Drillbit	
  
分散キャッシュ	
  
Drillbit	
  
分散キャッシュ	
  
クエリ	
   1.	
  クエリがいずれかの Drillbit	
  に到着 (JDBC,	
  ODBC,	
  CLI,	
  protobuf)	
  
2.	
  Drillbit	
  はクエリ最適化&ローカリティに基づき実行プランを生成	
  
3.	
  処理の Fragment	
  が各ノードで実行される	
  
4.	
  データが最初のノードに返される	
  
© MapR Technologies, confidential
®
Drillbit 内部のコードモジュール
SQL	
  パーサ	
  
オプティ
マイザ	
  
Physical	
  プラン	
  
DFS	
  エンジン	
  
HBase	
  エンジン	
  
RPC	
  エンドポイント	
  
分散キャッシュ	
  
ストレージエンジン	
  
インターフェース	
  
Logical	
  プラン	
  
実行	
  
その他	
  
© MapR Technologies, confidential
®
クエリステート
SQL	
  
•  何をしたいか(分析者の視点)	
  
Logical	
  プラン:	
  	
  
•  何をしたいか(言語非依存、コンピュータの視点)	
  
Physical	
  プラン	
  
•  どのようにしたいか(考え得るベストな方法)	
  
実行プラン(Fragment)	
  
•  どこでしたいか	
  
© MapR Technologies, confidential
®
クエリの実行
SQL	
  パーサ	
  
オプティマイザ	
  
スケジューラ	
  
Pig	
  パーサ	
  
Physical	
  プラン	
  
Mongo	
  エンジン	
  
Cassandra	
  エンジン	
  
HiveQL	
  パーサ	
  
RPC	
  エンドポイント	
  
分散キャッシュ	
  
ストレージエンジンインターフェース	
  
Operators	
  オペレータ	
  
Foreman	
  
Logical	
  プラン	
  
HDFS	
  エンジン	
  
HBase	
  エンジン	
  
JDBC	
  エンドポイント	
   ODBC	
  エンドポイント	
  
© MapR Technologies, confidential
®
集約クエリの比較
MapReduce	
  
•  全体ソートが必ず発生	
  
•  すべてのデータがソートされるまで集
約が始まらない	
  
•  Reduce	
  の場所の割り当ては、Map	
  タ
スクが一部完了するまで行われない	
  
Drill	
  
•  ソートは必ずしも必要でない	
  
•  データは最初と次のフラグメントの間
でパイプライン化される	
  
•  集約は最初のレコードの準備ができ
次第すぐに開始	
  
•  最初のクエリの時点でタスクの割り当
てが行われ、データの準備ができ次
第すぐに目的の場所に送信される	
  
© MapR Technologies, confidential
®
Drill の差別化ポイント
•  Late-­‐bind	
  スキーマによりメタストア定義が不要	
  
SELECT cf1.month, cf1.year, FROM hbase.table1!
	
  
•  ネストデータをネイティブに扱える:	
  BigQuery	
  と同様に、ネストデータ
型に対するSQL拡張が行われている	
  (Four-­‐value	
  semanUcs)	
  
SELECT!
!c.name, c.address, COUNT(c.children) !
FROM!
SELECT!
! !CONVERT_FROM(cf1.user-json-blob, JSON) AS c !
FROM!
!hbase.table1!
© MapR Technologies, confidential
®
a
•  クエリ処理の途中でスキーマが変わる可能性がある	
  
•  スキーマ変更イベントによりオペレータの再構成ができるよ
うになっている	
  
– 柔軟性のためのオーバーヘッドを最小化	
  
– 実際のデータ特性に基づいてより高度な実行時最適化を行える	
  
© MapR Technologies, confidential
®
Drill の差別化ポイント(続き)
•  最新の研究のアプローチを活用	
  
–  Late	
  record	
  materializaUon	
  
–  ベクトル化オペレータ	
  
•  拡張性	
  
–  Hive	
  UDF/SerDe	
  をサポート	
  
–  明確に定義されたストレージエンジンとオペレータインターフェース	
  
–  最適化と拡張性のための Logical/Physical	
  プラン API	
  レイヤー	
  
© MapR Technologies, confidential
®
•  ANSI	
  SQL	
  標準の INFORMATION_SCHEMA	
  によるメタデータ利用	
  
SELECT	
  table_name,	
  table_type	
  FROM	
  informaUon_schema.tables	
  WHERE	
  
table_schema=‘MyDatabase’	
  ORDER	
  BY	
  table_name	
  DESC	
  
	
  
•  Drill	
  を構成する	
  SQL	
  
•  SELECT,	
  GROUP	
  BY,	
  ORDER	
  BY,	
  LIMIT,	
  JOIN,	
  HAVING,	
  UNION,	
  UNION	
  
ALL,WITH,	
  IN,	
  EXISTS,DISTINCT,	
  BETWEEN	
  他	
  	
  
•  SELECTのネスト	
  :	
  スカラおよび相関サブクエリ	
  
•  結合:	
  Inner,	
  Leo	
  outer,	
  Right	
  outer,	
  Full	
  outer	
  
•  DDL/DML	
  サポート	
  
– CREATE	
  DATABASE,	
  CREATE	
  TABLE/VIEW	
  AS	
  SELET,	
  INSERT	
  INTO	
  
© MapR Technologies, confidential
®
Drill	
   Impala	
   Hive+Tez	
  
概要	
  
ステータス	
   Alpha	
   1.0	
   Alpha	
  
典型的な小さいクエリの性能	
   100	
  ミリ秒	
   100	
  ミリ秒	
   ??	
  
HBase	
  に対するクエリ	
   ✓	
   ✓	
   ✓	
  
SerDe	
  に対するクエリ	
   ✓	
   ✓	
  
Hive	
  UDF	
  サポート	
   ✓	
   ✓	
  
コントリビューション/開発モデル	
   Apache	
   MySQL	
   Apache	
  
実行プログラミング言語	
   Java	
   C++	
   Java	
  
クエリ言語	
  
書き込みのサポート	
   ✓	
   ✓	
  
クエリ言語	
   SQL2003 HiveQL サブセット HiveQL
データ	
  
スキーマレスデータのサポート	
   ✓	
  
リレーショナルオペレータのネスト	
   ✓	
  
内部ソート	
  &	
  結合	
   ✓	
   ✓	
   ✓	
  
外部ソート/結合/集約	
   ✓	
   ✓	
  
実行	
  
コード生成	
   ✓	
   ✓	
  
カラム実行	
   ✓	
  
ベクトル化オペレータ	
   ✓	
   ✓	
  
© MapR Technologies, confidential
®
Impala
© MapR Technologies, confidential
®
Impala 概要
Impala	
  サービス	
  
Impalad	
  	
  
•  クラスタの各データノードで稼働	
  
•  データに対しクエリのプランニン
グと実行を行う	
  
Statestored	
  	
  
•  クラスタ内の1つのノードで1つの
インスタンスが稼働	
  
•  Impala	
  デーモンの稼働状態をチ
ェック	
  
Impala	
  クライアント	
  
•  Shell	
  :	
  Impala	
  とやり取りするコマンドラインインターフェース	
  
•  JDBC/ODBC	
  :	
  BI	
  ツールから	
  Impala	
  へのアクセスを可能に	
  
Impala	
  データソース:	
  ファイル,	
  HBase/M7	
  テーブル	
  
Impala	
  メタデータ	
  
•  Hive	
  メタストアが必要	
  
© MapR Technologies, confidential
®
Impala の SQL まとめ
•  制限つきの	
  DDL/DML	
  (update/delete	
  は無し)	
  
•  等価結合のみをサポート,	
  直積や非等価結合は無し	
  
•  OrderBy	
  には	
  LIMIT	
  を付ける必要がある	
  
•  機能的な制限	
  
–  結合は全ノードの合計メモリ内に収まらなければならない	
  
–  サポートされていない Hive	
  QL	
  機能	
  	
  
•  UDF	
  (1.2.1	
  で一部サポート)	
  
•  map,	
  array,	
  struct,	
  XML,	
  JSON	
  のような非スカラデータ型および関数	
  
•  統計集約関数	
  (例:	
  variance,	
  var_pop,	
  var_samp,	
  stddev_pop	
  他)	
  
•  Lateral	
  view	
  
•  Sort	
  by,	
  Cluster	
  by,	
  Distributed	
  By	
  のような MapReduce	
  機能	
  
•  インデックス,	
  ロックなど	
  
© MapR Technologies, confidential
®
Shark/Spark
© MapR Technologies, confidential
®
SPARK 関連プロジェクト
Spark
Spark Streaming
(real-time)
GraphX
(graph)
Shark"
(Hive on Spark)
MLbase
(machine learning)
BlinkDB
© MapR Technologies, confidential
®
Spark のアプローチ
•  用途を特化するのではなく、MapReduce	
  を 汎用化 して新しい
アプリを同じエンジンでサポート	
  
•  前述のモデルを表現するためには、2つの変更	
  (汎用タスク	
  DAG	
  
&	
  データ共有)	
  で十分	
  
•  統合による大きな利点	
  
– エンジンにとっての利点	
  
– ユーザにとっての利点	
  
Spark
Streaming
GraphX
Shark
MLbase
© MapR Technologies, confidential
®
Spark の RDD
•  RDD	
  =	
  Read-­‐only,	
  parUUoned,	
  collecUon	
  of	
  records	
  
– ディスクへの書き出しや、ディスクからの再構築が可能	
  
•  RDD	
  は様々な変換によって生成される	
  
– RDD	
  セットは変換の	
  Lineage	
  (系統)と共に運ばれる	
  
•  Lineage	
  は障害時にデータを復旧するために使われる	
  
– ほとんど	
  RAM	
  上で操作されたであっても復旧される	
  
messages = textFile(…).filter(…).map(…)
HadoopRDD ß FilteredRDD ß MappedRDD
© MapR Technologies, confidential
®
MLlib
•  機械学習ライブラリ	
  
•  MLlib	
  は Scala,	
  Java	
  から呼
び出し	
  
•  MLI:	
  機能拡張とアルゴリズ
ム開発のための API	
  
•  ML	
  OpUmizer:	
  モデル選択
を自動化	
  
SPARK	
  
MLlib	
  
MLI	
  
ML	
  Op3mizer	
  
© MapR Technologies, confidential
®
MLlib
•  分類:	
   	
   	
   	
   	
   	
  LogisUc	
  Regression,	
  Linear	
  SVM,	
  …	
  
•  回帰:	
   	
   	
   	
   	
   	
  Linear	
  Regression	
  (Lasso,	
  Ridge)	
  
•  協調フィルタリング:	
  AlternaUng	
  Least	
  Squares	
  
•  クラスタリング: 	
   	
  KMeans	
  
•  最適化プリミティブ:	
  SGD,	
  	
  Parallel	
  Gradient	
  
© MapR Technologies, confidential
®
デプロイメント
•  Spark	
  0.8:	
  	
  YARN,	
  EC2	
  サポート	
  
•  Spark	
  0.8.1:	
  YARN	
  2.2	
  のサポート	
  
•  SIMR:	
  Spark	
  を MapReduce	
  クラスタ内で Hadoop	
  ジョブとして
起動(インストール不要)	
  
•  MLlib	
  0.8.1	
  
© MapR Technologies, confidential
®
Shark
•  SHark	
  =	
  Hive	
  on	
  Spark	
  
•  HIVE	
  UDF	
  の完全サポート	
  
•  対応予定:	
  Spark	
  ライブラリ(例:	
  MLlib)の呼び出し,	
  オプティ
マイザ,	
  Hive	
  0.11	
  &	
  0.12	
  
© MapR Technologies, confidential
®
Drill	
  1.0	
   Hive	
  0.13	
  +	
  Tez	
   Impala	
  1.x	
   Presto	
  0.56	
   Shark	
  0.8	
  
レイテンシ	
   Low	
   Medium	
   Low	
   Low	
   Low	
  
ファイル	
   Yes	
  (すべての Hive	
  
ファイル形式)	
  
Yes	
  (すべての	
  Hive	
  
ファイル形式)	
  
Yes	
  (Parquet,	
  
Sequence,	
  …)	
  
Yes	
  (RC,	
  Sequence,	
  
Text)	
  
Yes	
  (すべての	
  Hive	
  
ファイル形式)	
  
HBase/M7	
   Yes	
   Yes	
  	
   問題あり	
   No	
   Yes	
  
スキーマ	
   Hive	
  or	
  スキーマレス	
   Hive	
   Hive	
   Hive	
   Hive	
  
SQL	
  サポート	
   ANSI	
  SQL	
   HiveQL	
   HiveQL	
  (サブセット)	
   ANSI	
  SQL	
   HiveQL	
  
クライアントサ
ポート	
  
ODBC/JDBC	
   ODBC/JDBC	
  
	
  
ODBC/JDBC	
  
	
  
JDBC	
  
	
  
ODBC/JDBC	
  
	
  
大きなジョイン	
   Yes	
   Yes	
   No	
   No	
   No	
  
ネストデータ	
   Yes	
   Limited	
   No	
   Limited	
   Limited	
  
Hive	
  UDF	
   Yes	
   Yes	
   Limited	
   No	
   Yes	
  
トランザクション	
   No	
   No	
   No	
   No	
   No	
  
オプティマイザ	
   Limited	
   Limited	
   Limited	
   Limited	
   Limited	
  
同時実行	
   Limited	
   Limited	
   Limited	
   Limited	
   Limited	
  
インタラクティブ SQL-on-Hadoop の選択肢
© MapR Technologies, confidential
®
その他の Spark プロジェクト
© MapR Technologies, confidential
®
Spark Streaming
ストリーミング処理を非常に小さい	
  Determinis3c	
  な(入力に
対し出力が一意に決まる)一連の	
  
バッチジョブとして実行	
  
47	

Spark	
  
Spark	
  
Streaming	
  
数秒ずつのデータ群	
  
ライブデータストリーム	
  
処理結果	
  
§  ライブストリームを数秒ずつのデータ群に切
り刻む	
  
§  Spark	
  はそれぞれのデータ群を	
  RDD	
  として
扱い、RDD	
  処理を施していく	
  
§  最終的に	
  RDD	
  処理の結果がデータ群として
返される	
  
© MapR Technologies, confidential
®
例: Twitter からハッシュタグを取得
val	
  tweets	
  =	
  ssc.twitterStream(<Twitterユーザ名>,	
  <Twitterパスワード>)	
  
	
  
DStream:	
  分散データストリームを表現する分散データセットのシーケンス	
  (RDD)	
  
batch	
  @	
  t+1	
  batch	
  @	
  t	
   batch	
  @	
  t+2	
  
tweets	
  DStream	
  
RDD(変更不可の分散データセット)として
メモリ上に格納される	
  
Twiter	
  ストリーミング API	
  
© MapR Technologies, confidential
®
例: Twitter からハッシュタグを取得
val	
  tweets	
  =	
  ssc.twitterStream(<Twitter	
  username>,	
  <Twitter	
  password>)	
  
val	
  hashTags	
  =	
  tweets.flatMap	
  (status	
  =>	
  getTags(status))	
  
	
  
flatMap	
   flatMap	
   flatMap	
  
…	
  
変換:	
  1つの DStream	
  中のデータに手を加えて別の DStream	
  を作る	
  新しい DStream	
  
バッチ毎に新しい RDD	
  が
作られる	
  
batch	
  @	
  t+1	
  batch	
  @	
  t	
   batch	
  @	
  t+2	
  
tweets	
  DStream	
  
hashTags	
  Dstream	
  
[#cat,	
  #dog,	
  …	
  ]	
  
© MapR Technologies, confidential
®
tagCounts	
  
例: 直近1分間のハッシュタグをカウント
val	
  tagCounts	
  =	
  hashTags.window(Minutes(1),	
  Seconds(1)).countByValue()	
  
	
  
hashTags	
  
t-­‐1	
   t	
   t+1	
   t+2	
   t+3	
  
スライディングウィンドウ	
  
countByValue	
  
ウィンドウ内の全
データをカウント	
  
© MapR Technologies, confidential
®
標準ライブラリ
•  Spark	
  Streaming:	
  
継続運用のための改善と最適化が次期バージョン	
  0.9	
  に含まれる予定	
  
•  BlinkDB:	
  
まだ出たばかり	
  
DataBricks	
  
による取り組み	
  
Spark
Spark
Streaming
(real-time)
GraphX
(graph)
Shark"
(Hive on Spark)
MLbase
(machine
learning)
BlinkDB
© MapR Technologies, confidential
®
大規模データセットに対するインタラクティブで	
  SQL	
  ライ
クな集約クエリをサポート(サンプリング+近似を利用)	
  
blinkdb> SELECT AVG(jobtime) FROM very_big_log!
	
  
	
   	
   	
  	
  	
  	
  WHERE src = ‘hadoop’!
!
! ! ! LEFT OUTER JOIN logs2!
!
ON very_big_log.id = logs.id 	
  
現在	
  Alpha,	
  バージョン	
  0.1.1	
  	
  
Blink	
  DB	
  
© MapR Technologies, confidential
®
a
© MapR Technologies, confidential
®
HP Vertica とは?
ノード1	
   ノード2	
   ノードn	
  
•  MPP	
  カラムストアデータベース	
  
•  データはクラスタ内で分散格納	
  
•  並列にロード・クエリ処理を行う機能を提供	
  
•  高速 SQL	
  クエリエンジン	
  
•  オバマの	
  2012	
  再選キャンペーンで使われたことで有名	
  
© MapR Technologies, confidential
®
SQL on Hadoop: 2つのアプローチ
既存	
  DB	
  の改良	
  
Pivotal	
  HAWQ,	
  MS	
  PolyBase,	
  IBM	
  BigSQL	
  
Hadoop	
  SQL	
  
Impala,	
  Drill,	
  Presto,	
  Hive	
  on	
  Tez,	
  Shark	
  
	
  
テクノロジー
アプローチ	
  
従来の	
  MPP	
  エンジンが Hadoop	
  をスト
レージとして利用	
  
	
  
専用のファイル形式でデータをロードし、
専用のメタデータストアを使う必要がある	
  
Hadoop	
  をストレージと処理の両方に使用す
る、目的特化型のクエリエンジン	
  
	
  
Hadoop	
  のオープンなファイル形式と
Hadoop	
  のメタデータ	
  (Hive/Hcatalog)	
  を利用	
  
利点	
   より完全な	
  SQL	
  
成熟	
  
コスト効率	
  
スケーラビリティ	
  
再利用	
  
© MapR Technologies, confidential
®
•  実際は統合されていない	
  –	
  MPP	
  DWHの例	
  
典型的な Database-on-Hadoop のしくみ
MPPデータベース	
  
HiveServer2	
  
via	
  ODBC	
  
Hadoop	
  HDFS	
  コネクタ	
  
ローカルディスク	
  
クエリ	
  
データ	
  
ここを管理する必要がある	
  
クエリプランナーはHadoop上のデータがどこにあってどのよ
うに分散されているかが分からない	
  
© MapR Technologies, confidential
®
+ve:	
  	
  高い性能	
  
-­‐ve:	
  	
  	
  管理が難しい	
  
ローカルディスクと NAS/SAN の比較
高い管理性:	
  
-­‐  拡張可能なストレージ	
  
-­‐  ディスクスペースの効率的な利用	
  
-­‐  故障コンポーネントの修理/交換	
  
-­‐  ダウンタイムなしのシームレスなアップグレード	
  
-­‐  性能の調整	
  
-­‐  バックアップとディザスターリカバリ	
  
データベース	
  
ローカルディスクストレージ	
  
データベース	
  
SAN/NAS	
  ストレージ	
  
© MapR Technologies, confidential
®
MapR: NAS の機能を備えたローカルディスク
•  MapR	
  のみが完全な	
  NAS	
  機能を備えつつローカルディスク
の性能を提供	
  
– 動的なスペース管理	
  
– 性能の調整	
  
– 階層化	
  
– 即時の一貫性のあるバックアップ	
  
– ディスクエラーからの自動復旧	
  
– 完全な	
  DR	
  ソリューションを内蔵	
  
完全 Read/Write
ビルトイン圧縮
分散メタデータ
Web
Server
…
Database
Server
Application
Server
© MapR Technologies, confidential
®
•  VerUca	
  は唯一の真にHadoopと統合されたデータベースに	
  
Vertica on MapR
クエリ	
  
データ	
  
完全に管理されたストレージ、別の
SAN/NAS	
  の必要なし	
  
クエリプランナーはHadoop
の上のデータローカリティを
フルに活用	
  
© MapR Technologies, confidential
®
幅広い分析機能
•  1つのプラットフォーム上で幅広い分析機能を利用可能	
  
– HP	
  VerUca	
  に内蔵された様々な分析機能	
  
– Mahout,	
  Hive,	
  Pig	
  を含む Hadoop	
  プロジェクト	
  
•  MapR	
  上の HP	
  VerUca	
  は、様々な	
  BI	
  ツールと検証済みで、
自動生成された	
  SQL	
  の実行に最適化されている	
  
	
  
•  HP	
  VerUca	
  Flex	
  Zone	
  による高速なスキーマレスデータの探索	
  
	
  
© MapR Technologies, confidential
®
運用管理	
  
	
  	
  	
  
APACHE HADOOP と OSS エコシステム
Spark	
   Hue	
  
HP	
  
VerUca	
  
Shark	
  Impala	
  Drill	
  
Hive/	
  
SUnger/	
  
Tez	
  
Storm	
   Sentry	
  Solr	
  Mahout	
  Cascading	
  Zookeeper	
  Flume	
  
Oozie	
   HBase	
  MapReduce	
  YARN	
  Pig	
  Whirr	
  Sqoop	
  
エンタープライズ Hadoop
エンタープライズグレード 相互運用性 マルチテナント セキュリティ 業務利用
MapR	
  データプラットフォーム	
  

Contenu connexe

Tendances

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Cloudera Japan
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26MapR Technologies Japan
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)NTT DATA OSS Professional Services
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向 Masanori Itoh
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」オラクルエンジニア通信
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR Technologies Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 

Tendances (20)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 

En vedette

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)Naoki (Neo) SATO
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)Akira Shimosako
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Recruit Technologies
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!Nagato Kasaki
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話Kentaro Yoshida
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
Hadoop, SQL and NoSQL, No longer an either/or question
Hadoop, SQL and NoSQL, No longer an either/or questionHadoop, SQL and NoSQL, No longer an either/or question
Hadoop, SQL and NoSQL, No longer an either/or questionDataWorks Summit
 

En vedette (15)

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Hadoop, SQL and NoSQL, No longer an either/or question
Hadoop, SQL and NoSQL, No longer an either/or questionHadoop, SQL and NoSQL, No longer an either/or question
Hadoop, SQL and NoSQL, No longer an either/or question
 

Similaire à Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014/03/14

事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka OkaInsight Technology, Inc.
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR Technologies Japan
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックAdvancedTechNight
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Junji Nishihara
 
【JAWS DAYS 2014】ランサーズを支えるRDS
【JAWS DAYS 2014】ランサーズを支えるRDS【JAWS DAYS 2014】ランサーズを支えるRDS
【JAWS DAYS 2014】ランサーズを支えるRDSYuki Kanazawa
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析MapR Technologies Japan
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Seiichiro Ishida
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Yoji Kiyota
 

Similaire à Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014/03/14 (20)

事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
[B27] エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション by Masataka Oka
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
 
Lenovo seminar rancher_200513
Lenovo seminar rancher_200513Lenovo seminar rancher_200513
Lenovo seminar rancher_200513
 
【JAWS DAYS 2014】ランサーズを支えるRDS
【JAWS DAYS 2014】ランサーズを支えるRDS【JAWS DAYS 2014】ランサーズを支えるRDS
【JAWS DAYS 2014】ランサーズを支えるRDS
 
MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
 
HBase at LINE
HBase at LINEHBase at LINE
HBase at LINE
 
HBase at LINE
HBase at LINEHBase at LINE
HBase at LINE
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
 

Plus de MapR Technologies Japan

Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンMapR Technologies Japan
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR Technologies Japan
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...MapR Technologies Japan
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Technologies Japan
 
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09MapR Technologies Japan
 
Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析MapR Technologies Japan
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12MapR Technologies Japan
 
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかHBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかMapR Technologies Japan
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11MapR Technologies Japan
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法MapR Technologies Japan
 
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャMapR Technologies Japan
 
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションMapR Technologies Japan
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...MapR Technologies Japan
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...MapR Technologies Japan
 
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014MapR Technologies Japan
 

Plus de MapR Technologies Japan (20)

Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
 
Drill超簡単チューニング
Drill超簡単チューニングDrill超簡単チューニング
Drill超簡単チューニング
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォーム
 
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
 
Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
 
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかHBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
 
Hadoop によるゲノム解読
Hadoop によるゲノム解読Hadoop によるゲノム解読
Hadoop によるゲノム解読
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
 
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
 
時系列の世界の時系列データ
時系列の世界の時系列データ時系列の世界の時系列データ
時系列の世界の時系列データ
 
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
 
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
 
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
 

Dernier

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Dernier (10)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014/03/14

  • 1. © MapR Technologies, confidential ® ® M.  C.  Srivas   CTO  &  Founder   srivas@mapr.com                        Hadoop  最新情報  
  • 2. © MapR Technologies, confidential ® Say  BIG  DATA   one  more  3me  ...  
  • 3. © MapR Technologies, confidential ® バックグラウンド •   サーチ   –   MapReduce,  Bigtable     •  チーフアーキテクト   –   現 Netapp     •  AFS   –   AFS  チームリード   –   現  
  • 4. © MapR Technologies, confidential ® MapR の歴史         ‘09   ‘11  07  06   MapReduce   論文を発表   MR  論文もとに
 Hadoop  を開発 Hadoop  を利用開始   Hadoop  を利用開始   Hadoop  を利用開始   NYダウが14,300   から 6,800  に急落 2009年7月 MapR  設立     ‘13  ‘12   2011年7月 高信頼性 Hadoopを発表   とのパートナー 数々の世界記録を 更新 2500  ノードの最 大の商用クラスタ MapR  M7   世界最速NoSQL
  • 5. © MapR Technologies, confidential ® South Pacific Ocean North Pacific Ocean North Pacific Ocean Indian Ocean Arctic Ocean North Atlantic Ocean South Atlantic Ocean Zimbabwe Zambia Yemen Vietnam Somoa Venezuela Vanuatu Uzbekistan Uruguay United States U. K. U.A.E. Ukraine Uganda Turkmenistan Turkey Tunisia Trinidad & Tobago Tonga Togo Thailand Tanzania Tajikistan Syria Switz. Sweden Swaziland Suriname Sudan Sri Lanka Spain South Africa Somalia Solomon Islands Slovenia Slovakia Singapore Sierra Leone Senegal Saudi Arabia Rwanda Russia Romania Qatar Puerto Rico Portugal Poland Philippines Peru Paraguay Papua New Guinea Panama Palau Pakistan Oman Norway Nigeria Niger Nicaragua New Zealand Neth. Nepal Namibia Mozambique Morocco Mongolia Mold. Mexico Mauritania Malta Mali Malaysia Malawi Madagascar Mace. Lux. Lithuania Libya Liberia Lesotho Lebanon Latvia Laos Kyrgyzstan Kuwait South Korea North Korea Kenya Kazakhstan Jordan Japan Jamaica Italy Israel Ireland Iraq Iran Indonesia India Iceland Hungary Honduras Haiti Guyana Guinea-Bissau Guinea Guatemala Greenland Greece Ghana Germany Georgia Gambia Gabon French Guiana France Finland Fiji Taiwan Ethiopia Estonia Eritrea Equatorial Guinea El Salvador Egypt Ecuador Timor Leste (East Timor) Dom. Rep. Dijbouti Denmark Czech Rep. Cyprus Cuba Croatia Cote d'Ivoire Costa Rica Congo Dem. Republic of Congo Colombia China Chile Chad Central Africa Republic Cape Verde Canada Cameroon Cambodia Burundi Myanmar (Burma) Burkina Faso Bulgaria Brunei Brazil Botswana Bosnia & Herz. Bolivia Bhutan Benin Belize Belgium Belarus Bangladesh Bahamas Azerb. Austria Australia Armenia Argentina Angola Algeria Albania Afghanistan Western Sahara (Occupied by Morocco) Serbia Mont. Kos. 世界の MapR オフィス
  • 6. © MapR Technologies, confidential ® エンタープライズ Hadoop運用管理 MapR データプラットフォーム APACHE HADOOP エコシステム 6 Storm Drill Shark … Sentry Spark Impala HBase MapReduce Hue Solr YARN Flume Cascading Pig Sqoop Hive/ Stinger/ Tez Whirr Oozie Mahout Zookeeper エンタープライズグレード 相互運用性 マルチテナント セキュリティ 業務利用
  • 7. © MapR Technologies, confidential ® 本日のトピック •  Hadoop  スケジューラ   •  YARN,  MR1   •  MapR  Omni:    既存のコードを変更無しにHadoop上で動かすしくみ   •  SQL:  Drill,  Impala,  Shark,  VerUca  
  • 8. © MapR Technologies, confidential ® MapR:  唯一の汎用 Hadoop  ディストリビューション   管理ツール   汎用分散ストレージプラットフォーム   YARN   Hadoop  API   Hadoop  および非 Hadoop  アプリケーション   SQL   Search  NoSQL   HPC   C,  C++,  Python,  Ruby,  non-­‐Java  MapReduce   … 99.999%   高可用性   データ保護   リアルタイム データ投入   ディザスター リカバリ   スケーラビリテ ィ &  性能   マルチテナント  &   データ配置管理   ® POSIX,  ODBC   Omni  MR1  
  • 9. © MapR Technologies, confidential ® MR1 – JobTracker と TaskTracker TT  は  JT  に定期的にハー トビートを送信   •  スロットの空き状況   •  タスクの進捗   •  生存確認   ハートビートの応答として JT  は  TT  に指示を送る   •  タスクの起動   •  タスクの強制終了   •  Reducerの入力の準 備状況  
  • 10. © MapR Technologies, confidential ® MR1 利点   – 速いスケジューリング   – JVM  の再利用   – 最適化された JT-­‐TT  間通信   – 障害復旧がシンプル   欠点   – 静的で固定のスロット、異なるサ イズのジョブへの適合が困難   – リソースの過剰な確保   – リソースの確保の不足   – MapReduce  のみのスケジューリ ング、それ以外は未対応   – 大規模クラスタでは JT  がボトル ネック  
  • 11. © MapR Technologies, confidential ® YARN  と MR2   クラスタ全体で1つの ResourceManager  (RM)   •  NodeManager  (NM)  は各ノード上のエー ジェント   •  CPU  と  RAM  のみを管理   •  CPU/RAM  は Yarn  コンテナ として割り当 てられる   •  各ノード上の  NM  が管理   •  Linux  コンテナとの混同に注意   「ジョブ」ごとに個別の AppMaster   •  コンテナ内部で起動される   •  RM  にコンテナを要求   •  MR2  の  Map  および Reduce  スロット   •  1つのジョブのみを管理   •  RM/NM  は MapReduce  を関知しない   2階層モデル  
  • 12. © MapR Technologies, confidential ® YARN 利点   – 様々なジョブの要求に容易 に応じることが可能   – リソースの過剰な確保を防止   – MapReduceだけでなく、様 々なタイプのクラスタサービ スに対応   – JT  ボトルネックを「興味深い 方法で」解決  
  • 13. © MapR Technologies, confidential ® MapR  の  YARN  はより優れている   •  MR1  と YARN  の両方をサポート   – 両者を単一クラスタの全てのノードで同時に利用可能   – MapReduce  1.0  アプリを YARN  向けに書き直し/再コンパイルは不要   •  アプリの移行が一度にできる   – 新旧のフレームワークを使って結果を検証   – 古いものを使い続けるか、新しいものに移行するかを判断   •  MapR  のみが実現  
  • 14. © MapR Technologies, confidential ® YARN 利点   – 様々なジョブの要求に容易 に応じることが可能   – リソースの過剰な確保を防止   – MapReduceだけでなく、様 々なタイプのクラスタサービ スに対応   – JT  ボトルネックを「興味深い 方法で」解決   欠点   – スケジューリングが遅い   – JVM  の再利用なし   – アプリは  YARN  API  を使って開 発する必要がある   – 障害復旧は非常に複雑で、 Apache  Hadoop  では未実装   – 既存のアプリは  Yarn  とクラスタ を共有できない  
  • 15. © MapR Technologies, confidential ® MapR Omni •  init  により起動   •  CPU/RAM  を割り当て   •  物理RAMの%,  最大,  最小   •  起動,  停止,  再起動,  監視   •  フェールオーバーを支援   – 1  of  N   – M  of  N   Omni   /etc/init.d/   MapR  Data  Plaaorm   MR  1   YARN   Zookeeper   VerUca  Shark/Spark  
  • 16. © MapR Technologies, confidential ® MapR Omni •  コードではなく設定で対応   – Omni  向けにサービスを宣言   – HA  が必要か?   再起動で十分か?   – 起動順序   •  必要なノードで設定   – MapR  の一括設定が利用可 能   /opt/mapr/conf/warden.vertica.conf diplayname=vertica # on MapR’s GUI heap.min=1G heap.max=10G heap.percent=15 start=/opt/vertica/start-vertica stop=/opt/vertica/stop-vertica monitor=/opt/vertica/check-health uri=… HA=10 # of 20
  • 17. © MapR Technologies, confidential ® MapR の MapReduce 性能 (速い!) TeraSort  記録   1  TB  を 54  秒   1003  ノード   MinuteSort  記録   1.5  TB  を 59  秒   2103  ノード   ®
  • 18. © MapR Technologies, confidential ® MapR/Cisco の MapReduce 性能 (より速い!) TeraSort  記録   1  TB  を 54  秒   1003  ノード   MinuteSort  記録   1.5  TB  を 59  秒   2103  ノード   1.65   300   ®
  • 19. © MapR Technologies, confidential ® まとめ   MapR は唯一の汎用 Hadoop フレームワーク •  MR1 + YARN + Omni: 汎用プロセッシングフレームワーク •  MapR データプラットフォーム: 汎用ストレージシステム •  MapR Hadoop: 上記を統合した唯一のディストリビューション •  MapR のみが実現 : Hadoop と非 Hadoop アプリが同じデータを共有
  • 20. © MapR Technologies, confidential ® 20 運用管理         MapR  データプラットフォーム   APACHE HADOOP と OSS エコシステム Spark   Hue   HP   VerUca   Shark  Impala  Drill   Hive/   SUnger/   Tez   Storm   Sentry  Solr  Mahout  Cascading  Zookeeper  Flume   Oozie   HBase  MapReduce  YARN  Pig  Whirr  Sqoop   SQL アクセス SQL ディスカッション
  • 21. © MapR Technologies, confidential ® どの SQL-on-Hadoop がお好みですか? SQL  から MapReduce   への変換   SQL  クエリエンジン   SQL  ベースの分析   Impala リアルタイム   インタラクティブクエリ   リアルタイム   インタラクティブクエリ   presto shark
  • 22. © MapR Technologies, confidential ®
  • 23. © MapR Technologies, confidential ® 自己表現型のデータが一般的になってきている 中央管理されたスキーマ   -­‐  静的   -­‐  DB  管理者による管理   -­‐  中央管理のレポジトリ     入念なデータの準備のために長い時間が必要   (ETL,  スキーマの作成/変更,  等)    –  6〜18  ヶ月   自己表現型もしくはスキーマレスデータ   -­‐  動的/更新されていく   -­‐  アプリケーションによる管理   -­‐  データに埋め込まれる     スキーマをなくすことで,  大容量・多用途・更新の 速いデータにより適している   Apache  Drill  は両方のスキーマをサポート  
  • 24. © MapR Technologies, confidential ® 基本的な処理の流れ Zookeeper   DFS/HBase   DFS/HBase   DFS/HBase   Drillbit   分散キャッシュ   Drillbit   分散キャッシュ   Drillbit   分散キャッシュ   クエリ   1.  クエリがいずれかの Drillbit  に到着 (JDBC,  ODBC,  CLI,  protobuf)   2.  Drillbit  はクエリ最適化&ローカリティに基づき実行プランを生成   3.  処理の Fragment  が各ノードで実行される   4.  データが最初のノードに返される  
  • 25. © MapR Technologies, confidential ® Drillbit 内部のコードモジュール SQL  パーサ   オプティ マイザ   Physical  プラン   DFS  エンジン   HBase  エンジン   RPC  エンドポイント   分散キャッシュ   ストレージエンジン   インターフェース   Logical  プラン   実行   その他  
  • 26. © MapR Technologies, confidential ® クエリステート SQL   •  何をしたいか(分析者の視点)   Logical  プラン:     •  何をしたいか(言語非依存、コンピュータの視点)   Physical  プラン   •  どのようにしたいか(考え得るベストな方法)   実行プラン(Fragment)   •  どこでしたいか  
  • 27. © MapR Technologies, confidential ® クエリの実行 SQL  パーサ   オプティマイザ   スケジューラ   Pig  パーサ   Physical  プラン   Mongo  エンジン   Cassandra  エンジン   HiveQL  パーサ   RPC  エンドポイント   分散キャッシュ   ストレージエンジンインターフェース   Operators  オペレータ   Foreman   Logical  プラン   HDFS  エンジン   HBase  エンジン   JDBC  エンドポイント   ODBC  エンドポイント  
  • 28. © MapR Technologies, confidential ® 集約クエリの比較 MapReduce   •  全体ソートが必ず発生   •  すべてのデータがソートされるまで集 約が始まらない   •  Reduce  の場所の割り当ては、Map  タ スクが一部完了するまで行われない   Drill   •  ソートは必ずしも必要でない   •  データは最初と次のフラグメントの間 でパイプライン化される   •  集約は最初のレコードの準備ができ 次第すぐに開始   •  最初のクエリの時点でタスクの割り当 てが行われ、データの準備ができ次 第すぐに目的の場所に送信される  
  • 29. © MapR Technologies, confidential ® Drill の差別化ポイント •  Late-­‐bind  スキーマによりメタストア定義が不要   SELECT cf1.month, cf1.year, FROM hbase.table1!   •  ネストデータをネイティブに扱える:  BigQuery  と同様に、ネストデータ 型に対するSQL拡張が行われている  (Four-­‐value  semanUcs)   SELECT! !c.name, c.address, COUNT(c.children) ! FROM! SELECT! ! !CONVERT_FROM(cf1.user-json-blob, JSON) AS c ! FROM! !hbase.table1!
  • 30. © MapR Technologies, confidential ® a •  クエリ処理の途中でスキーマが変わる可能性がある   •  スキーマ変更イベントによりオペレータの再構成ができるよ うになっている   – 柔軟性のためのオーバーヘッドを最小化   – 実際のデータ特性に基づいてより高度な実行時最適化を行える  
  • 31. © MapR Technologies, confidential ® Drill の差別化ポイント(続き) •  最新の研究のアプローチを活用   –  Late  record  materializaUon   –  ベクトル化オペレータ   •  拡張性   –  Hive  UDF/SerDe  をサポート   –  明確に定義されたストレージエンジンとオペレータインターフェース   –  最適化と拡張性のための Logical/Physical  プラン API  レイヤー  
  • 32. © MapR Technologies, confidential ® •  ANSI  SQL  標準の INFORMATION_SCHEMA  によるメタデータ利用   SELECT  table_name,  table_type  FROM  informaUon_schema.tables  WHERE   table_schema=‘MyDatabase’  ORDER  BY  table_name  DESC     •  Drill  を構成する  SQL   •  SELECT,  GROUP  BY,  ORDER  BY,  LIMIT,  JOIN,  HAVING,  UNION,  UNION   ALL,WITH,  IN,  EXISTS,DISTINCT,  BETWEEN  他     •  SELECTのネスト  :  スカラおよび相関サブクエリ   •  結合:  Inner,  Leo  outer,  Right  outer,  Full  outer   •  DDL/DML  サポート   – CREATE  DATABASE,  CREATE  TABLE/VIEW  AS  SELET,  INSERT  INTO  
  • 33. © MapR Technologies, confidential ® Drill   Impala   Hive+Tez   概要   ステータス   Alpha   1.0   Alpha   典型的な小さいクエリの性能   100  ミリ秒   100  ミリ秒   ??   HBase  に対するクエリ   ✓   ✓   ✓   SerDe  に対するクエリ   ✓   ✓   Hive  UDF  サポート   ✓   ✓   コントリビューション/開発モデル   Apache   MySQL   Apache   実行プログラミング言語   Java   C++   Java   クエリ言語   書き込みのサポート   ✓   ✓   クエリ言語   SQL2003 HiveQL サブセット HiveQL データ   スキーマレスデータのサポート   ✓   リレーショナルオペレータのネスト   ✓   内部ソート  &  結合   ✓   ✓   ✓   外部ソート/結合/集約   ✓   ✓   実行   コード生成   ✓   ✓   カラム実行   ✓   ベクトル化オペレータ   ✓   ✓  
  • 34. © MapR Technologies, confidential ® Impala
  • 35. © MapR Technologies, confidential ® Impala 概要 Impala  サービス   Impalad     •  クラスタの各データノードで稼働   •  データに対しクエリのプランニン グと実行を行う   Statestored     •  クラスタ内の1つのノードで1つの インスタンスが稼働   •  Impala  デーモンの稼働状態をチ ェック   Impala  クライアント   •  Shell  :  Impala  とやり取りするコマンドラインインターフェース   •  JDBC/ODBC  :  BI  ツールから  Impala  へのアクセスを可能に   Impala  データソース:  ファイル,  HBase/M7  テーブル   Impala  メタデータ   •  Hive  メタストアが必要  
  • 36. © MapR Technologies, confidential ® Impala の SQL まとめ •  制限つきの  DDL/DML  (update/delete  は無し)   •  等価結合のみをサポート,  直積や非等価結合は無し   •  OrderBy  には  LIMIT  を付ける必要がある   •  機能的な制限   –  結合は全ノードの合計メモリ内に収まらなければならない   –  サポートされていない Hive  QL  機能     •  UDF  (1.2.1  で一部サポート)   •  map,  array,  struct,  XML,  JSON  のような非スカラデータ型および関数   •  統計集約関数  (例:  variance,  var_pop,  var_samp,  stddev_pop  他)   •  Lateral  view   •  Sort  by,  Cluster  by,  Distributed  By  のような MapReduce  機能   •  インデックス,  ロックなど  
  • 37. © MapR Technologies, confidential ® Shark/Spark
  • 38. © MapR Technologies, confidential ® SPARK 関連プロジェクト Spark Spark Streaming (real-time) GraphX (graph) Shark" (Hive on Spark) MLbase (machine learning) BlinkDB
  • 39. © MapR Technologies, confidential ® Spark のアプローチ •  用途を特化するのではなく、MapReduce  を 汎用化 して新しい アプリを同じエンジンでサポート   •  前述のモデルを表現するためには、2つの変更  (汎用タスク  DAG   &  データ共有)  で十分   •  統合による大きな利点   – エンジンにとっての利点   – ユーザにとっての利点   Spark Streaming GraphX Shark MLbase
  • 40. © MapR Technologies, confidential ® Spark の RDD •  RDD  =  Read-­‐only,  parUUoned,  collecUon  of  records   – ディスクへの書き出しや、ディスクからの再構築が可能   •  RDD  は様々な変換によって生成される   – RDD  セットは変換の  Lineage  (系統)と共に運ばれる   •  Lineage  は障害時にデータを復旧するために使われる   – ほとんど  RAM  上で操作されたであっても復旧される   messages = textFile(…).filter(…).map(…) HadoopRDD ß FilteredRDD ß MappedRDD
  • 41. © MapR Technologies, confidential ® MLlib •  機械学習ライブラリ   •  MLlib  は Scala,  Java  から呼 び出し   •  MLI:  機能拡張とアルゴリズ ム開発のための API   •  ML  OpUmizer:  モデル選択 を自動化   SPARK   MLlib   MLI   ML  Op3mizer  
  • 42. © MapR Technologies, confidential ® MLlib •  分類:            LogisUc  Regression,  Linear  SVM,  …   •  回帰:            Linear  Regression  (Lasso,  Ridge)   •  協調フィルタリング:  AlternaUng  Least  Squares   •  クラスタリング:    KMeans   •  最適化プリミティブ:  SGD,    Parallel  Gradient  
  • 43. © MapR Technologies, confidential ® デプロイメント •  Spark  0.8:    YARN,  EC2  サポート   •  Spark  0.8.1:  YARN  2.2  のサポート   •  SIMR:  Spark  を MapReduce  クラスタ内で Hadoop  ジョブとして 起動(インストール不要)   •  MLlib  0.8.1  
  • 44. © MapR Technologies, confidential ® Shark •  SHark  =  Hive  on  Spark   •  HIVE  UDF  の完全サポート   •  対応予定:  Spark  ライブラリ(例:  MLlib)の呼び出し,  オプティ マイザ,  Hive  0.11  &  0.12  
  • 45. © MapR Technologies, confidential ® Drill  1.0   Hive  0.13  +  Tez   Impala  1.x   Presto  0.56   Shark  0.8   レイテンシ   Low   Medium   Low   Low   Low   ファイル   Yes  (すべての Hive   ファイル形式)   Yes  (すべての  Hive   ファイル形式)   Yes  (Parquet,   Sequence,  …)   Yes  (RC,  Sequence,   Text)   Yes  (すべての  Hive   ファイル形式)   HBase/M7   Yes   Yes     問題あり   No   Yes   スキーマ   Hive  or  スキーマレス   Hive   Hive   Hive   Hive   SQL  サポート   ANSI  SQL   HiveQL   HiveQL  (サブセット)   ANSI  SQL   HiveQL   クライアントサ ポート   ODBC/JDBC   ODBC/JDBC     ODBC/JDBC     JDBC     ODBC/JDBC     大きなジョイン   Yes   Yes   No   No   No   ネストデータ   Yes   Limited   No   Limited   Limited   Hive  UDF   Yes   Yes   Limited   No   Yes   トランザクション   No   No   No   No   No   オプティマイザ   Limited   Limited   Limited   Limited   Limited   同時実行   Limited   Limited   Limited   Limited   Limited   インタラクティブ SQL-on-Hadoop の選択肢
  • 46. © MapR Technologies, confidential ® その他の Spark プロジェクト
  • 47. © MapR Technologies, confidential ® Spark Streaming ストリーミング処理を非常に小さい  Determinis3c  な(入力に 対し出力が一意に決まる)一連の   バッチジョブとして実行   47 Spark   Spark   Streaming   数秒ずつのデータ群   ライブデータストリーム   処理結果   §  ライブストリームを数秒ずつのデータ群に切 り刻む   §  Spark  はそれぞれのデータ群を  RDD  として 扱い、RDD  処理を施していく   §  最終的に  RDD  処理の結果がデータ群として 返される  
  • 48. © MapR Technologies, confidential ® 例: Twitter からハッシュタグを取得 val  tweets  =  ssc.twitterStream(<Twitterユーザ名>,  <Twitterパスワード>)     DStream:  分散データストリームを表現する分散データセットのシーケンス  (RDD)   batch  @  t+1  batch  @  t   batch  @  t+2   tweets  DStream   RDD(変更不可の分散データセット)として メモリ上に格納される   Twiter  ストリーミング API  
  • 49. © MapR Technologies, confidential ® 例: Twitter からハッシュタグを取得 val  tweets  =  ssc.twitterStream(<Twitter  username>,  <Twitter  password>)   val  hashTags  =  tweets.flatMap  (status  =>  getTags(status))     flatMap   flatMap   flatMap   …   変換:  1つの DStream  中のデータに手を加えて別の DStream  を作る  新しい DStream   バッチ毎に新しい RDD  が 作られる   batch  @  t+1  batch  @  t   batch  @  t+2   tweets  DStream   hashTags  Dstream   [#cat,  #dog,  …  ]  
  • 50. © MapR Technologies, confidential ® tagCounts   例: 直近1分間のハッシュタグをカウント val  tagCounts  =  hashTags.window(Minutes(1),  Seconds(1)).countByValue()     hashTags   t-­‐1   t   t+1   t+2   t+3   スライディングウィンドウ   countByValue   ウィンドウ内の全 データをカウント  
  • 51. © MapR Technologies, confidential ® 標準ライブラリ •  Spark  Streaming:   継続運用のための改善と最適化が次期バージョン  0.9  に含まれる予定   •  BlinkDB:   まだ出たばかり   DataBricks   による取り組み   Spark Spark Streaming (real-time) GraphX (graph) Shark" (Hive on Spark) MLbase (machine learning) BlinkDB
  • 52. © MapR Technologies, confidential ® 大規模データセットに対するインタラクティブで  SQL  ライ クな集約クエリをサポート(サンプリング+近似を利用)   blinkdb> SELECT AVG(jobtime) FROM very_big_log!              WHERE src = ‘hadoop’! ! ! ! ! LEFT OUTER JOIN logs2! ! ON very_big_log.id = logs.id   現在  Alpha,  バージョン  0.1.1     Blink  DB  
  • 53. © MapR Technologies, confidential ® a
  • 54. © MapR Technologies, confidential ® HP Vertica とは? ノード1   ノード2   ノードn   •  MPP  カラムストアデータベース   •  データはクラスタ内で分散格納   •  並列にロード・クエリ処理を行う機能を提供   •  高速 SQL  クエリエンジン   •  オバマの  2012  再選キャンペーンで使われたことで有名  
  • 55. © MapR Technologies, confidential ® SQL on Hadoop: 2つのアプローチ 既存  DB  の改良   Pivotal  HAWQ,  MS  PolyBase,  IBM  BigSQL   Hadoop  SQL   Impala,  Drill,  Presto,  Hive  on  Tez,  Shark     テクノロジー アプローチ   従来の  MPP  エンジンが Hadoop  をスト レージとして利用     専用のファイル形式でデータをロードし、 専用のメタデータストアを使う必要がある   Hadoop  をストレージと処理の両方に使用す る、目的特化型のクエリエンジン     Hadoop  のオープンなファイル形式と Hadoop  のメタデータ  (Hive/Hcatalog)  を利用   利点   より完全な  SQL   成熟   コスト効率   スケーラビリティ   再利用  
  • 56. © MapR Technologies, confidential ® •  実際は統合されていない  –  MPP  DWHの例   典型的な Database-on-Hadoop のしくみ MPPデータベース   HiveServer2   via  ODBC   Hadoop  HDFS  コネクタ   ローカルディスク   クエリ   データ   ここを管理する必要がある   クエリプランナーはHadoop上のデータがどこにあってどのよ うに分散されているかが分からない  
  • 57. © MapR Technologies, confidential ® +ve:    高い性能   -­‐ve:      管理が難しい   ローカルディスクと NAS/SAN の比較 高い管理性:   -­‐  拡張可能なストレージ   -­‐  ディスクスペースの効率的な利用   -­‐  故障コンポーネントの修理/交換   -­‐  ダウンタイムなしのシームレスなアップグレード   -­‐  性能の調整   -­‐  バックアップとディザスターリカバリ   データベース   ローカルディスクストレージ   データベース   SAN/NAS  ストレージ  
  • 58. © MapR Technologies, confidential ® MapR: NAS の機能を備えたローカルディスク •  MapR  のみが完全な  NAS  機能を備えつつローカルディスク の性能を提供   – 動的なスペース管理   – 性能の調整   – 階層化   – 即時の一貫性のあるバックアップ   – ディスクエラーからの自動復旧   – 完全な  DR  ソリューションを内蔵   完全 Read/Write ビルトイン圧縮 分散メタデータ Web Server … Database Server Application Server
  • 59. © MapR Technologies, confidential ® •  VerUca  は唯一の真にHadoopと統合されたデータベースに   Vertica on MapR クエリ   データ   完全に管理されたストレージ、別の SAN/NAS  の必要なし   クエリプランナーはHadoop の上のデータローカリティを フルに活用  
  • 60. © MapR Technologies, confidential ® 幅広い分析機能 •  1つのプラットフォーム上で幅広い分析機能を利用可能   – HP  VerUca  に内蔵された様々な分析機能   – Mahout,  Hive,  Pig  を含む Hadoop  プロジェクト   •  MapR  上の HP  VerUca  は、様々な  BI  ツールと検証済みで、 自動生成された  SQL  の実行に最適化されている     •  HP  VerUca  Flex  Zone  による高速なスキーマレスデータの探索    
  • 61. © MapR Technologies, confidential ® 運用管理         APACHE HADOOP と OSS エコシステム Spark   Hue   HP   VerUca   Shark  Impala  Drill   Hive/   SUnger/   Tez   Storm   Sentry  Solr  Mahout  Cascading  Zookeeper  Flume   Oozie   HBase  MapReduce  YARN  Pig  Whirr  Sqoop   エンタープライズ Hadoop エンタープライズグレード 相互運用性 マルチテナント セキュリティ 業務利用 MapR  データプラットフォーム