SlideShare une entreprise Scribd logo
1  sur  29
1 
Copyright © 2014 NTT DATA Corporation 
(株) NTTデータ基盤システム事業本部 
鯵坂明 
2014/10/18 OSC 2014 Tokyo/Fall 
分散処理基盤Apache Hadoopの現状と、 
NTTデータのHadoopに対する取り組み
2 
Copyright © 2014 NTT DATA Corporation 
NTTデータOSSプロフェッショナルサービス 
Hadoop関連のR&Dやシステム開発に従事 
約1年前からHadoop本体の開発に参加 
ドキュメント 
バグフィックス 
運用強化 
などなど 
自己紹介:鯵坂明(あじさかあきら)
3 
Copyright © 2014 NTT DATA Corporation 
Hadoop概要 
Hadoop最新機能 
NTTデータのHadoopコミュニティに対する 取り組み 
アジェンダ
Copyright © 2014 NTT DATA Corporation 
4 
Hadoop概要
5 
Copyright © 2014 NTT DATA Corporation 
Hadoopとは? 
オープンソースの大規模分散処理フレームワーク 
•Googleの基盤ソフトウェアのオープンソース版クローン(GFS, MapReduce) 
•Apacheプロジェクト(http://hadoop.apache.org/) 
Yahoo Research のDoug Cutting 氏(現Cloudera社)がJavaで開発 
『扱うデータがビッグ(大容量・多件数)であるために、従来のITアーキ 
テクチャでは難しかった、もしくは超高コストでしか実現できなかった 
データ活用が可能となる』 
Dougさんのお子さんの 
お気に入りだったぬいぐるみ
6 
Copyright © 2014 NTT DATA Corporation 
分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの 高スループット化など多数データの処理にも向いている 
データを蓄積、変換するといった使い方でコストパフォーマンスが高い 
秒 
分 
時間 
日 
Hadoopの特長 
レイテンシ 
バッチ処理 
リアルタイム処理 
データサイズ 
少ない 
多い 
オンライン処理 
汎用検索 
GB(ギガバイト) 
TB(テラバイト) 
PB(ペタバイト) 
TB(テラバイト) 
大容量データ処理 
オンバッチ処理 
純バッチ処理 
Hadoop 
適応領域 
RDBMS 
適応領域 
多件数データ処理 
既存処理の高速化 
ログ蓄積・分析 
全データを走査し、加工、転 記するようなバッチ処理 
機械学習 
レコメンデーション 
ロングテールのデータ分析
Copyright © 2014 NTT DATA Corporation 7 
HadoopマスタノードHadoopスレーブノード 
Hadoopクラスタの概要 
 集中管理型の分散システム 
• 分散処理ジョブやデータ情報の管理はマスタノードの役割 
• 分散処理の実行やデータ実体の保存はスレーブノードの役割 
 スレーブノードを増やすことで、全体の処理性能・容量を向上させる 
スケールアウトアーキテクチャ 
ResourceManager NodeManager NodeManager NodeManager 
分散処理フレームワークYARN 
(Yet Another Resource Negotiator) 
NameNode DataNode DataNode DataNode 
Hadoop分散ファイルシステム 
(HDFS)
8 
Copyright © 2014 NTT DATA Corporation 
Hadoop2系で導入されたフレームワーク 
1系のJobTrackerの役割を分割 
クラスタ全体のリソース管理: YARN ResourceManager 
タスクスケジューリング: MapReduceApplicationMaster 
メリット 
複数の分散処理系を、同一クラスタ上で動かせる 
YARN (Yet Another Resource Negotiator) 
HDFS 
MapReduce 
HDFS 
Map 
Reduce 
YARN 
Spark 
Impala 
Hadoop1系 
Hadoop2系
Copyright © 2014 NTT DATA Corporation 
9 
Hadoop最新機能
10 
Copyright © 2014 NTT DATA Corporation 
2013/11に、Hadoop 2.2(GA)がリリース 
YARN 
HDFS High-Availability 
HDFS Snapshot 
HDFS NFSv3 mount 
それ以降も、年に3~4回のリリースが続く 
ただし、1系のリリースはない 
現在の主流は、Hadoop 2系
11 
Copyright © 2014 NTT DATA Corporation 
2.2のリリースからおよそ1年経過して、数多くの機能が追加された 
2.3 (2014/2 リリース) 
HDFS in-memory caching 
-DataNodeの共有メモリにデータを保持して、ディスクからの読み込みを避ける(zero-copy read) 
Heterogeneous Storage (Phase 1) 
-DataNodeのディスクのラベル分け(HDD, SSD, ...) 
2.4 (2014/4リリース) 
Application Timeline Server 
-ジョブの履歴を見るにはApplication(MapReduce, Spark, ...)ごとにHistoryServerが必要だった 
-Applicationに依存しない仕組みをTimeline Serverで提供 
HDFS POSIX ACLs 
Resource Manager Restart (Phase 1) 
-ResourceManagerの自動フェールオーバー 
-フェールオーバーすると、NodeManager上の処理は再実行される 
HDFS Rolling Upgrades 
-順番にノードを再起動することで、クラスタを停止させずにアップグレード可能 
-2.4以降"から"のアップグレードで適用可 
進化を続けるHadoop
12 
Copyright © 2014 NTT DATA Corporation 
2.5 (2014/8 リリース) 
Extended Attributes 
-ext4, xfsなどのファイルシステムにある拡張属性と同等のものを、HDFSに実装 
-DataNode側のファイルシステムには依存しない 
2.6 (10月末から11月頭にリリース予定) 
HDFS Transparent Encryption 
-ファイルを暗号化してDataNodeのディスクに書き込む 
Heterogeneous Storage (Phase 2) 
-データの種類ごとにレプリカを置くディスクの種類を変更 
-Hot DataはSSDに、Cold DataはHDDに 
Resource Manager Restart (Phase 2) 
-Resource Managerがフェールオーバーしても、NodeManager上の処理は継続 
2.6の主要機能である暗号化について、次ページ以降で詳しく紹介 
進化を続けるHadoop
13 
Copyright © 2014 NTT DATA Corporation 
背景 
HDFSに暗号化の機能は存在しなかった 
-ファイルはDataNodeのディスクからそのまま読めてしまう 
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離 することで担保されていた 
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求 を満たせない 
要求 
上位のアプリケーションに対して変更がない 
暗号/復号が高速 
seek、appendに対応 
HDFS Transparent Encryption
14 
Copyright © 2014 NTT DATA Corporation 
暗号化前後で、ファイルサイズに変更がない 
上位のアプリケーションに影響しない 
暗号/復号が並列化可能 
ランダムアクセスが可能 
暗号化にはAES-CTRを利用 
KeyとNonce(IV)で、 
暗号/復号方法が 
一意に定まる
15 
Copyright © 2014 NTT DATA Corporation 
AES-CTRで使われる用語 
Key 
暗号/復号に必要な鍵 
秘密にしておくもの 
Hadoopでは、XAttrs(拡張属性)に暗号化した状態で保存 
-Hadoop 2.5で追加された機能 
Keyの暗号/復号鍵はKMS(Key Management Server)で管理 
Nonce 
暗号/復号のための初期値 
必ずしも秘密にする必要はないが、万が一Keyが漏れた場合に 備えてファイルごとに変えておくべき値 
XAttrs(拡張属性)に保存 
KeyとNonce
16 
Copyright © 2014 NTT DATA Corporation 
ファイルを暗号化して書き込む流れ(概略図) 
Client 
DataNode 
NameNode 
KMS 
7. Keyの復号鍵を 
送付 
1. ファイルの暗号化要求 
3. NameNodeに暗号化したKeyとNonceを送付 
9. 暗号化したファイルを 
書き込む 
8. 復号したKeyで、 
ファイルを暗号化 
2. KMSにKeyの生成および暗号化を依頼 
4. 暗号化された 
KeyとNonceを保存 
5. 暗号化されたKeyとNonce、 
データを書き込むDataNodeの位置を送付 
6. Keyの復号鍵を 
要求 
Clientに対する 
認証サーバの役割をもつ 
(Kerberosにも対応)
17 
Copyright © 2014 NTT DATA Corporation 
暗号化されたファイルを読み込む流れ(概略図) 
NameNode 
DataNode 
Client 
KMS 
3. Keyの復号鍵を 
要求 
4. Keyの復号鍵を 
送付 
1. ファイルの読み込み要求 
2. 暗号化されたKeyとNonce、 
データを保持するDataNodeの位置を送付 
6. 暗号化されたファイルの 
読み込み要求 
7. 暗号化された 
ファイルを送付 
5. Keyを復号 
8. 暗号化された 
ファイルを復号 
これら一連の処理は、DFSClientで実装されている 
アプリケーション側で意識する必要はない
18 
Copyright © 2014 NTT DATA Corporation 
2.7も、近いうちにリリースされる 
2.6の直後にリリース 
機能追加ではなく、JDK6サポートを打ち切るための例外的なリリース 
2.7以降では、JDK7のAPIを使った開発ができる 
Multiple Catch Block 
try-with-resources Statement 
関連ライブラリのバージョンアップ(Tomcat, Google Guava, Jetty, ...) 
JDK8で動作させるための取り組みも継続 
コミュニティでも、JDK7のEOL(2015/3)は気にしている 
ただし、lambdaなど、JDK8で追加されたAPIはまだ使えない 
今後の追加機能(予定) 
YARN Rolling Upgrades 
Dynamic resource configuration 
Dockercontainers in YARN 
などなど 
今後の開発予定
Copyright © 2014 NTT DATA Corporation 
19 
NTTデータのHadoopコミュニティに対する取り組み
20 
Copyright © 2014 NTT DATA Corporation 
Hadoopを多数運用してきたことで得られた知見をもとに、 改善提案をコミュニティにフィードバックしています 
運用上特に問題となるバグの改修 
利用者向けのドキュメントの拡充 
運用、トラブルシュートを便利にする機能の開発 
-OfflineImageViewervia the WebHDFSAPI 
-HDFS Tracing 
コミッタ輩出も目指しています 
日経コンピュータの記事を参照 http://itpro.nikkeibp.co.jp/atclact/active/14/092400070/ 
活動状況 
-2013年: 解決issue件数世界6位、コード変更行数世界9位 
-2014年1月~9月:解決issue件数世界4位、コード変更行数世界4位 
コミュニティへの貢献
21 
Copyright © 2014 NTT DATA Corporation 
OIV: HDFSのメタ情報(fsimage)を見るためのツール 
2.4までは、全情報をdumpすることしかできなかった 
-Namespaceが巨大な場合、出力結果も膨大に 
-特定の情報だけ見たい場合に不便 
取り組み: jhatに似たオプションを追加 
Webサーバを起動し、WebHDFSAPI(REST)経由でアクセス 
特定のディレクトリの情報だけ出力することが可能 
Hadoop 2.5 (最新リリース) から利用可能 
OfflineImageViewer(OIV) via WebHDFSAPI
22 
Copyright © 2014 NTT DATA Corporation 
OfflineImageViewer(OIV) via WebHDFSAPI
23 
Copyright © 2014 NTT DATA Corporation 
今後の取り組み 
HDFS版findコマンドとの組み合わせで、メタ情報の検索を 可能に 
メイン部分はレビューが完了 
追加オプションの開発、レビューを続けて行く 
OfflineImageViewer(OIV) via WebHDFSAPI
24 
Copyright © 2014 NTT DATA Corporation 
HTrace: 分散システム向けプロファイリングツール 
Google Dapperのオープンソース実装 
RPC層に、トレースするための情報を埋め込む 
すでにHBaseでは採用されている 
取り組み: Hadoopからも、HTraceを利用可能に 
専用のViewerを使うことで、NameNodeとDataNodeのどの 処理でどれだけ時間がかかっているのか一目でわかる 
ボトルネックの解析、性能チューニングがしやすい 
Hadoop 2.6(次のリリース)から利用可能 
HDFS Tracing
25 
Copyright © 2014 NTT DATA Corporation 
HDFS Tracing
26 
Copyright © 2014 NTT DATA Corporation 
今後の取り組み 
利便性の向上 
より詳細な情報取得 
YARN対応 
HDFS Tracing
27 
Copyright © 2014 NTT DATA Corporation 
Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する ためのフレームワークです 
数台から始めて、数千台(データ量にして数十PB)までスケールアウトします 
Hadoopの開発の勢いは今も活発です 
性能面、運用面で便利な機能がどんどん追加されています 
NTTデータも、Hadoopの開発に参戦しています 
バグフィックスや、運用を便利にするための機能開発に取り組んでいます 
コミッタ輩出、さらなる開発力の向上を目指しています 
また、Hadoopだけではなく、Spark、Stormなどの分散処理フレーム ワークにも取り組んでいます 
互いの長所を活かし、組み合わせることが重要だと考えています 
まとめ
28 
Copyright © 2014 NTT DATA Corporation 
NTTデータはこれまでに数台~千台規模のサーバによるHadoopシステムを構築・運 用してきた実績を有しており、業務システムや社会基盤システムとしてHadoopを活用す るノウハウを保持しています。 
単純なHadoop環境の構築だけでなく、お客様のデータを活用し新しいビジネス機会 を生み出すシステムの実現のためのコンサルティング、システム構築、運用設計、導入 後のサポートまで幅広く対応します。 
おわりに: NTTデータのHadoop関連サービスメニュー 
企画 
設計~試験 
移行 
運用 
Hadoop・分散処理 
コンサルティング 
サービス 
Hadoop 
分散処理環境 
構築サービス 
Hadoop・分散処理 
評価支援サービス 
Hadoopトレーニング 
Hadoop 
サポートサービス
Copyright © 2011 NTT DATA Corporation 
Copyright © 2014NTT DATA Corporation 
お問い合わせ先: 
株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス 
URL: http://oss.nttdata.co.jp/hadoop 
メール:hadoop@kits.nttdata.co.jpTEL:050-5546-2496

Contenu connexe

Tendances

サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)NTT DATA OSS Professional Services
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向 Masanori Itoh
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)NTT DATA OSS Professional Services
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...NTT DATA Technology & Innovation
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata
 

Tendances (20)

サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 

En vedette

Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTData
Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTDataHadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTData
Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTDataCloudera, Inc.
 
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポートNTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポートNTT DATA OSS Professional Services
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache SparkについてBrainPad Inc.
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 

En vedette (11)

Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTData
Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTDataHadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTData
Hadoop World 2011: Hadoop’s Life in Enterprise Systems - Y Masatani, NTTData
 
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポートNTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
 
Hadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT DataHadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT Data
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache Sparkについて
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
HTrace: Tracing in HBase and HDFS (HBase Meetup)
HTrace: Tracing in HBase and HDFS (HBase Meetup)HTrace: Tracing in HBase and HDFS (HBase Meetup)
HTrace: Tracing in HBase and HDFS (HBase Meetup)
 
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 

Similaire à 分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
 
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介Toru Makabe
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Yifeng Jiang
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...NTT DATA Technology & Innovation
 
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~decode2016
 
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Toru Makabe
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...NTT DATA Technology & Innovation
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話Yahoo!デベロッパーネットワーク
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたものcyberagent
 

Similaire à 分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み (20)

Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
 
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
JSUG 2018/02/05 SpringOnePlatform2017参加報告 プラットフォーム関連のお話
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 

Plus de NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)NTT DATA OSS Professional Services
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...NTT DATA OSS Professional Services
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...NTT DATA OSS Professional Services
 

Plus de NTT DATA OSS Professional Services (19)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
 
PostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もうPostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もう
 

Dernier

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Dernier (7)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

  • 1. 1 Copyright © 2014 NTT DATA Corporation (株) NTTデータ基盤システム事業本部 鯵坂明 2014/10/18 OSC 2014 Tokyo/Fall 分散処理基盤Apache Hadoopの現状と、 NTTデータのHadoopに対する取り組み
  • 2. 2 Copyright © 2014 NTT DATA Corporation NTTデータOSSプロフェッショナルサービス Hadoop関連のR&Dやシステム開発に従事 約1年前からHadoop本体の開発に参加 ドキュメント バグフィックス 運用強化 などなど 自己紹介:鯵坂明(あじさかあきら)
  • 3. 3 Copyright © 2014 NTT DATA Corporation Hadoop概要 Hadoop最新機能 NTTデータのHadoopコミュニティに対する 取り組み アジェンダ
  • 4. Copyright © 2014 NTT DATA Corporation 4 Hadoop概要
  • 5. 5 Copyright © 2014 NTT DATA Corporation Hadoopとは? オープンソースの大規模分散処理フレームワーク •Googleの基盤ソフトウェアのオープンソース版クローン(GFS, MapReduce) •Apacheプロジェクト(http://hadoop.apache.org/) Yahoo Research のDoug Cutting 氏(現Cloudera社)がJavaで開発 『扱うデータがビッグ(大容量・多件数)であるために、従来のITアーキ テクチャでは難しかった、もしくは超高コストでしか実現できなかった データ活用が可能となる』 Dougさんのお子さんの お気に入りだったぬいぐるみ
  • 6. 6 Copyright © 2014 NTT DATA Corporation 分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの 高スループット化など多数データの処理にも向いている データを蓄積、変換するといった使い方でコストパフォーマンスが高い 秒 分 時間 日 Hadoopの特長 レイテンシ バッチ処理 リアルタイム処理 データサイズ 少ない 多い オンライン処理 汎用検索 GB(ギガバイト) TB(テラバイト) PB(ペタバイト) TB(テラバイト) 大容量データ処理 オンバッチ処理 純バッチ処理 Hadoop 適応領域 RDBMS 適応領域 多件数データ処理 既存処理の高速化 ログ蓄積・分析 全データを走査し、加工、転 記するようなバッチ処理 機械学習 レコメンデーション ロングテールのデータ分析
  • 7. Copyright © 2014 NTT DATA Corporation 7 HadoopマスタノードHadoopスレーブノード Hadoopクラスタの概要  集中管理型の分散システム • 分散処理ジョブやデータ情報の管理はマスタノードの役割 • 分散処理の実行やデータ実体の保存はスレーブノードの役割  スレーブノードを増やすことで、全体の処理性能・容量を向上させる スケールアウトアーキテクチャ ResourceManager NodeManager NodeManager NodeManager 分散処理フレームワークYARN (Yet Another Resource Negotiator) NameNode DataNode DataNode DataNode Hadoop分散ファイルシステム (HDFS)
  • 8. 8 Copyright © 2014 NTT DATA Corporation Hadoop2系で導入されたフレームワーク 1系のJobTrackerの役割を分割 クラスタ全体のリソース管理: YARN ResourceManager タスクスケジューリング: MapReduceApplicationMaster メリット 複数の分散処理系を、同一クラスタ上で動かせる YARN (Yet Another Resource Negotiator) HDFS MapReduce HDFS Map Reduce YARN Spark Impala Hadoop1系 Hadoop2系
  • 9. Copyright © 2014 NTT DATA Corporation 9 Hadoop最新機能
  • 10. 10 Copyright © 2014 NTT DATA Corporation 2013/11に、Hadoop 2.2(GA)がリリース YARN HDFS High-Availability HDFS Snapshot HDFS NFSv3 mount それ以降も、年に3~4回のリリースが続く ただし、1系のリリースはない 現在の主流は、Hadoop 2系
  • 11. 11 Copyright © 2014 NTT DATA Corporation 2.2のリリースからおよそ1年経過して、数多くの機能が追加された 2.3 (2014/2 リリース) HDFS in-memory caching -DataNodeの共有メモリにデータを保持して、ディスクからの読み込みを避ける(zero-copy read) Heterogeneous Storage (Phase 1) -DataNodeのディスクのラベル分け(HDD, SSD, ...) 2.4 (2014/4リリース) Application Timeline Server -ジョブの履歴を見るにはApplication(MapReduce, Spark, ...)ごとにHistoryServerが必要だった -Applicationに依存しない仕組みをTimeline Serverで提供 HDFS POSIX ACLs Resource Manager Restart (Phase 1) -ResourceManagerの自動フェールオーバー -フェールオーバーすると、NodeManager上の処理は再実行される HDFS Rolling Upgrades -順番にノードを再起動することで、クラスタを停止させずにアップグレード可能 -2.4以降"から"のアップグレードで適用可 進化を続けるHadoop
  • 12. 12 Copyright © 2014 NTT DATA Corporation 2.5 (2014/8 リリース) Extended Attributes -ext4, xfsなどのファイルシステムにある拡張属性と同等のものを、HDFSに実装 -DataNode側のファイルシステムには依存しない 2.6 (10月末から11月頭にリリース予定) HDFS Transparent Encryption -ファイルを暗号化してDataNodeのディスクに書き込む Heterogeneous Storage (Phase 2) -データの種類ごとにレプリカを置くディスクの種類を変更 -Hot DataはSSDに、Cold DataはHDDに Resource Manager Restart (Phase 2) -Resource Managerがフェールオーバーしても、NodeManager上の処理は継続 2.6の主要機能である暗号化について、次ページ以降で詳しく紹介 進化を続けるHadoop
  • 13. 13 Copyright © 2014 NTT DATA Corporation 背景 HDFSに暗号化の機能は存在しなかった -ファイルはDataNodeのディスクからそのまま読めてしまう もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離 することで担保されていた だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求 を満たせない 要求 上位のアプリケーションに対して変更がない 暗号/復号が高速 seek、appendに対応 HDFS Transparent Encryption
  • 14. 14 Copyright © 2014 NTT DATA Corporation 暗号化前後で、ファイルサイズに変更がない 上位のアプリケーションに影響しない 暗号/復号が並列化可能 ランダムアクセスが可能 暗号化にはAES-CTRを利用 KeyとNonce(IV)で、 暗号/復号方法が 一意に定まる
  • 15. 15 Copyright © 2014 NTT DATA Corporation AES-CTRで使われる用語 Key 暗号/復号に必要な鍵 秘密にしておくもの Hadoopでは、XAttrs(拡張属性)に暗号化した状態で保存 -Hadoop 2.5で追加された機能 Keyの暗号/復号鍵はKMS(Key Management Server)で管理 Nonce 暗号/復号のための初期値 必ずしも秘密にする必要はないが、万が一Keyが漏れた場合に 備えてファイルごとに変えておくべき値 XAttrs(拡張属性)に保存 KeyとNonce
  • 16. 16 Copyright © 2014 NTT DATA Corporation ファイルを暗号化して書き込む流れ(概略図) Client DataNode NameNode KMS 7. Keyの復号鍵を 送付 1. ファイルの暗号化要求 3. NameNodeに暗号化したKeyとNonceを送付 9. 暗号化したファイルを 書き込む 8. 復号したKeyで、 ファイルを暗号化 2. KMSにKeyの生成および暗号化を依頼 4. 暗号化された KeyとNonceを保存 5. 暗号化されたKeyとNonce、 データを書き込むDataNodeの位置を送付 6. Keyの復号鍵を 要求 Clientに対する 認証サーバの役割をもつ (Kerberosにも対応)
  • 17. 17 Copyright © 2014 NTT DATA Corporation 暗号化されたファイルを読み込む流れ(概略図) NameNode DataNode Client KMS 3. Keyの復号鍵を 要求 4. Keyの復号鍵を 送付 1. ファイルの読み込み要求 2. 暗号化されたKeyとNonce、 データを保持するDataNodeの位置を送付 6. 暗号化されたファイルの 読み込み要求 7. 暗号化された ファイルを送付 5. Keyを復号 8. 暗号化された ファイルを復号 これら一連の処理は、DFSClientで実装されている アプリケーション側で意識する必要はない
  • 18. 18 Copyright © 2014 NTT DATA Corporation 2.7も、近いうちにリリースされる 2.6の直後にリリース 機能追加ではなく、JDK6サポートを打ち切るための例外的なリリース 2.7以降では、JDK7のAPIを使った開発ができる Multiple Catch Block try-with-resources Statement 関連ライブラリのバージョンアップ(Tomcat, Google Guava, Jetty, ...) JDK8で動作させるための取り組みも継続 コミュニティでも、JDK7のEOL(2015/3)は気にしている ただし、lambdaなど、JDK8で追加されたAPIはまだ使えない 今後の追加機能(予定) YARN Rolling Upgrades Dynamic resource configuration Dockercontainers in YARN などなど 今後の開発予定
  • 19. Copyright © 2014 NTT DATA Corporation 19 NTTデータのHadoopコミュニティに対する取り組み
  • 20. 20 Copyright © 2014 NTT DATA Corporation Hadoopを多数運用してきたことで得られた知見をもとに、 改善提案をコミュニティにフィードバックしています 運用上特に問題となるバグの改修 利用者向けのドキュメントの拡充 運用、トラブルシュートを便利にする機能の開発 -OfflineImageViewervia the WebHDFSAPI -HDFS Tracing コミッタ輩出も目指しています 日経コンピュータの記事を参照 http://itpro.nikkeibp.co.jp/atclact/active/14/092400070/ 活動状況 -2013年: 解決issue件数世界6位、コード変更行数世界9位 -2014年1月~9月:解決issue件数世界4位、コード変更行数世界4位 コミュニティへの貢献
  • 21. 21 Copyright © 2014 NTT DATA Corporation OIV: HDFSのメタ情報(fsimage)を見るためのツール 2.4までは、全情報をdumpすることしかできなかった -Namespaceが巨大な場合、出力結果も膨大に -特定の情報だけ見たい場合に不便 取り組み: jhatに似たオプションを追加 Webサーバを起動し、WebHDFSAPI(REST)経由でアクセス 特定のディレクトリの情報だけ出力することが可能 Hadoop 2.5 (最新リリース) から利用可能 OfflineImageViewer(OIV) via WebHDFSAPI
  • 22. 22 Copyright © 2014 NTT DATA Corporation OfflineImageViewer(OIV) via WebHDFSAPI
  • 23. 23 Copyright © 2014 NTT DATA Corporation 今後の取り組み HDFS版findコマンドとの組み合わせで、メタ情報の検索を 可能に メイン部分はレビューが完了 追加オプションの開発、レビューを続けて行く OfflineImageViewer(OIV) via WebHDFSAPI
  • 24. 24 Copyright © 2014 NTT DATA Corporation HTrace: 分散システム向けプロファイリングツール Google Dapperのオープンソース実装 RPC層に、トレースするための情報を埋め込む すでにHBaseでは採用されている 取り組み: Hadoopからも、HTraceを利用可能に 専用のViewerを使うことで、NameNodeとDataNodeのどの 処理でどれだけ時間がかかっているのか一目でわかる ボトルネックの解析、性能チューニングがしやすい Hadoop 2.6(次のリリース)から利用可能 HDFS Tracing
  • 25. 25 Copyright © 2014 NTT DATA Corporation HDFS Tracing
  • 26. 26 Copyright © 2014 NTT DATA Corporation 今後の取り組み 利便性の向上 より詳細な情報取得 YARN対応 HDFS Tracing
  • 27. 27 Copyright © 2014 NTT DATA Corporation Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する ためのフレームワークです 数台から始めて、数千台(データ量にして数十PB)までスケールアウトします Hadoopの開発の勢いは今も活発です 性能面、運用面で便利な機能がどんどん追加されています NTTデータも、Hadoopの開発に参戦しています バグフィックスや、運用を便利にするための機能開発に取り組んでいます コミッタ輩出、さらなる開発力の向上を目指しています また、Hadoopだけではなく、Spark、Stormなどの分散処理フレーム ワークにも取り組んでいます 互いの長所を活かし、組み合わせることが重要だと考えています まとめ
  • 28. 28 Copyright © 2014 NTT DATA Corporation NTTデータはこれまでに数台~千台規模のサーバによるHadoopシステムを構築・運 用してきた実績を有しており、業務システムや社会基盤システムとしてHadoopを活用す るノウハウを保持しています。 単純なHadoop環境の構築だけでなく、お客様のデータを活用し新しいビジネス機会 を生み出すシステムの実現のためのコンサルティング、システム構築、運用設計、導入 後のサポートまで幅広く対応します。 おわりに: NTTデータのHadoop関連サービスメニュー 企画 設計~試験 移行 運用 Hadoop・分散処理 コンサルティング サービス Hadoop 分散処理環境 構築サービス Hadoop・分散処理 評価支援サービス Hadoopトレーニング Hadoop サポートサービス
  • 29. Copyright © 2011 NTT DATA Corporation Copyright © 2014NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール:hadoop@kits.nttdata.co.jpTEL:050-5546-2496