Contenu connexe
Similaire à NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート (20)
Plus de NTT DATA OSS Professional Services (20)
NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート
- 1. 2010年9月16日
2010年9月16日
第5回 Hadoopソースコードリーディング
第5回 Hadoopソースコードリーディング
NTTデータにおけるHadoopへの取り組み
& Hadoop Summit 2010 レポート
株式会社NTTデータ
基盤システム事業本部
濱野 賢一朗
山下 真一
Copyright ©2010 NTT DATA Corporation
- 2. 自己紹介
濱野 賢一朗 (はまの けんいちろう)
株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット
Linux/OSSを利用したシステム構築・運用をサポートする業務を担当
最近は、大規模分散処理基盤 Hadoop 屋さん
日本OSS推進フォーラム クラウド部会 部会長
情報処理推進機構(IPA) オープンソフトウェアセンタ 技術WG/人材育成WG
情報処理推進機構(IPA) 日本OSS貢献者賞 実行委員長
経済産業省 情報処理技術者試験 試験委員
日本Apacheユーザ会、日本Sambaユーザー会、日本LDAPユーザ会などの
OSSコミュニティの立ち上げや運営にも関わっている
著書に 『オープンソースソフトウェアの本当の使い方』 (技術評論社)、
『Linux教科書 LPIC レベル1・2・3』 (翔泳社) などがある。
Copyright ©2010 NTT DATA Corporation 1
- 4. SI事業者としてのHadoopの位置づけ
今まで扱うことが難しかった領域を切り拓く
ペタバイトクラスのデータ、大規模分散処理 など
プロセス指向だけでなく、データ指向に基づいたシステムの浸透
スケールアウト技術が身近なものに
コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化
新しい処理モデルやデータモデルの浸透
アプローチ
新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す
今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現
活用例
POSデータなどの解析による顧客動向の分析システム
ログ解析による広告最適化を支援するシステム
大規模Webサイトのログ解析システム
レコメンデーションを支えるシステム など
Copyright ©2010 NTT DATA Corporation 3
- 5. OSS構築実績 (規模・処理量マップ)
処理量
(万件/時)
60 今後の 先見派
● ターゲット
領域
40
●
PostgreSQL ●
● 構築・運用中
●
20 ●
●
Hadoop
実
●
10 証
●
● ●
環
●
● 境
5 ● ● ●
● ●
● ●
10万件 100万件 300万件 500万件 1000万件 1億件 10億件
DB規模
Copyright ©2010 NTT DATA Corporation 4
- 8. Hadoop World NYC 2010
Hadoop World: NYC 2010
日程: 2010年10月12日
会場: Hilton New York
主催: Cloudera社
Hadoopの活用事例が中心
Keynoteは Tim O’Relly 氏
Bank of America、GE、AOL
Yahoo!、eBay、Twitter、facebook など
参加される方!
数名であれば、ディスカウントコードが
あります。
Copyright ©2010 NTT DATA Corporation 7
- 10. Hadoop Summit 2010 概要
[日時] 2010年6月29日 (火) 9:00 – 18:00
[場所] Hyatt Regency Santa Clara, Santa Clara, CA, USA
[主催] Yahoo! (米国)
[参加者] 1000人程度
米国内の企業からの参加者が
大半を占める
Copyright ©2010 NTT DATA Corporation 9
- 11. 午前: Keynoteセッション
Time Agenda
Big Data and the Power of Hadoop
Blake Irving, Executive Vice President and Chief Products Officer, Yahoo!
09:00- Hadoop and The Future of Internet Scale Cloud Computing
10:15 Shelton Shugar, Senior Vice President, Cloud Computing, Yahoo!
Scaling Hadoop
Eric Baldeschwieler, Vice President, Hadoop Software Development, Yahoo!
10:30- Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
11:00 Peter Sirota, General Manager, Elastic Map Reduce , Amazon
11:00- Hadoop Grows Up
11:30 Doug Cutting, Cloudera
11:30- Inside Large-Scale Analytics at Facebook
12:00 Mike Schroepfer, VP of Engineering, Facebook
Copyright ©2010 NTT DATA Corporation 10
- 12. Keynoteセッション (Yahoo!)
■ Big Data and The Power of Hadoop
“Mass Technology , Mass Scale , CloudComputing”
Hadoopは、大規模なデータを利用する場面で真価を発揮する。
■ Hadoop and The Future of Internet Scale Cloud Computing
“Science + Big Data + Insight = 個人の傾向 = 大きな価値”
“Yahoo!は、オープンソースとして今後もHadoopに貢献する”
Yahoo! (米) でのHadoop利用状況
120TB/day の入力データ
70PB のHadoop用蓄積データ
合計 38K nodes & 170 PB のHadoopクラスタ
100万/month のジョブをHadoopで実行
Copyright ©2010 NTT DATA Corporation 11
- 13. Hadoop and The Future of Internet Scale Cloud Computing
Copyright ©2010 NTT DATA Corporation 12
- 14. Hadoop and The Future of Internet Scale Cloud Computing
Copyright ©2010 NTT DATA Corporation 13
- 15. Hadoop and The Future of Internet Scale Cloud Computing
Copyright ©2010 NTT DATA Corporation 14
- 16. Keynoteセッション (Yahoo!)
■ Scaling Hadoop
Yahoo! でのHadoop利用事例
・ 個人の嗜好に対する分析処理
- 5億クリック/日のデータを使用して個人の嗜好を分析
- 分析処理は、5分間隔で実行
- 分析データは、Yahoo!ページのニュースやレコメンド情報で使用
- 分析情報利用前に比べて、個人の嗜好に沿ったアクセスが増加
・ スパムメールフィルタリング
- Hadoopにより数時間間隔で、フィルタルールを更新
- スパムメール受信率: Hotmailより40%減少、Gmailより55%減少
Yahoo! のHadoopへの貢献
・ Hadoopのセキュリティ対策 (Kerberosの組み込み)
・ OOZIE : Hadoop用ワークフローエンジンの開発
Copyright ©2010 NTT DATA Corporation 15
- 20. Keynoteセッション (協賛企業)
■ Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
Amazon Elastic MapReduceを Enterprise向けに対応
・ 新しいバージョンのHadoopも利用可能
これまで: Hadoop 0.18.3 / Hive 0.4 / Pig 0.5
これから: Hadoop 0.20 / Hive 0.5 / Pig 0.6
・ Bootstrap actions
Hadoopクラスタに対する柔軟な設定/実行/インストールが可能
・ Hadoop用ツールやBIソフトウェアとの連携強化
MicroStrategy (BI), Karmasphere, Datameer (Hadoop用ツール)
・ SPOT INSTANCE
Elastic MapReduce実行時に動的に処理ノードを追加/削除 可能
→ 従来に比べて、約20%のコスト削減を実現
Copyright ©2010 NTT DATA Corporation 19
- 21. Keynoteセッション (協賛企業)
■ Hadoop Grow up
Hadoopビジネスを展開しているCloudera社の発表
・ CDH (Cloudera’s Distribution for Hadoop)の最新バージョンの紹介
・ Enterprise向けにHadoopビジネスの展開
■ Inside Large-Scale Analytics at Faceboook
Hadoopコミュニティにも貢献が大きいFacebookの発表
FacebookでのHadoop利用
・ 2250nodes (総23000 cores, 32GB RAM/node), 36PBのHadoopクラスタ
・ 80-90TB/日 でHadoopにデータを格納, 25000ジョブ/日, 825TB/日のI/O
- ジョブの95%は、Hiveを使用 (HiPal と呼ばれるHiveQL作成用ツールも使用)
- Facebook社の300 – 400人がHiveにて処理
・ Scribe : Hadoopクラスタにデータを格納するためのツール
・ Backend Hadoopクラスタ (データ格納)
・ Platinum Hadoopクラスタ (処理用)
・ Oracle RAC/MySQL用のデータをPlatinum クラスタで生成
Copyright ©2010 NTT DATA Corporation 20
- 27. 午後のセッション (抜粋)
■ Hadoop Security in Detail
Hadoopへのセキュリティ対策についての説明
- KerberosによるHadoopクラスタへのアクセス
- HTTP通信のセキュア化
- Hadoopクラスタでのowner, groupでのパーミッション (HDFS)
- MapReduceに関するuser, groupでのACL設定の適用
- APIの改良
正式版を8月にリリース予定。
■ Workflow on Hadoop Using Oozie
WorkflowエンジンOozie(ウジー)の紹介
- MapReduce, Pig, HDFS操作をworkflow形式で定義
- Tomcat + DB (Oracle, MySQL)を使用して実行
- まだまだ開発中: マスタサーバへの高負荷, SPOF, ユーザライクな機能
Copyright ©2010 NTT DATA Corporation 26
- 28. 午後のセッション (抜粋)
■ Hadoop at Twitter
TwitterでのHadoop利用事例, 以下のシーンでHadoop・ツールを利用
・ Data Input
- Scribe : 7TB/日のログデータをHDFSに格納
- Crane : MySQL-Hadoopクラスタ間でのデータ操作に関する支援ツール
・ Data Storage : LZO形式によるデータ圧縮
- Elephant bird : Protocol Buffer
- HBase : 更新しつづけるデータを処理するために利用
・ Data Analysis
- Pig : HBase, Elephant birdと連携させて処理
Copyright ©2010 NTT DATA Corporation 27
- 30. 午後のセッション (抜粋)
■ Astronomical Image Processing with Hadoop / 天体画像へのHadoopの適用
SDSS (Slone Digital Sky Servey)
LSST(Large Synoptic Suver Telescope)
天体画像(FITS)をファイルフォーマット形式で処理、複数の天体画像を組み
合わせて最終的な天体画像を生成
→ 複数の画像を組み合わせる部分をHadoopにて処理
→ 単純なFITSファイルをInputとして与えた処理では、処理時間が掛かる
→ FITSファイルをSequenceFileに変換して使用することで、処理時間改善
SequenceFileは、単純にFITSを変換したもの,構造化したもので測定
(100000ファイル 42分→8分(単純)→4分(構造化)に短縮)
Copyright ©2010 NTT DATA Corporation 29