SlideShare une entreprise Scribd logo
1  sur  31
2010年9月16日
 2010年9月16日
 第5回 Hadoopソースコードリーディング
 第5回 Hadoopソースコードリーディング




NTTデータにおけるHadoopへの取り組み
  & Hadoop Summit 2010 レポート

                    株式会社NTTデータ
                  基盤システム事業本部
                    濱野 賢一朗
                     山下 真一
                      Copyright ©2010 NTT DATA Corporation
自己紹介
濱野 賢一朗 (はまの けんいちろう)
 株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット
 Linux/OSSを利用したシステム構築・運用をサポートする業務を担当
 最近は、大規模分散処理基盤 Hadoop 屋さん

 日本OSS推進フォーラム クラウド部会 部会長
 情報処理推進機構(IPA) オープンソフトウェアセンタ 技術WG/人材育成WG
 情報処理推進機構(IPA) 日本OSS貢献者賞 実行委員長
 経済産業省 情報処理技術者試験 試験委員
 日本Apacheユーザ会、日本Sambaユーザー会、日本LDAPユーザ会などの
 OSSコミュニティの立ち上げや運営にも関わっている

 著書に 『オープンソースソフトウェアの本当の使い方』 (技術評論社)、
 『Linux教科書 LPIC レベル1・2・3』 (翔泳社) などがある。



               Copyright ©2010 NTT DATA Corporation   1
NTTデータにおける
Hadoopへの取り組み


    Copyright ©2010 NTT DATA Corporation   2
SI事業者としてのHadoopの位置づけ

今まで扱うことが難しかった領域を切り拓く
 ペタバイトクラスのデータ、大規模分散処理 など
 プロセス指向だけでなく、データ指向に基づいたシステムの浸透
 スケールアウト技術が身近なものに
 コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化
 新しい処理モデルやデータモデルの浸透


アプローチ
 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す
   今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現
 活用例
   POSデータなどの解析による顧客動向の分析システム
   ログ解析による広告最適化を支援するシステム
   大規模Webサイトのログ解析システム
   レコメンデーションを支えるシステム など

               Copyright ©2010 NTT DATA Corporation   3
OSS構築実績 (規模・処理量マップ)
 処理量
(万件/時)



60                                                                                       今後の           先見派
                                                                      ●                 ターゲット
                                                                                         領域
40
                 ●
                                     PostgreSQL                               ●
                             ●                                                                          構築・運用中
                                                             ●

20                                                                                      ●
                                     ●
                                                                                                     Hadoop
                                                                                                 実
                                             ●
10                                                                                               証
                                                   ●
                 ●                       ●
                                                                                                 環
                                                                          ●
                                 ●                                                               境
 5                                   ●                 ●              ●
         ●              ●
             ●                       ●

     10万件            100万件           300万件       500万件           1000万件           1億件     10億件
                                                                                        DB規模


                                                 Copyright ©2010 NTT DATA Corporation                         4
BizXaaS® Hadoop構築・運用ソリューション
BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表
  2010年7月1日にプレスリリース
  BizXaaS® はNTTデータのクラウドサービスのブランド名称




                     Copyright ©2010 NTT DATA Corporation   5
BizXaaS® Hadoop構築・運用ソリューション
これまでに培った技術力やノウハウをもとに提供
 NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・
 運用してきた実績を有している
 お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、
 システム構築、運用設計、導入後のサポートまで幅広く対応
 Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応


                                        業務システムや社会基盤システムと
                                        して活用できるノウハウが盛り込まれ
                                        ている
                                               信頼性を向上させるための仕組み
                                               多数のサーバを管理する際に顕在化
                                               しやすい運用コストの増大を抑える仕
                                               組み など




             Copyright ©2010 NTT DATA Corporation                  6
Hadoop World NYC 2010
Hadoop World: NYC 2010
  日程: 2010年10月12日
  会場: Hilton New York
  主催: Cloudera社
  Hadoopの活用事例が中心
     Keynoteは Tim O’Relly 氏
     Bank of America、GE、AOL
     Yahoo!、eBay、Twitter、facebook など


参加される方!
  数名であれば、ディスカウントコードが
  あります。




                              Copyright ©2010 NTT DATA Corporation   7
Hadoop Summit 2010
      レポート


      Copyright ©2010 NTT DATA Corporation   8
Hadoop Summit 2010 概要
[日時] 2010年6月29日 (火) 9:00 – 18:00

[場所] Hyatt Regency Santa Clara, Santa Clara, CA, USA

[主催] Yahoo! (米国)

[参加者] 1000人程度
 米国内の企業からの参加者が
 大半を占める




                       Copyright ©2010 NTT DATA Corporation   9
午前: Keynoteセッション


  Time                                              Agenda
          Big Data and the Power of Hadoop
          Blake Irving, Executive Vice President and Chief Products Officer,   Yahoo!
09:00-    Hadoop and The Future of Internet Scale Cloud Computing
10:15     Shelton Shugar, Senior Vice President, Cloud Computing, Yahoo!

          Scaling Hadoop
          Eric Baldeschwieler, Vice President, Hadoop Software Development,     Yahoo!
10:30-    Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
11:00     Peter Sirota, General Manager, Elastic Map Reduce , Amazon

11:00-    Hadoop Grows Up
11:30     Doug Cutting, Cloudera

11:30-    Inside Large-Scale Analytics at Facebook
12:00     Mike Schroepfer, VP of Engineering, Facebook

                               Copyright ©2010 NTT DATA Corporation                      10
Keynoteセッション (Yahoo!)

■ Big Data and The Power of Hadoop
   “Mass Technology , Mass Scale , CloudComputing”
   Hadoopは、大規模なデータを利用する場面で真価を発揮する。

■ Hadoop and The Future of Internet Scale Cloud Computing
   “Science + Big Data + Insight = 個人の傾向 = 大きな価値”
   “Yahoo!は、オープンソースとして今後もHadoopに貢献する”

   Yahoo! (米) でのHadoop利用状況
      120TB/day の入力データ
      70PB のHadoop用蓄積データ
      合計 38K nodes & 170 PB のHadoopクラスタ
      100万/month のジョブをHadoopで実行



                            Copyright ©2010 NTT DATA Corporation   11
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      12
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      13
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      14
Keynoteセッション (Yahoo!)

■ Scaling Hadoop
  Yahoo! でのHadoop利用事例
  ・ 個人の嗜好に対する分析処理
   - 5億クリック/日のデータを使用して個人の嗜好を分析
   - 分析処理は、5分間隔で実行
   - 分析データは、Yahoo!ページのニュースやレコメンド情報で使用
   - 分析情報利用前に比べて、個人の嗜好に沿ったアクセスが増加

 ・ スパムメールフィルタリング
  - Hadoopにより数時間間隔で、フィルタルールを更新
  - スパムメール受信率: Hotmailより40%減少、Gmailより55%減少

 Yahoo! のHadoopへの貢献
 ・ Hadoopのセキュリティ対策 (Kerberosの組み込み)
 ・ OOZIE : Hadoop用ワークフローエンジンの開発
                   Copyright ©2010 NTT DATA Corporation   15
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   16
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   17
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   18
Keynoteセッション (協賛企業)


■ Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
    Amazon Elastic MapReduceを Enterprise向けに対応

  ・ 新しいバージョンのHadoopも利用可能
     これまで: Hadoop 0.18.3 / Hive 0.4 / Pig 0.5
     これから: Hadoop 0.20 / Hive 0.5 / Pig 0.6
  ・ Bootstrap actions
     Hadoopクラスタに対する柔軟な設定/実行/インストールが可能
  ・ Hadoop用ツールやBIソフトウェアとの連携強化
     MicroStrategy (BI), Karmasphere, Datameer (Hadoop用ツール)
  ・ SPOT INSTANCE
     Elastic MapReduce実行時に動的に処理ノードを追加/削除 可能
     → 従来に比べて、約20%のコスト削減を実現


                           Copyright ©2010 NTT DATA Corporation   19
Keynoteセッション (協賛企業)

■ Hadoop Grow up
   Hadoopビジネスを展開しているCloudera社の発表
   ・ CDH (Cloudera’s Distribution for Hadoop)の最新バージョンの紹介
   ・ Enterprise向けにHadoopビジネスの展開

■ Inside Large-Scale Analytics at Faceboook
    Hadoopコミュニティにも貢献が大きいFacebookの発表
    FacebookでのHadoop利用
    ・ 2250nodes (総23000 cores, 32GB RAM/node), 36PBのHadoopクラスタ
    ・ 80-90TB/日 でHadoopにデータを格納, 25000ジョブ/日, 825TB/日のI/O
     - ジョブの95%は、Hiveを使用 (HiPal と呼ばれるHiveQL作成用ツールも使用)
     - Facebook社の300 – 400人がHiveにて処理
    ・ Scribe : Hadoopクラスタにデータを格納するためのツール
    ・ Backend Hadoopクラスタ (データ格納)
    ・ Platinum Hadoopクラスタ (処理用)
    ・ Oracle RAC/MySQL用のデータをPlatinum クラスタで生成

                        Copyright ©2010 NTT DATA Corporation     20
Hadoop Grows Up




              Copyright ©2010 NTT DATA Corporation   21
Hadoop Grows Up




              Copyright ©2010 NTT DATA Corporation   22
Inside Large-Scale Analytics at Facebook




                Copyright ©2010 NTT DATA Corporation   23
Inside Large-Scale Analytics at Facebook




                Copyright ©2010 NTT DATA Corporation   24
午後のセッション

Developers Track
 Hadoopでの開発事例を紹介

Applications Track
 Hadoop上で動作させるアプリケーション事例を紹介

Research Track
 Hadoopを利用した研究事例の紹介




             Copyright ©2010 NTT DATA Corporation   25
午後のセッション (抜粋)

■ Hadoop Security in Detail
  Hadoopへのセキュリティ対策についての説明
  - KerberosによるHadoopクラスタへのアクセス
  - HTTP通信のセキュア化
  - Hadoopクラスタでのowner, groupでのパーミッション (HDFS)
  - MapReduceに関するuser, groupでのACL設定の適用
  - APIの改良
  正式版を8月にリリース予定。

■ Workflow on Hadoop Using Oozie
  WorkflowエンジンOozie(ウジー)の紹介
  - MapReduce, Pig, HDFS操作をworkflow形式で定義
  - Tomcat + DB (Oracle, MySQL)を使用して実行
  - まだまだ開発中: マスタサーバへの高負荷, SPOF, ユーザライクな機能


                     Copyright ©2010 NTT DATA Corporation   26
午後のセッション (抜粋)

■ Hadoop at Twitter
  TwitterでのHadoop利用事例, 以下のシーンでHadoop・ツールを利用
  ・ Data Input
   - Scribe : 7TB/日のログデータをHDFSに格納
   - Crane : MySQL-Hadoopクラスタ間でのデータ操作に関する支援ツール

 ・ Data Storage : LZO形式によるデータ圧縮
  - Elephant bird : Protocol Buffer
  - HBase : 更新しつづけるデータを処理するために利用

 ・ Data Analysis
  - Pig : HBase, Elephant birdと連携させて処理




                       Copyright ©2010 NTT DATA Corporation   27
午後のセッション (抜粋)
Hadoopを組み込んだ製品の紹介に関するセッション
 IBM
 Karmasphere
 ZettaVox




               Copyright ©2010 NTT DATA Corporation   28
午後のセッション (抜粋)

■ Astronomical Image Processing with Hadoop / 天体画像へのHadoopの適用
  SDSS (Slone Digital Sky Servey)
  LSST(Large Synoptic Suver Telescope)

  天体画像(FITS)をファイルフォーマット形式で処理、複数の天体画像を組み
  合わせて最終的な天体画像を生成
  → 複数の画像を組み合わせる部分をHadoopにて処理
  → 単純なFITSファイルをInputとして与えた処理では、処理時間が掛かる
   → FITSファイルをSequenceFileに変換して使用することで、処理時間改善
     SequenceFileは、単純にFITSを変換したもの,構造化したもので測定
      (100000ファイル 42分→8分(単純)→4分(構造化)に短縮)




                        Copyright ©2010 NTT DATA Corporation    29
記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。
Copyright ©2010 NTT DATA Corporation      30

Contenu connexe

En vedette

Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 

En vedette (6)

Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 

Similaire à NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート

VENU_Hadoop_Resume
VENU_Hadoop_ResumeVENU_Hadoop_Resume
VENU_Hadoop_ResumeVenu Gopal
 
Rubyと業務システムと帳票開発、そしてThinReports
Rubyと業務システムと帳票開発、そしてThinReportsRubyと業務システムと帳票開発、そしてThinReports
Rubyと業務システムと帳票開発、そしてThinReportsThinReports
 
Centre4 Cloud - Work Smart Go Google 31 maart
Centre4 Cloud - Work Smart Go Google 31 maartCentre4 Cloud - Work Smart Go Google 31 maart
Centre4 Cloud - Work Smart Go Google 31 maartWork Smart Go Google
 
Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍thinkinlamp
 
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le web
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le webMix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le web
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le webChristophe Lauer
 
以数据驱动为中心-FreeWheel
以数据驱动为中心-FreeWheel以数据驱动为中心-FreeWheel
以数据驱动为中心-FreeWheelairsex
 
夜宴7期《Eclipse》
夜宴7期《Eclipse》夜宴7期《Eclipse》
夜宴7期《Eclipse》Koubei Banquet
 
The new release of Oracle BI 11g R1 - OGH – 15 September 2010
The new release of Oracle BI 11g R1 - OGH – 15 September 2010The new release of Oracle BI 11g R1 - OGH – 15 September 2010
The new release of Oracle BI 11g R1 - OGH – 15 September 2010Daan Bakboord
 
Trade Ideas Data: Market Intelligence for the Financial Technology Industry
Trade Ideas Data: Market Intelligence for the Financial Technology Industry Trade Ideas Data: Market Intelligence for the Financial Technology Industry
Trade Ideas Data: Market Intelligence for the Financial Technology Industry David Aferiat
 
Introduction sur l'Open Source
Introduction sur l'Open SourceIntroduction sur l'Open Source
Introduction sur l'Open SourceEtienne Juliot
 
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.tomy55
 
F5 Networks - Soluciones para Banca & Finanzas
F5 Networks - Soluciones para Banca & FinanzasF5 Networks - Soluciones para Banca & Finanzas
F5 Networks - Soluciones para Banca & FinanzasAEC Networks
 
Seminario Ruby On Rails Aula Open Source
Seminario Ruby On Rails Aula Open SourceSeminario Ruby On Rails Aula Open Source
Seminario Ruby On Rails Aula Open SourceSergio Alonso
 
20100715 17熱門自由軟體與google網路服務應用
20100715 17熱門自由軟體與google網路服務應用20100715 17熱門自由軟體與google網路服務應用
20100715 17熱門自由軟體與google網路服務應用bubble
 
Put Down That Checkbook! - Big Data without the Big Bucks
Put Down That Checkbook! - Big Data without the Big BucksPut Down That Checkbook! - Big Data without the Big Bucks
Put Down That Checkbook! - Big Data without the Big BucksCharlie Greenbacker
 

Similaire à NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート (20)

VENU_Hadoop_Resume
VENU_Hadoop_ResumeVENU_Hadoop_Resume
VENU_Hadoop_Resume
 
Rubyと業務システムと帳票開発、そしてThinReports
Rubyと業務システムと帳票開発、そしてThinReportsRubyと業務システムと帳票開発、そしてThinReports
Rubyと業務システムと帳票開発、そしてThinReports
 
Centre4 Cloud - Work Smart Go Google 31 maart
Centre4 Cloud - Work Smart Go Google 31 maartCentre4 Cloud - Work Smart Go Google 31 maart
Centre4 Cloud - Work Smart Go Google 31 maart
 
Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍Nosql七种武器之长生剑 mongodb的使用介绍
Nosql七种武器之长生剑 mongodb的使用介绍
 
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le web
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le webMix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le web
Mix Paris 2007 - CLaueR - Optimisez l'impact de vos services sur le web
 
M&A in the software industry
M&A in the software industryM&A in the software industry
M&A in the software industry
 
以数据驱动为中心-FreeWheel
以数据驱动为中心-FreeWheel以数据驱动为中心-FreeWheel
以数据驱动为中心-FreeWheel
 
夜宴7期《Eclipse》
夜宴7期《Eclipse》夜宴7期《Eclipse》
夜宴7期《Eclipse》
 
The new release of Oracle BI 11g R1 - OGH – 15 September 2010
The new release of Oracle BI 11g R1 - OGH – 15 September 2010The new release of Oracle BI 11g R1 - OGH – 15 September 2010
The new release of Oracle BI 11g R1 - OGH – 15 September 2010
 
Trade Ideas Data: Market Intelligence for the Financial Technology Industry
Trade Ideas Data: Market Intelligence for the Financial Technology Industry Trade Ideas Data: Market Intelligence for the Financial Technology Industry
Trade Ideas Data: Market Intelligence for the Financial Technology Industry
 
Cloud Computing
Cloud ComputingCloud Computing
Cloud Computing
 
GeoTech_Factsheet_v3.6
GeoTech_Factsheet_v3.6GeoTech_Factsheet_v3.6
GeoTech_Factsheet_v3.6
 
Introduction sur l'Open Source
Introduction sur l'Open SourceIntroduction sur l'Open Source
Introduction sur l'Open Source
 
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.
Sap ecc6 r3 bw bi crm scm install package and vm,training video and doc.
 
Foss Business SFD 2010
Foss Business SFD 2010Foss Business SFD 2010
Foss Business SFD 2010
 
Foss Business SFD 2010
Foss Business SFD 2010Foss Business SFD 2010
Foss Business SFD 2010
 
F5 Networks - Soluciones para Banca & Finanzas
F5 Networks - Soluciones para Banca & FinanzasF5 Networks - Soluciones para Banca & Finanzas
F5 Networks - Soluciones para Banca & Finanzas
 
Seminario Ruby On Rails Aula Open Source
Seminario Ruby On Rails Aula Open SourceSeminario Ruby On Rails Aula Open Source
Seminario Ruby On Rails Aula Open Source
 
20100715 17熱門自由軟體與google網路服務應用
20100715 17熱門自由軟體與google網路服務應用20100715 17熱門自由軟體與google網路服務應用
20100715 17熱門自由軟體與google網路服務應用
 
Put Down That Checkbook! - Big Data without the Big Bucks
Put Down That Checkbook! - Big Data without the Big BucksPut Down That Checkbook! - Big Data without the Big Bucks
Put Down That Checkbook! - Big Data without the Big Bucks
 

Plus de NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 

Plus de NTT DATA OSS Professional Services (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 

NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート

  • 1. 2010年9月16日 2010年9月16日 第5回 Hadoopソースコードリーディング 第5回 Hadoopソースコードリーディング NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート 株式会社NTTデータ 基盤システム事業本部 濱野 賢一朗 山下 真一 Copyright ©2010 NTT DATA Corporation
  • 2. 自己紹介 濱野 賢一朗 (はまの けんいちろう) 株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット Linux/OSSを利用したシステム構築・運用をサポートする業務を担当 最近は、大規模分散処理基盤 Hadoop 屋さん 日本OSS推進フォーラム クラウド部会 部会長 情報処理推進機構(IPA) オープンソフトウェアセンタ 技術WG/人材育成WG 情報処理推進機構(IPA) 日本OSS貢献者賞 実行委員長 経済産業省 情報処理技術者試験 試験委員 日本Apacheユーザ会、日本Sambaユーザー会、日本LDAPユーザ会などの OSSコミュニティの立ち上げや運営にも関わっている 著書に 『オープンソースソフトウェアの本当の使い方』 (技術評論社)、 『Linux教科書 LPIC レベル1・2・3』 (翔泳社) などがある。 Copyright ©2010 NTT DATA Corporation 1
  • 3. NTTデータにおける Hadoopへの取り組み Copyright ©2010 NTT DATA Corporation 2
  • 4. SI事業者としてのHadoopの位置づけ 今まで扱うことが難しかった領域を切り拓く ペタバイトクラスのデータ、大規模分散処理 など プロセス指向だけでなく、データ指向に基づいたシステムの浸透 スケールアウト技術が身近なものに コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化 新しい処理モデルやデータモデルの浸透 アプローチ 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す 今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現 活用例 POSデータなどの解析による顧客動向の分析システム ログ解析による広告最適化を支援するシステム 大規模Webサイトのログ解析システム レコメンデーションを支えるシステム など Copyright ©2010 NTT DATA Corporation 3
  • 5. OSS構築実績 (規模・処理量マップ) 処理量 (万件/時) 60 今後の 先見派 ● ターゲット 領域 40 ● PostgreSQL ● ● 構築・運用中 ● 20 ● ● Hadoop 実 ● 10 証 ● ● ● 環 ● ● 境 5 ● ● ● ● ● ● ● 10万件 100万件 300万件 500万件 1000万件 1億件 10億件 DB規模 Copyright ©2010 NTT DATA Corporation 4
  • 6. BizXaaS® Hadoop構築・運用ソリューション BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表 2010年7月1日にプレスリリース BizXaaS® はNTTデータのクラウドサービスのブランド名称 Copyright ©2010 NTT DATA Corporation 5
  • 7. BizXaaS® Hadoop構築・運用ソリューション これまでに培った技術力やノウハウをもとに提供 NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・ 運用してきた実績を有している お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、 システム構築、運用設計、導入後のサポートまで幅広く対応 Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応 業務システムや社会基盤システムと して活用できるノウハウが盛り込まれ ている 信頼性を向上させるための仕組み 多数のサーバを管理する際に顕在化 しやすい運用コストの増大を抑える仕 組み など Copyright ©2010 NTT DATA Corporation 6
  • 8. Hadoop World NYC 2010 Hadoop World: NYC 2010 日程: 2010年10月12日 会場: Hilton New York 主催: Cloudera社 Hadoopの活用事例が中心 Keynoteは Tim O’Relly 氏 Bank of America、GE、AOL Yahoo!、eBay、Twitter、facebook など 参加される方! 数名であれば、ディスカウントコードが あります。 Copyright ©2010 NTT DATA Corporation 7
  • 9. Hadoop Summit 2010 レポート Copyright ©2010 NTT DATA Corporation 8
  • 10. Hadoop Summit 2010 概要 [日時] 2010年6月29日 (火) 9:00 – 18:00 [場所] Hyatt Regency Santa Clara, Santa Clara, CA, USA [主催] Yahoo! (米国) [参加者] 1000人程度 米国内の企業からの参加者が 大半を占める Copyright ©2010 NTT DATA Corporation 9
  • 11. 午前: Keynoteセッション Time Agenda Big Data and the Power of Hadoop Blake Irving, Executive Vice President and Chief Products Officer, Yahoo! 09:00- Hadoop and The Future of Internet Scale Cloud Computing 10:15 Shelton Shugar, Senior Vice President, Cloud Computing, Yahoo! Scaling Hadoop Eric Baldeschwieler, Vice President, Hadoop Software Development, Yahoo! 10:30- Making Hadoop Enterprise Ready with Amazon Elastic MapReduce 11:00 Peter Sirota, General Manager, Elastic Map Reduce , Amazon 11:00- Hadoop Grows Up 11:30 Doug Cutting, Cloudera 11:30- Inside Large-Scale Analytics at Facebook 12:00 Mike Schroepfer, VP of Engineering, Facebook Copyright ©2010 NTT DATA Corporation 10
  • 12. Keynoteセッション (Yahoo!) ■ Big Data and The Power of Hadoop “Mass Technology , Mass Scale , CloudComputing” Hadoopは、大規模なデータを利用する場面で真価を発揮する。 ■ Hadoop and The Future of Internet Scale Cloud Computing “Science + Big Data + Insight = 個人の傾向 = 大きな価値” “Yahoo!は、オープンソースとして今後もHadoopに貢献する” Yahoo! (米) でのHadoop利用状況 120TB/day の入力データ 70PB のHadoop用蓄積データ 合計 38K nodes & 170 PB のHadoopクラスタ 100万/month のジョブをHadoopで実行 Copyright ©2010 NTT DATA Corporation 11
  • 13. Hadoop and The Future of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 12
  • 14. Hadoop and The Future of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 13
  • 15. Hadoop and The Future of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 14
  • 16. Keynoteセッション (Yahoo!) ■ Scaling Hadoop Yahoo! でのHadoop利用事例 ・ 個人の嗜好に対する分析処理 - 5億クリック/日のデータを使用して個人の嗜好を分析 - 分析処理は、5分間隔で実行 - 分析データは、Yahoo!ページのニュースやレコメンド情報で使用 - 分析情報利用前に比べて、個人の嗜好に沿ったアクセスが増加 ・ スパムメールフィルタリング - Hadoopにより数時間間隔で、フィルタルールを更新 - スパムメール受信率: Hotmailより40%減少、Gmailより55%減少 Yahoo! のHadoopへの貢献 ・ Hadoopのセキュリティ対策 (Kerberosの組み込み) ・ OOZIE : Hadoop用ワークフローエンジンの開発 Copyright ©2010 NTT DATA Corporation 15
  • 17. Scaling Hadoop Copyright ©2010 NTT DATA Corporation 16
  • 18. Scaling Hadoop Copyright ©2010 NTT DATA Corporation 17
  • 19. Scaling Hadoop Copyright ©2010 NTT DATA Corporation 18
  • 20. Keynoteセッション (協賛企業) ■ Making Hadoop Enterprise Ready with Amazon Elastic MapReduce Amazon Elastic MapReduceを Enterprise向けに対応 ・ 新しいバージョンのHadoopも利用可能 これまで: Hadoop 0.18.3 / Hive 0.4 / Pig 0.5 これから: Hadoop 0.20 / Hive 0.5 / Pig 0.6 ・ Bootstrap actions Hadoopクラスタに対する柔軟な設定/実行/インストールが可能 ・ Hadoop用ツールやBIソフトウェアとの連携強化 MicroStrategy (BI), Karmasphere, Datameer (Hadoop用ツール) ・ SPOT INSTANCE Elastic MapReduce実行時に動的に処理ノードを追加/削除 可能 → 従来に比べて、約20%のコスト削減を実現 Copyright ©2010 NTT DATA Corporation 19
  • 21. Keynoteセッション (協賛企業) ■ Hadoop Grow up Hadoopビジネスを展開しているCloudera社の発表 ・ CDH (Cloudera’s Distribution for Hadoop)の最新バージョンの紹介 ・ Enterprise向けにHadoopビジネスの展開 ■ Inside Large-Scale Analytics at Faceboook Hadoopコミュニティにも貢献が大きいFacebookの発表 FacebookでのHadoop利用 ・ 2250nodes (総23000 cores, 32GB RAM/node), 36PBのHadoopクラスタ ・ 80-90TB/日 でHadoopにデータを格納, 25000ジョブ/日, 825TB/日のI/O - ジョブの95%は、Hiveを使用 (HiPal と呼ばれるHiveQL作成用ツールも使用) - Facebook社の300 – 400人がHiveにて処理 ・ Scribe : Hadoopクラスタにデータを格納するためのツール ・ Backend Hadoopクラスタ (データ格納) ・ Platinum Hadoopクラスタ (処理用) ・ Oracle RAC/MySQL用のデータをPlatinum クラスタで生成 Copyright ©2010 NTT DATA Corporation 20
  • 22. Hadoop Grows Up Copyright ©2010 NTT DATA Corporation 21
  • 23. Hadoop Grows Up Copyright ©2010 NTT DATA Corporation 22
  • 24. Inside Large-Scale Analytics at Facebook Copyright ©2010 NTT DATA Corporation 23
  • 25. Inside Large-Scale Analytics at Facebook Copyright ©2010 NTT DATA Corporation 24
  • 26. 午後のセッション Developers Track Hadoopでの開発事例を紹介 Applications Track Hadoop上で動作させるアプリケーション事例を紹介 Research Track Hadoopを利用した研究事例の紹介 Copyright ©2010 NTT DATA Corporation 25
  • 27. 午後のセッション (抜粋) ■ Hadoop Security in Detail Hadoopへのセキュリティ対策についての説明 - KerberosによるHadoopクラスタへのアクセス - HTTP通信のセキュア化 - Hadoopクラスタでのowner, groupでのパーミッション (HDFS) - MapReduceに関するuser, groupでのACL設定の適用 - APIの改良 正式版を8月にリリース予定。 ■ Workflow on Hadoop Using Oozie WorkflowエンジンOozie(ウジー)の紹介 - MapReduce, Pig, HDFS操作をworkflow形式で定義 - Tomcat + DB (Oracle, MySQL)を使用して実行 - まだまだ開発中: マスタサーバへの高負荷, SPOF, ユーザライクな機能 Copyright ©2010 NTT DATA Corporation 26
  • 28. 午後のセッション (抜粋) ■ Hadoop at Twitter TwitterでのHadoop利用事例, 以下のシーンでHadoop・ツールを利用 ・ Data Input - Scribe : 7TB/日のログデータをHDFSに格納 - Crane : MySQL-Hadoopクラスタ間でのデータ操作に関する支援ツール ・ Data Storage : LZO形式によるデータ圧縮 - Elephant bird : Protocol Buffer - HBase : 更新しつづけるデータを処理するために利用 ・ Data Analysis - Pig : HBase, Elephant birdと連携させて処理 Copyright ©2010 NTT DATA Corporation 27
  • 30. 午後のセッション (抜粋) ■ Astronomical Image Processing with Hadoop / 天体画像へのHadoopの適用 SDSS (Slone Digital Sky Servey) LSST(Large Synoptic Suver Telescope) 天体画像(FITS)をファイルフォーマット形式で処理、複数の天体画像を組み 合わせて最終的な天体画像を生成 → 複数の画像を組み合わせる部分をHadoopにて処理 → 単純なFITSファイルをInputとして与えた処理では、処理時間が掛かる → FITSファイルをSequenceFileに変換して使用することで、処理時間改善 SequenceFileは、単純にFITSを変換したもの,構造化したもので測定 (100000ファイル 42分→8分(単純)→4分(構造化)に短縮) Copyright ©2010 NTT DATA Corporation 29