SlideShare une entreprise Scribd logo
1  sur  31
Hadoop World 2011
       NYC
  フィードバック
~インフラとしての                ~


              Acroquest Technology
             阪本雄一郎、落合雄介
                       2011/11/28
    Hadoopソースコードリーディング第7回発表資料

               © Acroquest Technology Co., Ltd. All rights reserved.
目次
1.   自己紹介
2.   Hadoop Worldセッション内容の変化
3.   セッション紹介
4.   インフラとしてのHadoop




                   会場のSheraton New York Hotel & Towers

                        © Acroquest Technology Co., Ltd. All rights reserved.   2
1. 自己紹介
 阪本雄一郎         Acroquest Technology
   プロジェクトリーダーとして
    サービスオーダシステムを開発
   Flumeによる
    ログ収集プラットフォーム構築を実施
   HBase検証案件実施
 落合雄介         Acroquest Technology
   Hadoop 関連案件に従事
   – MapReduceによるログデータ整形・解析
   – HBase検証案件
   – ログ分析Hadoopインフラ構築

                         © Acroquest Technology Co., Ltd. All rights reserved.   3
2. Hadoop Worldセッション内容の変化


昨年(Hadoop World 2010)       今年(Hadoop World 2011)
                                                                Hadoop
                                                                 検証
                   Hadoop                                     5セッション
    Hadoop          検証
                  5セッション         Hadoop
  コンポーネント                      コンポーネント                             Hadoop
                   Hadoop
   利用事例             連携          利用事例                                連携
                  5セッション
    30セッション                      30セッション                         15セッション

                                                                          Hadoop
                                                                         コアセッシ
Hadoop(+周辺プロダクト)を単に使うだけでなく、                                                ョン
                                                                         5セッション
OSSや独自FWを組み合わせて利用する事例が増えて
きた
→Hadoop+αの組み合わせ事例をいくつか紹介します

                                 © Acroquest Technology Co., Ltd. All rights reserved.   4
3. セッション紹介
I. RとHadoopの融合
II. Hadoopを使った衛星画像解析
III. Hadoopをクラウド上に展開




                 © Acroquest Technology Co., Ltd. All rights reserved.   5
The Powerful Marriage of R and Hadoop
                                       注目のセッションで、
I. RとHadoopの融合                         200人の会場がいっぱいでした




                                   © Acroquest Technology Co., Ltd. All rights reserved.   6
【I. The Powerful Marriage of R and Hadoop】
I-1. 発表者概要

   Revolution Analytics
        Founded in 2007
        R言語の商用利用に特化
   David Champagne
        Principal Architect/Engineer for SPSS
           – SPSS:統計パッケージソフト開発、
             2009年IBMが12億ドルで買収




                                             © Acroquest Technology Co., Ltd. All rights reserved.   7
【I. The Powerful Marriage of R and Hadoop】
I-2. R言語とは

  統計解析向けプログラミング言語
      統計解析に適した命令体系を持つ
      開発実行環境も含む
         - R console : CUI
         - R Commander : GUI
      世界中のRユーザが
          「CRAN(Comprehensive R Archive Network)」
       でライブラリを提供
      オープンソース


                                             © Acroquest Technology Co., Ltd. All rights reserved.   8
【I. The Powerful Marriage of R and Hadoop】
I-3. R言語との連携の動機




      R言語は200万人以上のユーザを持つ
       オープンソース統計言語
      Rプログラマが簡単にHadoop上の
       データを扱い、MapReduceで
       処理できるようにしたい
      Rを、Hadoop上で、Hadoopの中身を
       意識せずとも動かせるようにしたい

                                             © Acroquest Technology Co., Ltd. All rights reserved.   9
【I. The Powerful Marriage of R and Hadoop】
I-4. アーキテクチャ




                                                                                                作っ
                                                                                                た
                                                                                                部分
                     rhdfs                   rhbase



                             rmr

                                                      © Acroquest Technology Co., Ltd. All rights reserved.   10
【I. The Powerful Marriage of R and Hadoop】
I-5. rmrの特徴




      Javaを書くよりシンプル
      Hive, Pigほどシンプルではなく、
       より汎用的
      プロトタイピングをしやすい




                                             © Acroquest Technology Co., Ltd. All rights reserved.   11
【I. The Powerful Marriage of R and Hadoop】
I-6. Hiveとrmrの記述の違い
                                             単純な集計ではHive の方が
                                             コード量は少ない
                                             ・Map Reduce の処理を
                                              明示的に記せること
                                             ・Map, Reduce で、R言語の
                                              関数を呼び出せることが特
                                             徴
                          男女のユニークユーザ数を
                          それぞれ求める処理




                                             © Acroquest Technology Co., Ltd. All rights reserved.   12
【I. The Powerful Marriage of R and Hadoop】
                                                k-means :
I-7. rmrにおける記述量                                   クラスタリングのアルゴリズムの一つ
                                                クラスタリング:
                                                 複数のデータを持つ要素を、
                                                 特徴別のグループに分類する
                                                 (購買意欲の高いユーザと
                                                  それ以外のユーザを分類する、など)




                                             rmr で大幅に
                                               コード量=実装の手間
                                             を削減!
                                             R言語に備わっている
                                             k-means のライブラリを使用可能なた
                                             め

                                                  © Acroquest Technology Co., Ltd. All rights reserved.   13
【I. The Powerful Marriage of R and Hadoop】
I-8. 大量データ統計処理の今後

   RとHadoopが組み合わさることで、
    Big Dataの柔軟な解析への期待が高まる
        k-means クラスタリングの例のように、
         統計的分析を簡易な記述で実現可能になる
        統計処理の理論に慣れていないエンジニアにも
         Big Data の分析が容易になる




                                             © Acroquest Technology Co., Ltd. All rights reserved.   14
How many planes
                in this image?




Indexing the Earth –
Large Scale Satellite Image Processing Using Hadoop

II. Hadoopを使った衛星画像解析



                                   © Acroquest Technology Co., Ltd. All rights reserved.   15
【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】
II-1. 発表者概要

   Skybox Imaging
        衛星画像をもとに、映像解析・監視を
         行う




   Oliver Guinan
        Ground Systems部の副部長
        世界最大級のコンシューマ向け
         インターネットアプリケーションを開                           © Acroquest Technology Co., Ltd. All rights reserved.   16
【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】
II-2. 概要

端的に言うと・・・




     Hadoopをそのまま使っても遅いので、
              を呼び出せるようにしまし
               た!




                                                     © Acroquest Technology Co., Ltd. All rights reserved.   17
【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】
II-3. フレームワーク作成の動機

   大量データの映像解析をしたい
        衛星画像から送られてくるデータは1TB/日
        大量データを分散させて保持させたい
         →Hadoopが使える。
        画像解析ライブラリをそのまま使いたい
   しかし、Hadoop、Javaには弱点あり
        ジョブ起動が遅い
        科学計算ライブラリが不十分


              画像解析ライブラリが使える
              ネイティブコードを呼び出した
                    い!                               © Acroquest Technology Co., Ltd. All rights reserved.   18
【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】
II-4. アーキテクチャ

   タスクの中でネイティブコード(C言語)を
    呼び出す仕組みを構築

                 コ
                 コ



                                                                         Busboy(バズボーイ):
                                                                         飲食店で、食器を下げた
                                                                         り皿洗いをしたりする人


                                                     © Acroquest Technology Co., Ltd. All rights reserved.   19
【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】
II-5. 業務特化の1つの解

   Hadoopと自社フレームワークを組み合わせ
    て、
               高速処理+ネイティブライブラリ呼び出
       し
    を実現
   既存の処理をJavaで再実装することなく、
    C言語などの既存の資産を使う

           →Hadoop はあくまでインフラとして使う

                                                     © Acroquest Technology Co., Ltd. All rights reserved.   20
Hadoop as a Service in Cloud


III. Hadoopをクラウド上に展開



                               © Acroquest Technology Co., Ltd. All rights reserved.   21
【III. Hadoop as a Service in Cloud】
III-1. 仮想化の要請



                                                                    しかし、Hadoopは
                                                                    一般的に仮想化と
                                                                    相性が悪いと
                                                                    言われている:
                                                                     ディスクの分散、
                                                                     ラックアウェアネ
                                                                    ス、
                                                                     ・・・



  オペレーション、
                                      ニーズに応じた
  メンテナンスの               コスト低減
                                      素早い対応
  単純化



                                         © Acroquest Technology Co., Ltd. All rights reserved.   22
【III. Hadoop as a Service in Cloud】
III-2. Big Data への対応で必要なのはHadoopだけではな
い

                                                           ・Big Data のトレンドは、
                                                            Hadoop だけではない
                                                            ・Hadoop は他の技術と併用され
                                                           る:
                                                             Big SQL, NoSQL, etc,…
                                                             ・全てのインフラを統一したい




                                                              Big Data 対応のための
                                                              統合された基盤が
                                                              求められている



                                                             ・共通のハードウェア基盤
                                                               ・ハードウェア、ドライバの
                                                                テストフェーズをなくしたい
                                                              ・すでにあるチーム内で、制御、
                                                               診断、キャパシティマネジメン
                                                             トを
                                                               こなしたい



                                      © Acroquest Technology Co., Ltd. All rights reserved.   23
【III. Hadoop as a Service in Cloud】
III-3. 参考:Disney のData Management Platform
                                                                                   Advancing Disney’s Data
                                                                                   Infrastructure with Hadoop
                                                                                   Matt Estes, Disney
                                                                                   より

                                                                          Disney は、
                                                                          2008年から仮想化、
                                                                          2009年からHadoop
                                                                          に取り組んでいる。

                                                                          2010年には、
                                                                          Cloud Platform を
                                                                          構築し、全サービスのう
                                                                          ち60%のサーバイメー
                                                                          ジを
                                                                          仮想環境に移行した




                         Hadoop 環境は Disney Cloud Services とは別

                                                        © Acroquest Technology Co., Ltd. All rights reserved.   24
【III. Hadoop as a Service in Cloud】
III-4. 参考:Disney のData Management Platform




                                                         2011年の取り組みで、
                                                         Hadoop クラスタを
                                                         Data Management
                                                         Platform として統一


                                                          Hadoop を使った
                                                          サービスを大規模に
                                                          展開する企業も、
                                                          仮想化に注目してい
                                                          る



                                      © Acroquest Technology Co., Ltd. All rights reserved.   25
【III. Hadoop as a Service in Cloud】
III-5. ディスクの構成


                                                           ローカルディスクを
                                                           使うことで、
               扱いやすい                                       HDFSの特性を生かす




                        NW IO が
                        ネックに


                                      © Acroquest Technology Co., Ltd. All rights reserved.   26
【III. Hadoop as a Service in Cloud】
III-6. vSphere を通したラックアウェアネス


                                                            Rack awareness:
                                                            Hadoopは大量のネッ
                                                            トワーク通信を行うた
                                                            め、通信量を減らせる
                                                            ようマシンの物理的配
                                                            置を設定する。




  ラックアウェアネスの考慮が必要な点
  は、
  仮想化を行う際の、                              Rack script を自動生成
   「どの物理ノードに乗っているか気                      することで、問題を解決
  にしなくて良い」
  という利点に矛盾する

                                      © Acroquest Technology Co., Ltd. All rights reserved.   27
【III. Hadoop as a Service in Cloud】
III-7. Muti-tenant への対応


                                                              巨大クラスタを占有
                                                              するのと、クラスタ
                                                              を共有するのと、用
                                                              途によって使い分け
                                                              る

                                                               顧客の要請に応じた
                                                               使いわけ


                                                              Multi-tenant:
                                                              1つのクラスタの中で
                                                              複数のシステムを
                                                              構築・動作させる




                                      © Acroquest Technology Co., Ltd. All rights reserved.   28
【III. Hadoop as a Service in Cloud】
III-8. クラウド上のHadoop構築で、柔軟な対応が可能に

   Hadoopを仮想環境で動作させる仕組みが
    できた
   「Hadoopだけは特別」ではない。
    他のプラットフォームと同様に、
    「クラウドにHadoopを展開して利用する」
    というユースケースもあり得る




                                      © Acroquest Technology Co., Ltd. All rights reserved.   29
4. インフラとしてのHadoop

 Hadoopはインフラとなりつつある
   MapReduceで計算して終わり!な時代は過ぎた
   HadoopをベースにOSS/フレームワークを組み
    合わせて、新たな仕組みを構築する動きが出てき
    た
 「目的」ではなく「手段」としてHadoopを使
  う
   「大量データだからHadoopをとりあえず使おう
    」だと、Hadoopのメリットは少ない
   大量データを分析し役立てたいからHadoopを使
    う、と考えると、Hadoopを最大限に生かすこと
    ができる         © Acroquest Technology Co., Ltd. All rights reserved.   30
ぜひ日本でも事例を増やしましょ
      う!




          © Acroquest Technology Co., Ltd. All rights reserved.   31

Contenu connexe

Tendances

Tendances (20)

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
 
Apache Spark 2.4 and 3.0 What's Next?
Apache Spark 2.4 and 3.0  What's Next? Apache Spark 2.4 and 3.0  What's Next?
Apache Spark 2.4 and 3.0 What's Next?
 
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Hadoop によるゲノム解読
Hadoop によるゲノム解読Hadoop によるゲノム解読
Hadoop によるゲノム解読
 

En vedette

En vedette (11)

20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring HadoopOSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
 
Hadoop Conference Japan 2009 #1
Hadoop Conference Japan 2009 #1Hadoop Conference Japan 2009 #1
Hadoop Conference Japan 2009 #1
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
 
Hadoop Conference Japan 2009 #2
Hadoop Conference Japan 2009 #2Hadoop Conference Japan 2009 #2
Hadoop Conference Japan 2009 #2
 
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjpYahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
 
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
 
黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading
黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading
黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 

Similaire à Hadoop scr第7回 hw2011フィードバック

ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
Insight Technology, Inc.
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 

Similaire à Hadoop scr第7回 hw2011フィードバック (20)

Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
Ceph Loves OpenStack: Why and How
Ceph Loves OpenStack: Why and HowCeph Loves OpenStack: Why and How
Ceph Loves OpenStack: Why and How
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 

Plus de AdvancedTechNight

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
AdvancedTechNight
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
AdvancedTechNight
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
AdvancedTechNight
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
AdvancedTechNight
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
AdvancedTechNight
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
AdvancedTechNight
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMR
AdvancedTechNight
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
AdvancedTechNight
 

Plus de AdvancedTechNight (20)

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
 
これから利用拡大?WebSocket
これから利用拡大?WebSocketこれから利用拡大?WebSocket
これから利用拡大?WebSocket
 
全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験
 
Backbone.js入門
Backbone.js入門Backbone.js入門
Backbone.js入門
 
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)ScriptTypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
 
three.jsで作る3Dの世界
three.jsで作る3Dの世界three.jsで作る3Dの世界
three.jsで作る3Dの世界
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
 
Spine入門
Spine入門Spine入門
Spine入門
 
分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4
 
Twitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demoTwitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demo
 
Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門
 
ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMR
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
 
ATN No.2 Scala事始め
ATN No.2 Scala事始めATN No.2 Scala事始め
ATN No.2 Scala事始め
 

Hadoop scr第7回 hw2011フィードバック

  • 1. Hadoop World 2011 NYC フィードバック ~インフラとしての ~ Acroquest Technology 阪本雄一郎、落合雄介 2011/11/28 Hadoopソースコードリーディング第7回発表資料 © Acroquest Technology Co., Ltd. All rights reserved.
  • 2. 目次 1. 自己紹介 2. Hadoop Worldセッション内容の変化 3. セッション紹介 4. インフラとしてのHadoop 会場のSheraton New York Hotel & Towers © Acroquest Technology Co., Ltd. All rights reserved. 2
  • 3. 1. 自己紹介  阪本雄一郎 Acroquest Technology  プロジェクトリーダーとして サービスオーダシステムを開発  Flumeによる ログ収集プラットフォーム構築を実施  HBase検証案件実施  落合雄介 Acroquest Technology  Hadoop 関連案件に従事 – MapReduceによるログデータ整形・解析 – HBase検証案件 – ログ分析Hadoopインフラ構築 © Acroquest Technology Co., Ltd. All rights reserved. 3
  • 4. 2. Hadoop Worldセッション内容の変化 昨年(Hadoop World 2010) 今年(Hadoop World 2011) Hadoop 検証 Hadoop 5セッション Hadoop 検証 5セッション Hadoop コンポーネント コンポーネント Hadoop Hadoop 利用事例 連携 利用事例 連携 5セッション 30セッション 30セッション 15セッション Hadoop コアセッシ Hadoop(+周辺プロダクト)を単に使うだけでなく、 ョン 5セッション OSSや独自FWを組み合わせて利用する事例が増えて きた →Hadoop+αの組み合わせ事例をいくつか紹介します © Acroquest Technology Co., Ltd. All rights reserved. 4
  • 5. 3. セッション紹介 I. RとHadoopの融合 II. Hadoopを使った衛星画像解析 III. Hadoopをクラウド上に展開 © Acroquest Technology Co., Ltd. All rights reserved. 5
  • 6. The Powerful Marriage of R and Hadoop 注目のセッションで、 I. RとHadoopの融合 200人の会場がいっぱいでした © Acroquest Technology Co., Ltd. All rights reserved. 6
  • 7. 【I. The Powerful Marriage of R and Hadoop】 I-1. 発表者概要  Revolution Analytics  Founded in 2007  R言語の商用利用に特化  David Champagne  Principal Architect/Engineer for SPSS – SPSS:統計パッケージソフト開発、 2009年IBMが12億ドルで買収 © Acroquest Technology Co., Ltd. All rights reserved. 7
  • 8. 【I. The Powerful Marriage of R and Hadoop】 I-2. R言語とは  統計解析向けプログラミング言語  統計解析に適した命令体系を持つ  開発実行環境も含む - R console : CUI - R Commander : GUI  世界中のRユーザが 「CRAN(Comprehensive R Archive Network)」 でライブラリを提供  オープンソース © Acroquest Technology Co., Ltd. All rights reserved. 8
  • 9. 【I. The Powerful Marriage of R and Hadoop】 I-3. R言語との連携の動機  R言語は200万人以上のユーザを持つ オープンソース統計言語  Rプログラマが簡単にHadoop上の データを扱い、MapReduceで 処理できるようにしたい  Rを、Hadoop上で、Hadoopの中身を 意識せずとも動かせるようにしたい © Acroquest Technology Co., Ltd. All rights reserved. 9
  • 10. 【I. The Powerful Marriage of R and Hadoop】 I-4. アーキテクチャ 作っ た 部分 rhdfs rhbase rmr © Acroquest Technology Co., Ltd. All rights reserved. 10
  • 11. 【I. The Powerful Marriage of R and Hadoop】 I-5. rmrの特徴  Javaを書くよりシンプル  Hive, Pigほどシンプルではなく、 より汎用的  プロトタイピングをしやすい © Acroquest Technology Co., Ltd. All rights reserved. 11
  • 12. 【I. The Powerful Marriage of R and Hadoop】 I-6. Hiveとrmrの記述の違い 単純な集計ではHive の方が コード量は少ない ・Map Reduce の処理を 明示的に記せること ・Map, Reduce で、R言語の 関数を呼び出せることが特 徴 男女のユニークユーザ数を それぞれ求める処理 © Acroquest Technology Co., Ltd. All rights reserved. 12
  • 13. 【I. The Powerful Marriage of R and Hadoop】 k-means : I-7. rmrにおける記述量 クラスタリングのアルゴリズムの一つ クラスタリング: 複数のデータを持つ要素を、 特徴別のグループに分類する (購買意欲の高いユーザと それ以外のユーザを分類する、など) rmr で大幅に コード量=実装の手間 を削減! R言語に備わっている k-means のライブラリを使用可能なた め © Acroquest Technology Co., Ltd. All rights reserved. 13
  • 14. 【I. The Powerful Marriage of R and Hadoop】 I-8. 大量データ統計処理の今後  RとHadoopが組み合わさることで、 Big Dataの柔軟な解析への期待が高まる  k-means クラスタリングの例のように、 統計的分析を簡易な記述で実現可能になる  統計処理の理論に慣れていないエンジニアにも Big Data の分析が容易になる © Acroquest Technology Co., Ltd. All rights reserved. 14
  • 15. How many planes in this image? Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop II. Hadoopを使った衛星画像解析 © Acroquest Technology Co., Ltd. All rights reserved. 15
  • 16. 【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】 II-1. 発表者概要  Skybox Imaging  衛星画像をもとに、映像解析・監視を 行う  Oliver Guinan  Ground Systems部の副部長  世界最大級のコンシューマ向け インターネットアプリケーションを開 © Acroquest Technology Co., Ltd. All rights reserved. 16
  • 17. 【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】 II-2. 概要 端的に言うと・・・ Hadoopをそのまま使っても遅いので、 を呼び出せるようにしまし た! © Acroquest Technology Co., Ltd. All rights reserved. 17
  • 18. 【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】 II-3. フレームワーク作成の動機  大量データの映像解析をしたい  衛星画像から送られてくるデータは1TB/日  大量データを分散させて保持させたい →Hadoopが使える。  画像解析ライブラリをそのまま使いたい  しかし、Hadoop、Javaには弱点あり  ジョブ起動が遅い  科学計算ライブラリが不十分 画像解析ライブラリが使える ネイティブコードを呼び出した い! © Acroquest Technology Co., Ltd. All rights reserved. 18
  • 19. 【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】 II-4. アーキテクチャ  タスクの中でネイティブコード(C言語)を 呼び出す仕組みを構築 コ コ Busboy(バズボーイ): 飲食店で、食器を下げた り皿洗いをしたりする人 © Acroquest Technology Co., Ltd. All rights reserved. 19
  • 20. 【II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop】 II-5. 業務特化の1つの解  Hadoopと自社フレームワークを組み合わせ て、 高速処理+ネイティブライブラリ呼び出 し を実現  既存の処理をJavaで再実装することなく、 C言語などの既存の資産を使う →Hadoop はあくまでインフラとして使う © Acroquest Technology Co., Ltd. All rights reserved. 20
  • 21. Hadoop as a Service in Cloud III. Hadoopをクラウド上に展開 © Acroquest Technology Co., Ltd. All rights reserved. 21
  • 22. 【III. Hadoop as a Service in Cloud】 III-1. 仮想化の要請 しかし、Hadoopは 一般的に仮想化と 相性が悪いと 言われている: ディスクの分散、 ラックアウェアネ ス、 ・・・ オペレーション、 ニーズに応じた メンテナンスの コスト低減 素早い対応 単純化 © Acroquest Technology Co., Ltd. All rights reserved. 22
  • 23. 【III. Hadoop as a Service in Cloud】 III-2. Big Data への対応で必要なのはHadoopだけではな い ・Big Data のトレンドは、 Hadoop だけではない ・Hadoop は他の技術と併用され る: Big SQL, NoSQL, etc,… ・全てのインフラを統一したい Big Data 対応のための 統合された基盤が 求められている ・共通のハードウェア基盤 ・ハードウェア、ドライバの テストフェーズをなくしたい ・すでにあるチーム内で、制御、 診断、キャパシティマネジメン トを こなしたい © Acroquest Technology Co., Ltd. All rights reserved. 23
  • 24. 【III. Hadoop as a Service in Cloud】 III-3. 参考:Disney のData Management Platform Advancing Disney’s Data Infrastructure with Hadoop Matt Estes, Disney より Disney は、 2008年から仮想化、 2009年からHadoop に取り組んでいる。 2010年には、 Cloud Platform を 構築し、全サービスのう ち60%のサーバイメー ジを 仮想環境に移行した Hadoop 環境は Disney Cloud Services とは別 © Acroquest Technology Co., Ltd. All rights reserved. 24
  • 25. 【III. Hadoop as a Service in Cloud】 III-4. 参考:Disney のData Management Platform 2011年の取り組みで、 Hadoop クラスタを Data Management Platform として統一 Hadoop を使った サービスを大規模に 展開する企業も、 仮想化に注目してい る © Acroquest Technology Co., Ltd. All rights reserved. 25
  • 26. 【III. Hadoop as a Service in Cloud】 III-5. ディスクの構成 ローカルディスクを 使うことで、 扱いやすい HDFSの特性を生かす NW IO が ネックに © Acroquest Technology Co., Ltd. All rights reserved. 26
  • 27. 【III. Hadoop as a Service in Cloud】 III-6. vSphere を通したラックアウェアネス Rack awareness: Hadoopは大量のネッ トワーク通信を行うた め、通信量を減らせる ようマシンの物理的配 置を設定する。 ラックアウェアネスの考慮が必要な点 は、 仮想化を行う際の、 Rack script を自動生成 「どの物理ノードに乗っているか気 することで、問題を解決 にしなくて良い」 という利点に矛盾する © Acroquest Technology Co., Ltd. All rights reserved. 27
  • 28. 【III. Hadoop as a Service in Cloud】 III-7. Muti-tenant への対応 巨大クラスタを占有 するのと、クラスタ を共有するのと、用 途によって使い分け る 顧客の要請に応じた 使いわけ Multi-tenant: 1つのクラスタの中で 複数のシステムを 構築・動作させる © Acroquest Technology Co., Ltd. All rights reserved. 28
  • 29. 【III. Hadoop as a Service in Cloud】 III-8. クラウド上のHadoop構築で、柔軟な対応が可能に  Hadoopを仮想環境で動作させる仕組みが できた  「Hadoopだけは特別」ではない。 他のプラットフォームと同様に、 「クラウドにHadoopを展開して利用する」 というユースケースもあり得る © Acroquest Technology Co., Ltd. All rights reserved. 29
  • 30. 4. インフラとしてのHadoop  Hadoopはインフラとなりつつある  MapReduceで計算して終わり!な時代は過ぎた  HadoopをベースにOSS/フレームワークを組み 合わせて、新たな仕組みを構築する動きが出てき た  「目的」ではなく「手段」としてHadoopを使 う  「大量データだからHadoopをとりあえず使おう 」だと、Hadoopのメリットは少ない  大量データを分析し役立てたいからHadoopを使 う、と考えると、Hadoopを最大限に生かすこと ができる © Acroquest Technology Co., Ltd. All rights reserved. 30
  • 31. ぜひ日本でも事例を増やしましょ う! © Acroquest Technology Co., Ltd. All rights reserved. 31