Publicité

Jubatusが目指すインテリジェンス基盤

Chief Research Officer à Preferred Networks America, Inc.
1 Oct 2013
Publicité

Contenu connexe

Présentations pour vous(20)

Similaire à Jubatusが目指すインテリジェンス基盤(20)

Publicité

Dernier(20)

Publicité

Jubatusが目指すインテリジェンス基盤

  1.   Jubatusが⽬目指す インテリジェンス基盤 比戸 将平 株式会社Preferred  Infrastructure
  2. l  NTT  SIC*とPreferred  Infrastructureによる共同開発 l  2011年年10⽉月よりOSSで公開  http://jubat.us/ Jubatus 分散並列列 リアルタイム 深い解析 *  NTT研究所  サイバーコミュニケーション研究所   ソフトウェアイノベーションセンタ
  3. l  会社紹介 l  ビッグデータ解析の実情 l  Jubatusが提供する⾼高度度な解析機能 l  分散リアルタイム機械学習の仕組み l  Jubatusの未来 Agenda
  4. Preferred Infrastructure (PFI)   最先端の技術を最短路路で実⽤用化 4 分散システム ⾃自然⾔言語処理理 機械学習 情報検索索(IR) l  東⼤大発ソフトウェア開発ベンチャー l  創業:2006年年3⽉月 l  主な製品 l  Sedue: 検索索&レコメンドエンジン l  Bazil: 使いやすい機械学習解析サービス l  Jubatus: ⼤大規模オンライン分散機械学習 代表取締役 ⻄西川徹 取締役副社⻑⾧長 岡野原⼤大輔
  5. メンバーの特徵: 各分野で尖った⼈人材を集めています l  正社員26⼈人中22⼈人がエンジニア/研究者 l  ⾃自然⾔言語処理理/機械学習/計算量量理理論論/データマイニングの博⼠士 l  Ex-‐‑‒  Sony  IBM基礎研  Yahoo!  Sun  アクセンチュア  mixi  GREE l  IPA未踏プロジェクト採択者  5名 l  ICPC世界⼤大会⽇日本代表7名、ICFPコンテスト優勝者 l  TopCoder  RedCoder  3名  (⽇日本⼈人25名)   l  コミュニティ活動や著書・訳書 l  ⽇日本Hadoopユーザー会⽴立立ち上げ,  ⾃自然⾔言語処理理若若⼿手の会委員⻑⾧長 l  Hadoop本、⽇日本語⼊入⼒力力本,  Haskell本,  ⾼高速⽂文字列列解析本 l  各種表彰 l  東⼤大総⻑⾧長賞、京⼤大総⻑⾧長賞、未踏スーパークリエータ(2名) l  情報処理理学会ソフトウェアジャパンアワード2013(代表・⻄西川) 5
  6. l  会社紹介 l  ビッグデータ解析の実情 l  Jubatusが提供する⾼高度度な解析機能 l  分散リアルタイム機械学習の仕組み l  Jubatusの未来 Agenda
  7. ビッグデータの例例 7 l  テキスト系   l  新聞/Web/ブログ/Twitter l  イベント系列列 l  カード利利⽤用/治療療履履歴/Web広告履履歴 l  メディア系   l  ⾳音声/画像/動画 l  ネットワーク系 l  パケット流流量量/種類/内容 l  M2Mセンサー系   l  ヒト/⾞車車/⼯工場監視 ⼈人間系 機械系
  8. Volume Variety Velocity 蓄積 分析 ビッグデータ分析プロセス 8 Complex Event Processing Hadoop NoSQL バイオ テキスト M2M メディア
  9. データ分析から深い解析へ 9 分析 ⾒見見える化集計 検索索 ルール処理理 SQL DWH BI CEP M/RCQL 深い 解析 カテゴリ分類 レコメンド 異異常検知 予測 機械学習 (Machine Learning)
  10. ビッグデータ 解析 データ アナリティクス ビ グ デ ー タ ビッグデータ分析の現状:ブラックボックス? 10 応⽤用 利利益最⼤大化 コスト最⼩小化 需要予測 故障予知 営業戦略略最適化 パーソナライズ マーケ最適化 データ サイエンティスト
  11. ビ グ デ ー タ ビッグデータ処理理系と解析ソフトウェアの組合せ 11 データサイエンティスト ビッグデータ処理理系 応⽤用 利利益最⼤大化 コスト最⼩小化 需要予測 故障予知 営業戦略略最適化 パーソナライズ マーケ最適化 ⼤大規模DB 解析ソフトウェア
  12. ビッグデータ分析の導⼊入:まだまだこれから l  IBMの2012年年調査 l  24%がまだビッグデータ活⽤用について調査段階 l  47%がビッグデータ活⽤用⽅方法について検討段階 l  わずか6%が導⼊入してビジネス価値を⽣生み出している l  浸透の途中 or 現在のビッグデータ解析に⽋欠けているものがある? IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
  13. これからのビッグデータ解析技術:3つのキー要素 1.  機械学習などの深い解析技術 l  決まりきったレポーティングやルール処理理では不不⼗十分 l  因果関係分析や状況に応じた予測・判断が重要 2.  ⼤大規模データへの対応 l  DBに保存して貯めることが難しいデータ量量 l  DBから再度度読み込んで処理理することが難しいデータ量量 3.  リアルタイム/オンライン処理理 l  迅速な分析と対応が必要なアプリケーションの出現 l  データ取得時点でストリーム処理理することが必要 深い解析 ⼤大規模化 リアルタイム /オンライン
  14. なぜJubatusが必要なのか l  既存の分散並列列処理理  (MapReduce/Hadoopなど) l  スケールアウト構成による性能向上、耐障害性 l  基本的にバッチ処理理、解析結果はすぐ返ってこない l  計算モデルの⾃自由度度が⾼高い分オーバーヘッドも⼤大きい l  既存のオンライン  /  ストリーム処理理  (CEPなど) l  到着したデータをその場で処理理して解析し、結果を出⼒力力する l  多くは単純な処理理しか⾏行行えない 14 1. ⼤大規模化 3. 深い解析 2. リアルタイム/オンライン ◯ ✕ ✕
  15. 15 WEKA     1993-‐‑‒ SVM  light            1998-‐‑‒ Mahout          2006-‐‑‒ Jubatusの先進性と差別化要因: ⼤大規模/分散並列列かつオンライン/リアルタイム バッチ ⼩小規模 単体 ⼤大規模 分散並列列 2011年年現在 存在しなかった この分野に フォーカス! • Structured  Perceptron [Collins,  EMNLP  2002] • Passive  Aggressive  / MIRA  2004〜~ • online-‐‑‒learning  library   [岡野原,  2008] オンライン (リアルタイム)
  16. 代表的なビッグデータ処理理基盤:Google中⼼心 分散処理理 基盤 GFS/MapReduce  (Hadoop)   [Google  2004] 分散ファイルシステム  +  MapReduce フレームワーク Chubby  (Zookeeper) [Google  2006] 分散ロックサーバー,   分散システムの調整役 DB/データ ストア BigTable  (HBase)   [Google  2006] スケールアウト可能な列列志向のKVS Dynamo   [Amazon  2007] ⾼高可⽤用性、スケールアウト可能な  KVS MegaStore   [Google  2011] トランザクション機能付きKVS OLAP/分析   ツール Hive [Facebook  2009] SQL経由で利利⽤用可能なHadoop Dremel  (Apache  Drill)   [Google  2010] OLAP向け,  列列志向  +  スタースキーマ PowerDrill [Google  2012] OLAP向け  列列志向  +  スタースキーマ  +   圧縮  +  オンメモリ …OSS,  サービスでは未登場 Spanner [Google  2012] データセンター間の⼀一貫性制御 数百万台のマシンを制御
  17. l  会社紹介 l  ビッグデータ解析の実情 l  Jubatusが提供する⾼高度度な解析機能 l  分散リアルタイム機械学習の仕組み l  Jubatusの未来 Agenda
  18. 機械学習の概要 l  機械学習研究の定義 l  「経験(データ)によって 賢くなるアルゴリズムの研究」 l  古典的な統計⼿手法に⽐比べた特徵 l  確率率率分布の仮定などの制限が少ない l  ⼤大規模・⾼高次元データにも有効 l  主な問題設定 l  カテゴリ分類/回帰 l  クラスタリング(グルーピング) l  レコメンド/異異常検知 l  近傍探索索ベース 18 Dimensionality Reduction by Learning an Invariant Mapping Raia Hadsell, Sumit Chopra, Yann LeCun, CVPR, 2006 学習データ 分類モデル
  19. Jubatusが現在サポートする機械学習アルゴリズム l  分類(+マルチクラス対応) l  Perceptron / PA / CW / AROW / NHERD l  回帰 l  PA-based regression l  近傍探索索 l  LSH / MinHash / Euclid LSH l  レコメンデーション l  近傍探索索ベース l  外れ値検知 l  近傍探索索ベースのLOFアルゴリズム l  グラフ解析 l  最短路路/ 中⼼心性(PageRank)
  20. クラス分類と回帰 l  ⼊入⼒力力xに対し、出⼒力力yを推定する l  正解データ{(x, y)}を利利⽤用しxからyの関数を学習 20 タスク ⼊入⼒力力x 出⼒力力y メール分類 メール スパム or 普通 or 重要等 Twitterのユーザー分析 Tweet ユーザーの性別、職業、年年齢など 電気使⽤用料料需要の予測 パケット 各サーバーの予測使⽤用量量(連続値) 広告のコンバージョン予測 アクセス履履 歴、広告 クリック、コンバージョンするか 監視カメラ解析 監視カメラ 画像 部屋の状態(明かりがついている? ⼈人がいるか?など)
  21. 機械学習の応⽤用 21 クレジットカード不不正利利⽤用検知 ネットワーク攻撃/侵⼊入検出 Jeopardy!でクイズ王に勝利利 医療療診断⽀支援
  22. Jubatusのビジネス展開:Twitter解析サービス l  NTT DataがTwitter Japanと独占契約 l  Firehoseを通じた全ての⽇日本語Tweetの再販 l  Jubatusを使った解析機能付きAPIがリリース予定 22 http://blog.jp.twitter.com/2012/09/twitter.html
 http://www.nttdata.com/jp/ja/news/release/2012/092700.html
  23. Jubatusの展開:NEDO IT融合基盤技術に採⽤用 l  ⾼高速化と多様なデータ対応を⽬目指して来年年度度まで開発 l  都市交通・農商⼯工・ヘルスケア分野の実証プロジェクトと連携 23 データ量 開発計画 ⼈人間が⽣生み出した ビッグデータ +⾃自然か機械が⽣生成 +シビアなリアルタイム性の要求 テキスト ヘルスケア 農商⼯工 ネットワーク 都市交通 公共映像監視 NEDO: IT融合新産業を⽀支えるデータ処理理基盤に関する先導研究 「リアルタイム⼤大規模データ解析処理理基盤の研究開発」
  24. Jubatus応⽤用の可能性:都市交通分野 l  ⾏行行動推薦エンジン・危険運転挙動検知   l  類似ユーザーの挙動からのレコメンデーション l  正常運転状況との差分を外れ値検知 l  リアルタイム交通情報(位置・カメラ)による渋滞把握、危険通知 l   交差点付近のカメラ情報からの状況分類・外れ値検知 l  パーソナルモビリティの状況に合わせた広告等配信サービス   l  ユーザー情報と位置情報の組合せによるレコメンデーション l  路路側センサやプローブ情報との協調、近接⾞車車同⼠士による情報交換   l  ⾞車車毎にJubatusが動作してローカル状況推定モデル共有 l  センサーでの歩⾏行行者流流動分析、環境情報によるユーザ状況センシ ング   l  画像解析から歩⾏行行者流流量量のロケーション別回帰や分類 24
  25. Jubatus応⽤用の可能性:ヘルスケア分野 l  画像、病理理センサを使ったがん診断⽀支援 l  画像処理理と病理理センサ情報を組み合わせたがん進⾏行行度度分類 l  MRIなど画像解析を使った⽀支援   l  画像処理理の時系列列情報も⽤用いた症例例分類⽀支援・治療療レコメンド l  ⼿手術適応診断⽀支援 l  症例例分類・治療療の必要有無レコメンド l  異異常所⾒見見診断⽀支援 l  ⼈人間が気づかない症状を画像・センサから外れ値検知   25
  26. 26 •  ⾮非構造化データのサポート •  ビッグデータに特化し リアルタイム性を追求 •  検索索技術と機械学習の融合 ⾮非構造データ、インタラクティブ性: 検索索が再び重要技術として脚光を浴びる可能性
  27. Overview 27 On-‐‑‒Disk Instance On-‐‑‒Memory Instance Fluentd Realtime  Analysis  Server JubatusData  Source Web  Server +  Visualization  Tool  Kit
  28. l  検索索技術と機械学習の融合 l  機械学習により⼤大量量のデータを⾃自動的に分類 l  検索索結果へのメタ情報付与やフィルタリングに活⽤用 l  ⾮非構造化データのまま格納しリアルタイムに検索索 l  ⼤大規模かつ⾮非構造化なデータもリアルタイムに処理理 l  ⾼高速な処理理でリアルタイム性を追求 l  新しいデータが登録されたら、即座に⾃自動分類、分析、検索索 l  最新の情報をもとに、分析・解析を⾏行行うことが可能に 28 リアルタイム⼤大規模⾮非構造データ分析基盤
  29. ケーススタディー 〜~防犯カメラの映像を解析〜~ 29 具合の悪い⼈人や 困っている⼈人を⾃自動検出 特定場⾯面の検索索 収集・分析 タグ付け タグ付け タグ付け タグ付け タグ付け
  30. l  機械学習を利利⽤用した動画像の⼈人物検出およびタグ付け l  複数カメラからタグ付きデータを時々刻々と Sedue  for  BigDataへ投⼊入し、検索索・分析可能に 動画像検索索・分析技術への取り組み 30 男性 歩いている ジーンズ 2013/08/15
 12:08:30.200
  31. l  会社紹介 l  ビッグデータ解析の実情 l  Jubatusが提供する⾼高度度な解析機能 l  分散リアルタイム機械学習の仕組み l  Jubatusの未来 Agenda
  32. 機械学習における「モデル」の定義 l  計算式とパラメータの集合 l  その表現⽅方法はタスクやアルゴリズムによって千差万別 l  例例:線形分類モデル  y = a x + b l  学習:教師データ(正解が分かっているもの)を加えると賢くなる l  計算式は固定だがパラメータを調整する l  学習の例例:  (y =+1, x=+2)という教師データを⼊入⼒力力 → a x + b = 2a + b が  y > 0 となるように  aとbを更更新 l  予測:テストデータ(正解が判らないもの)を与えると結果を返す l  予測の例例:(x = -5)というテストデータを⼊入⼒力力 → y’ = a x + b = -5a + b を予測値として出⼒力力 Model 学習 テスト データx 正解y Model データx 予測y’
  33. 多クラス分類におけるモデル w1 w2 wn 多クラス分類では個々のサーバーが持つウェイトが 学習結果のモデルにあたる 33
  34. 近傍探索索におけるモデル l 近傍探索索では転置インデックス・LSH・Min Hashを⽤用いてデータ 点をビット列列化したものが学習モデルである。 011010010 110001100 110010111 000100101 110101011 000010110 1 2 3 4 5 6 34
  35. 分散リアルタイム機械学習は⾃自明でない 頻繁な モデル更更新 同期操作 オンライン機械学習 に必須 分散アルゴリズム に必須 相反 LLLL LLLL L Update LLL Update Update Update time オンラインでモデル更更新=頻繁な同期操作 サーバー1 サーバー2 サーバー3 分散処理理とオンライン 学習のナイーブに組み合わせ
  36. 分散オンライン機械学習を実現するコア技術: 緩やかなモデル情報の共有 l  Jubatusは各サーバーのモデル情報を「緩やか」に共有する l  データ⾃自体は共有せず、モデルのみ共有する l  既存システムと違う割り切切り l  全サーバー間で同時刻に同じモデルが存在することは保証しない l  サーバー毎に解析が(実⽤用上問題が無い程度度に)異異なることを許容 l  時間が経つにつれ、モデル間の情報は共有されていく モデルモデルモデル 統合 モデル 統合 モデル 統合 モデル MIX モデルのみ共有 UPDATE データを分散して学習 ANALYZE 分散して処理理
  37. UPDATE l  それぞれのサーバーは初期モデルからスタート l  訓練データは1  or  2台のサーバーに送られる l  ローカルな訓練データを元に、各々のモデルがリアルタイムに学 習される l  訓練データそのものは共有されない Local model 1 Local model 2 Initial model Initial model 37
  38. MIX l  それぞれのサーバーはモデルの差分のみを送る l  モデルの差分はマージ後各サーバーに配布される l  モデルの差分のみがサーバー間でやり取りされる Local model 1 Local model 2 Mixed model Mixed model Initial model Initial model = = Model diff 1 Model diff 2 Initial model Initial model - - Model diff 1 Model diff 2 Merged diff Merged diff Merged diff + + = = = + 38
  39. ANALYZE l  テストデータはランダムにサーバーに送られる l  サーバーは⾃自分が現在持つモデルをテストデータに適⽤用し予測を⾏行行 う l  サーバー側では結果の集約は⾏行行わない Mixed model Mixed model 39
  40. JubatusのMIX付き分類モデル w1 w2 wn MIX w w w w = 1 n w1 ++ wn( ) 各サーバーが個別にオンライン学習し MIX時に重みを平均化する 40
  41. JubatusのMIX付き近傍探索索モデル •  転置インデックス・LSH・Min Hashを⽤用いてデータ点をビット 列列化。ビット列列のハミング距離離を⽤用いてコサイン距離離を近似計算 する。 011010010 110001100 110010111 000100101 110101011 000010110 1 2 3 4 5 6 011010010 000010110 1 6 : 011010010 000010110 1 6 : 011010010 000010110 1 6 : Mix 41
  42. l  会社紹介 l  ビッグデータ解析の実情 l  Jubatusが提供する⾼高度度な解析機能 l  分散リアルタイム機械学習の仕組み l  Jubatusの未来 Agenda
  43. ビッグデータの⾏行行き着く先:Edge-heavy そのデータ、集められますか?貯められますか? 43 【次世台シーケンサー】    ゲノムデータなど 【⽣生体情報モニター】    ⼼心拍数、⾎血圧、体温など 【モバイル】 ⾳音声データ、位置情報、 メールのテキスト情報など       【監視カメラ】 動画、静⽌止画などの 画像データ       丸山宏, 岡野原大輔 Edge-Heavy Data: CPS・ビッグデータ・クラウド・スマホがもたらす次世代アーキテクチャ GICTF総会 特別講演 2012, http://www.gictf.jp/doc/20120709GICTF.pdf
  44. Edge-Heavy Data: データ価値の多くはエッジ(縁)に存在する 44 l センサデータの増加により、データの総価値は増加する l その⼀一⽅方、データの価値の密度度⾃自体は下がりつつある l  現在のビッグデータの殆どは排気データ(exhaust  data) ※排気データ:他の事業活動の副産物として⽣生成されたデータ l 多くのデータが収集されるが利利⽤用されない l 利利⽤用を⾒見見込んで投機的に収集しても割に合わない l 解析することは割に合わない場合が多い l  コスト:ネットワーク,  ストレージ,  個⼈人情報管理理 推測:多くのデータは収集された地点で管理理、処理理され       濃縮された重要な情報(モデル)のみがやりとりされる
  45. ネットワーク・デバイス・マシンはより⾼高度度化し ⾃自律律的に深い分析を⾏行行う必要が⽣生じる 機械(特にエッジデバイス)によって⽣生成 される⼤大量量のデータは、⾃自律律分散的に処理理 される他なくなるだろう。
  46. Edge-Heavy Dataに向けて(1) Jubatus on OpenBlocks (ARMプロセッサ) 46 http://obdnmagazine.blogspot.jp/2012/11/jubatusopenblocks-ax3_21.html
  47. Edge-Heavy Dataに向けて(2) ハードウェアの⾮非連続的な進化のギャップを活かす l  通信規格 l  近距離離無線ネットワーク l  ZigBee l  最新センサーデバイス l  低価格カメラ l  LIDAR l  マルチコア・マルチプロセッサ l  次世代FPGA l  GPGPU l  統計処理理・数値計算に向いたCUDAプログラミング l  インテル® Xeon Phi l  x86互換のコプロセッサ
  48. Edge-‐‑‒Heavy  Data時代のコンピューティング 今後Edge-‐‑‒Heavy  Dataに特化したアーキテクチャが現れる (現在のHWの進化をどう活⽤用していくか) 1. SSD、消費電⼒力力、ストリーミングデータを考慮したセンサ 2. 画像・映像処理理を組み込んだハードウェア・ミドルウェア 3. データを動かさず計算を動かすプログラミングモデル l  GFS  +  MapReduceはその萌芽であるが、さらに進化するだろう 4. ⽋欠測値、外れ値、分布表現を取り込んだプログラミングモデル 5. 分散機械学習・データマイニングを可能にするミドルウェア l  明⽇日に関連講演があります BI-4-1  Krill: エッジ・ヘビー・データ時代のアーキテクチャ ○丸⼭山(統数研)岡野原・⽐比⼾戸・海野・久保⽥田(PFI) 48
  49. ビッグデータ時代のインテリジェンス基盤に向けて l  データ中⼼心社会 l  「ビッグデータ」「データサイエンティスト」「情報爆発」 などの⾔言葉葉が滅びてもその本質は変わらない l  エッジヘビーになると様々な分野が関係してくる l  センサーネット、⾃自律律分散処理理、P2P、ユビキタス、アンビエント l  HW/NWの進化に寄り添う解析SW基盤 l  例例:SSDの登場による検索索インデクスの最適化 l  垂直統合プロジェクトの重要性 l  HW/NW/SWの研究者・⺠民間企業が⼿手を合わせること l  海外の動き: l  Google、IBM、Oracle、Intel + 解析ベンチャー l  電⼦子情報通信学会はその⺟母体として⾮非常に相応しいのではないか
Publicité