SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
ビッグデータの分析手法

機械学習アルゴリズムとその応用




                        2013年2月6日(水)
             Copyright © Fixstars Corporation. All rights reserved.
自己紹介

@foota, nox
株式会社フィックスターズ所属
   並列処理・GPGPU・高速化
以前は理化学研究所の研究員
   薬学 / 創薬の研究
   分子動力学(MD)・分子軌道法(MO)
ブログ「良いもの。悪いもの。」
   http://handasse.blogspot.com/
本日話すこと

ビッグデータと機械学習
機械学習アルゴリズムについて
  k-平均法
  サポートベクターマシン
  HITS
  スペクトラルクラスタリング
機械学習アルゴリズムの活用事例
  質問応答システム
  創薬
  データ分析プログラミングコンテスト
ビッグデータと機械学習
ビッグデータと呼ばれる膨大で多様なデータ
  非構造化データであることが多い
  膨大な量
  一見して関連性を見出すことが難しい
有益な情報を取り出すことが困難
  いかにして情報を取り出すか
分析の手段としての機械学習
  データの特徴を捉え、識別し、そして予測を行う
  人間の学習を模したもの
  コンピュータにより自動的に行う
機械学習アルゴリズムがどのようにビッグデータを分
 析して有用な情報を抽出するのか?
ビッグデータ活用の現状
医療
  創薬
  病気の診断
  ゲノミクス
物理シミュレーション
  気象シミュレーション
  地震・津波シミュレーション
インターネット検索
  Web
  Twitter
  SNS
経済
  POSデータ
  トレンド分析
情報爆発




       (IBM Corporation資料より)
機械学習アルゴリズムについて
機械学習アルゴリズム
k-平均法 (k-means)
サポートベクターマシン (SVM; Support Vector Machine)
HITS (Hyperlink-Induced Topic Search)
スペクトラル・クラスタリング (Spectral Clustering)
ランダム・フォレスト (Random Forest)
局所性鋭敏型ハッシュ (LSH; Locality Sensitive Hashing)
潜在的ディリクレ分配法 (LDA; Latent Dirichlet Allocation)
ラベル伝播法 (Label Propagation)
確率的潜在意味索引付け (PLSI; Probabilistic Latent Semantic
 Indexing)
条件付き確率場 (CRF; Conditional Random Fields)
他にも様々なアルゴリズムが使われている
k-平均法 (k-means)






                      (C. M. Bishop, PRMLより)
サポートベクターマシン (SVM)

SVM(サポートベクターマシン)は、二値のパターン
 識別器を構成するアルゴリズムであり、訓練データ
 から、各データ点との距離が最大となる分離平面を
 求めるマージン最大化という基準でパラメータを学
 習する。
SVMを利用できるライブラリとしてLIBSVMなどが
 有名。
  http://www.csie.ntu.edu.tw/~cjlin/libsvm/
SVMのアルゴリズム
HITSアルゴリズム


スペクトラルクラスタリング

入力データに対し、k-近傍法
 (k-NN)による隣接行列を作る
 (対称行列になるように
 mutual k-NNとする)。
上記の隣接行列に対して正規
 化カットした結果をk-means
 などでクラスタリングする。
スペクトラルグラフ理論

隣接行列に対する正規化カット(Normalized Cut)は
 NP困難となるが、グラフラプラシアンの固有値問題
 に帰着できる。
機械学習アルゴリズムの活用事例
質問応答システム Watson




   (IBM and the Jeopardy Challenge http://www.youtube.com/watch?v=KVM6KKRa12g より)
技術的課題

幅広い分野への対応
問題文とカテゴリの解釈
高い正答率での回答
確信度の推定
応答速度




          (情報処理 Vol.52 No.7 July 2011 p.840 日本IBM東京基礎研究所資料より)
回答率の正解率の向上


初期のシステムと番組勝者との比較                     性能向上の履歴




          (情報処理 Vol.52 No.7 July 2011 p.840 日本IBM東京基礎研究所資料より)
Watsonの仕組み – DeepQAフレームワーク




       (情報処理 Vol.52 No.7 July 2011 p.840 日本IBM東京基礎研究所資料より)
創薬

機械学習予測システム (k-MUSES)
   理化学研究所で開発している機械学習活性判別システム
   http://www.riken.jp/dmp/bunshi.html
Merck Molecular Activity Challenge
   製薬企業メルク主催による化合物活性予測コンテスト
   https://www.kaggle.com/c/MerckActivity
   http://blog.kaggle.com/2012/10/31/merck-
    competition-results-deep-nn-and-gpus-come-out-
    to-play/
創薬: インシリコスクリーニング

                          化合物データベース
                         10万~1,000万化合物




                           ドッキングにより
                             化合物を濃縮
                         1,000~10,000化合物


  機械学習
活性判別システム


                          選択された化合物
                          100~1,000化合物

           (理化学研究所 創薬・医療技術基盤プログラム資料より)
創薬: 機械学習活性判別システム

           機械学習アルゴリズムを利用しな
           い場合と比較して数倍の精度を確
           認。

        サポートベクターマシン(SVM)を利用




      (理化学研究所 創薬・医療技術基盤プログラム資料より)
創薬: ADMET予測技術




   サポートベクターマシン(SVM)やランダムフォレストを利用

         (理化学研究所 創薬・医療技術基盤プログラム資料より)
創薬: Merck Molecular Activity Challenge

大手製薬企業メルクによる化合物活性の予測
高い精度で予測することで創薬の大きな助けとなる
近年注目されているDeep Learningというアルゴリ
 ズムが特に良い予測をした
データ分析コンペサイト Kaggleによるコンテスト
プログラミングコンテスト

Kaggle
   製薬企業による化合物活性予測
   戸籍調査の返信予測
   モバイルサイトによる購入予測
TopCoder
   NASAによる車両画像認識
   NASAによるクレーター画像判別
   米研究所による大豆の生産予測
   都市における病気や犯罪などの危険予測
Kaggle



         データ分析コンペティションサイト
         データサイエンティストの多くが参加
           データマイニング系のコンテストで有名な
            KDD Cupなども開催
TopCoder


     世界最大手の競技プログラミングサイト
     世界中の優秀なハッカーが腕を競い合う
        様々なジャンルのコンテストがあるが、アル
         ゴリズムを扱ったコンテストが一般的
        特にマラソンマッチと呼ばれる2~3週間を
         期限とするコンテストでデータ分析系の問題
         が出される
社内プログラミングコンテスト: 年収額予測
              ある都市で継続的に戸口・財産調査が行われた。そ
              れらをまとめたデータセットがコンテスト参加者に
              与えられている。そのデータセットには年収額を含
              む18の項目がある。
              年収額が伏せられた別のデータセット(17項目)が与
              えられたとき、年収額の予測を行うことが今回の問
              題となる。
              14.4万件の訓練データ → 5万件を予想

1. 年齢        10. 学校への在籍
2. 性別        11. 就業について
3. 人種        12. 労働者の種別

                                年収額
4. 婚姻        13. 昨年内に労働した週数
5. 出産数       14. 先週に労働した時間数
6. 誕生地       15. 最後に労働した年
7. 農家かどうか    16. 5年以内の移住について
8. 住居の所有権    17. 職場への主な交通手段
9. 世帯主との関係
評価方法
% ./exe_file train.dat test.dat

1回の実行に用いるテストデータファイル内のデータ数は1,000件とし、暫定テ
ストデータ5,000件は5ファイル、最終テストデータ50,000件は50ファイルに分
割され、ファイルごとに実行される。ここでは、1ファイル(1,000件)を1ケース
とする。

実際の年収額と予測した年収額の二乗平均平方根誤差(RMSE)を求め、以下の式
でスコアが与えられる。1ケースが1,000件であることから、 n=1000 とする。
解答に使われた機械学習アルゴリズム

ランダムフォレスト
ロジスティック回帰
C5.0
多層パーセプトロンによる誤差逆伝播法
素性に基づく行列因子分解
コンテストの結果

順位           氏名   最終スコア        暫定スコア          言語        最終投稿日時

     1 ***         47.526946     45.667594    Ruby     2012/6/30 20:02

     2 ***         47.189242     45.363833   Haskell   2012/6/30 22:13

     3 ***         47.172834     45.910145    C++      2012/6/30 16:26

     4 ***         45.030060     43.658967   Python    2012/6/27 23:59

     5 ***         44.871869     42.659491     C       2012/6/29 9:53

     6 ***         44.697920     46.124126   Python    2012/6/30 16:14

     7 ***         44.468423     42.560599    C++      2012/6/26 9:54

     8 ***         42.639191     40.837311    Ruby     2012/6/30 23:33

     9 ***         35.959067     35.051351    C++      2012/5/16 20:00

 10 ***            35.614639     34.813002   Python    2012/5/16 20:00
コンテストの考察
1~3位のアルゴリズムはすべて異なり、それぞれ、ロ
 ジスティック回帰、多層パーセプトロンによる誤差逆伝
 播法、ランダムフォレストとなっている。
  一概にどのアルゴリズムが最も良いとは言い切れない。
なぜ勝者になれたのか?
  優勝者は暫定順位では3位だったが、開催期間のほぼすべての
   時間を使い、訓練データを精査することで、外れ値をもつ
   データを可能な限り除外した。
  暫定1位(最終結果3位)の方は短期間で効率よくアルゴリズム
   を決定して訓練データでは高い予測精度を発揮した。
  最終テストにおいてより良い結果を挙げることができたのは
   精度の高い訓練データであったことが示唆される。
データセットの調査とその精度はとても大事。
まとめ: ビッグデータと機械学習
様々なビッグデータに対して様々な機械学習アルゴリ
 ズムが利用されている。
  重要な点は、アルゴリズムに合ったデータを選ぶのではな
   く、データに合ったアルゴリズムを選ぶということ。
扱う対象を調査した上で方法を決定する。
  対象に特化した特徴がないか?
  大規模データなのか?
  速度と精度のバランスは?
  並列処理可能な問題か?
   Hadoopを利用? MPIを利用?
   分散ノード? メニーコア? GPGPU?


         すべての大規模データに
        適用できる銀の弾丸はない
ご清聴ありがとうございました

Contenu connexe

Similaire à Nttr study 20130206_share

Metrix team 20190524
Metrix team 20190524Metrix team 20190524
Metrix team 20190524SQiP-WEST
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
エンタープライズと機械学習技術
エンタープライズと機械学習技術エンタープライズと機械学習技術
エンタープライズと機械学習技術maruyama097
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤ICT_CONNECT_21
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章Hirofumi Tsuruta
 
科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要Toshihiro Kamishima
 
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計Ichigaku Takigawa
 
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索Eli Kaminuma
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案__106__
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing禎晃 山崎
 
ゆもつよ博士論文説明資料公開
ゆもつよ博士論文説明資料公開ゆもつよ博士論文説明資料公開
ゆもつよ博士論文説明資料公開Tsuyoshi Yumoto
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On陽平 山口
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測DataRobotJP
 
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 Eli Kaminuma
 

Similaire à Nttr study 20130206_share (20)

Metrix team 20190524
Metrix team 20190524Metrix team 20190524
Metrix team 20190524
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
エンタープライズと機械学習技術
エンタープライズと機械学習技術エンタープライズと機械学習技術
エンタープライズと機械学習技術
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 
科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要科学技術計算関連Pythonパッケージの概要
科学技術計算関連Pythonパッケージの概要
 
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
 
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
ゆもつよ博士論文説明資料公開
ゆもつよ博士論文説明資料公開ゆもつよ博士論文説明資料公開
ゆもつよ博士論文説明資料公開
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
Road damge ai
Road damge aiRoad damge ai
Road damge ai
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
 
NAGOSUTA 20181020
NAGOSUTA 20181020NAGOSUTA 20181020
NAGOSUTA 20181020
 
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類 [18-01-26]DSTEP  ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
 

Nttr study 20130206_share