Contenu connexe Similaire à Tokyowebmining41 Similaire à Tokyowebmining41 (20) Tokyowebmining412. 2014/12/20 データマイニング+WEB@東京 2
自己紹介
• この4月から東京の某大学で勤務
• OSS関係の活動
• Plamo Linuxプロジェクト (現在長期休暇中)
• PHP / PostgreSQLなどのドキュメント翻訳
• Linux Conference ‘98
• 最初で最後?のユーザによるカンファレンス
• 2007年に開催されたLL魂でRを紹介 … など
• 執筆活動
• Software Design (1998~2002)
• The R book (第16章)
• Rによるバイオインフォマティクスデータ解析 … など
3. 2014/12/20 データマイニング+WEB@東京 3
本日の内容
• データマイニング+WEB @東京への参加意義
• 生命情報研究とWeb(IT)
• 生命情報のデータマイニング
• セントラルドグマとオミックス解析
• オミックス解析における p >> n 問題
• SVMでの取り組み
• Random Forestsでの取り組み
• PageRank他での取り組み
• LASSO・MARSでの取り組み
• バイオインフォマティクスにおける機械学習
• 今後の興味
4. 2014/12/20 データマイニング+WEB@東京 4
データマイニング+WEB @東京の
参加意義
• データの質的内容は分野によって異なる
• SNSのネットワーク
• 代謝化合物パスウェイ
• しかしどちらもグラフ構造として捉えられる
• マイニング技術そのものは共通のはず
• 例えばNMF …
• 例えばディープラーニング
• メルク社の活性予測で脚光
• 他分野で有効な技術を見出し転用したい
5. 2014/12/20 データマイニング+WEB@東京 5
生命情報研究とWeb(IT)
• 解析やデータ共有サーバ構築
• 配列類似性検索 (BLASTなど)
• 解析結果検索処理系の作成
• Apache + PHP + PostgreSQL on Linux
• よしだともこのルート訪問記(UNIXUSER誌2002年12月号掲載 第74
回 社内でのオープンソースの導入がスムーズだった理由とは?
http://www.tomo.gr.jp/root/new/root74.html )
• スクレイピング
• 大量の解析もしくは結果の自動集約処理
• ビッグデータ処理のインフラ構築
• データリポジトリサイト管理者の嘆き(TCGA projectなど)
• 生命情報のビッグデータはVelocityが小さくVarietyが大きい?
8. 2014/12/20 データマイニング+WEB@東京 8
オミックス解析における
p >> n 問題
• Fan C et al. Concordance among gene-
expression-based predictors for breast
cancer. N Engl J Med 2006; 355: 560 – 569
• 乳がんの予後予測に関する過去5論文再調査
• 遺伝子群に殆ど重複がなかった
• サンプルを数百に増やし同様の手順で再解析
• 先述の4つの論文で遺伝子群の重複が認められた
• p >> n 問題
• サンプル数(n)に対して説明変数(p)が極端に高次元
• オミクスデータの解析はまさにp >> n問題と隣り合わせ
• 有効な解法として、LASSO/Boosting/Random Forests
(user!2008 Fox教授の基調講演から)
9. 2014/12/20 データマイニング+WEB@東京 9
SVMでの取り組み
• SVM (Support Vector Machine)
• マージン最大の超平面を求める
• 当時の実装
• TinySVM http://chasen.org/~taku/software/TinySVM/
• SVMlighthttp://svmlight.joachims.org/
• LIBSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
• SVMを用いた研究
• siRNAの機能予測
• 化合物の活性・毒性予測
11. 2014/12/20 データマイニング+WEB@東京 11
Random Forestsでの取り組み
• Random Forests (RF)
• L. Breimanが2001年に発表
• 無作為抽出と多数の決定(回帰)木の多数決(平均)
• メルク社が構造活性相関(QSAR)に応用(2003)
• randomForest / CRANはこのときの副産物?
• RFを用いた研究
• オーファンGPCRに共役するGタンパク質の予測
• メタボローム解析
• 高次脳機能解析
• 脳磁図(Magnetoencephalography; MEG)の波形解析
12. 2014/12/20 データマイニング+WEB@東京 12
メタボローム解析と従来の解析
手法
• メタボローム解析
• 質量分析器(MS)などで生体内代謝物を網羅的に解析
• 核磁気共鳴スペクトル(NMR)で行う場合もある
• 得られるデータはサンプル数 x 代謝物からなる信号強度
• 代謝化合物の同定とメカニズムの議論
• 従来の解析手順
• 主成分分析(PCA)
• スコアプロット 投与群の判別
• ローディングプロット 負荷の大きい因子を選抜
• PLS-DA(部分最小二乗法判別分析)
• 予測モデル
TCA回路
KEGG
PATHWAY
より引用
13. 2014/12/20 データマイニング+WEB@東京 13
RFによるメタボローム解析
• RFを選抜した理由
• RFが教師なし学習と教師つき学習の両方に対応
• PCA⇒RFの教師なし学習
• PLS-DA⇒ RFの教師つき学習
• RFの重要度(Variable importance measure)が変数(
バイオマーカー)選抜に使えるのではないか?
• SVMだと判別根拠の理解が困難
• 先行研究
• 構造活性相関(Svetnik V et al. J Chem Inf Comput Sci. 2003)
• 遺伝子選抜(Diaz-Uriarte et al. BMC Bioinformatics. 2006)
• 植物メタボローム解析(Enot DP et al. PNAS. 2006)
14. 2014/12/20 データマイニング+WEB@東京 14
リン脂質症のメタボローム解析
• 実験デザイン
• 化合物Aをラットに投与
• 尿中の代謝物をMSで解析
• PCAはMSが取得したメタボロームデータを投与前と対象
群、投与2日後、投与3日後の3群に分離
• 本試行まではリーズナブルな結果と思われた
• 教師なしRFのMDS plotは4群に分離
• RFは溶媒の差異を判別した
Hasegawa et al, Exp Toxicol Pathol. 2007
スコアプロット
投与前 投与2日目 投与3日目
化合物A D0 D2 D3
参照 C0 C2 C3
16. Ryota Suzuki
R AnalyticFlow: A flowchart-style GUI for R
Kensuke Okada, Kazuo Shigemasu
BMDS: A Collection of R Functions for Bayesian Multidimensional Scaling
Junji Nakano, Ei-ji Nakama
Speeding up R by using ISM-like calls
Tomoaki Nakatani
ccgarch: An R package for modelling multivariate GARCH models with conditional correlations
Bioinformatics II (Room: E29, Chair: Ramón Díaz-Uriarte)
Jacob Michaelson, Andreas Beyer
Random Forests for eQTL Analysis: A Performance Comparison
Chihiro Higuchi, Shigeo Takenaka
Metabolome data mining of mass spectrometry measurements with random forests
Matteo Pardo, Giorgio Sberveglieri
Random Forests and Nearest Shrunken
Centroids for the Classification of eNose data
Carolin Strobl, Achim Zeileis
Why and how to use random forest variable
importance measures (and how you shouldn't)
17. 2014/12/20 データマイニング+WEB@東京 17
RFについての考察
• 得られる解が不安定
• 無作為抽出とランダムな決定(回帰)木作成の所以
• 10000回くらい学習を繰り返せば問題ない?
• Diaz-Uriarteは大きなエラーはないと
• 自身が納得する処理を模索中
• 順位変動に拘わらないロバスト性
• 後述のLASSO・MARSとの違い
• スパースではない
• 全ての変数を対象に判別を実施
• どちらが合理的かはモデル次第
• RFは潜在的な因子検出に期待 Gall We et al. PLoS One. 2010
20. 2014/12/20 データマイニング+WEB@東京 20
LASSOおよびMARSでの取り組み
• LASSO (Least Absolute Shrinkage Selection Operator)
• ペナルティ項を与えた最小二乗法と交差検証で最適な
線形回帰式を提案
• 各群に固有な変数を選択
• MARS (Multivariate Adaptive Regression Splines)
• 折れ線スプラインで最適回帰式をヒンジ関数*で提案
• max (0, x – c) or max (0, c – x)
• 全ての群に共通な変数を選択する
• LASSOおよびMARSを用いた研究
• miRNA発現情報のLASSO・MARS解析による疾患バイオ
マーカーの同定(第59回日本人類遺伝学会)
23. 2014/12/20 データマイニング+WEB@東京 23
今後の興味
• Kursa MB. Robustness of Random Forest-based gene selection
methods. BMC Bioinformatics. 2014 Jan 13;15:8. doi: 10.1186/1471-
2105-15-8. (rFerns / CRAN)
• Huang JC, Meek C, Kadie C, Heckerman D. Conditional random fields for
fast, large-scale genome-wide association studies. PLoS
One. 2011;6(7):e21591. doi: 10.1371/journal.pone.0021591. Epub 2011
Jul 12.
• Vattikuti S, Lee JJ, Chang CC, Hsu SD, Chow CC.
Applying compressed sensing to genome-wide association studies.
Gigascience. 2014 Jun 16;3:10. doi: 10.1186/2047-217X-3-10.
eCollection 2014.
• Nock NL, Li L, Elston RC. Modeling Genetic and Environmental Factors
in Biological Systems Using Structural Equation Modeling: An
Application to Energy Balance. Proc Ohio Collab Conf Bioinform. 2009
Jun 17:3-8.
24. 2014/12/20 データマイニング+WEB@東京 24
ご清聴ありがとうございました
• 謝辞
• バイオインフォマティクス研究でご一緒した皆様
• Rコミュニティの皆様
• OSSコミュニティの皆様
• 本発表を快諾してくれた家族
• 参考文献
• ウィキペディア(日本語、英語)
• 江口真透、ゲノムデータ・オミックスデータを解析するための新しい
統計方法と機械学習の方法、2009年日本計量生物学会年会特別
セッション・チュートリアルセミナー
• Hastie et al. The Elements of Statistical Learning Second Edition.
ISBN:978-0387848570 (邦訳 「統計的学習の基礎-データマイニン
グ・推論・予測-」、共立出版、 ISBN:978-4320123625)
• http://web.stanford.edu/~hastie/Papers/ESLII.pdf