Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

ISMB読み会 2nd graph kernel

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 30 Publicité

Plus De Contenu Connexe

Similaire à ISMB読み会 2nd graph kernel (20)

Plus par 弘毅 露崎 (20)

Publicité

ISMB読み会 2nd graph kernel

  1. 1. Inferring  orthologous  gene   regulatory  networks  using   interspecies  data  fusion 2015/8/10 ISMB/ECCB  2015読み会@東⼤大 理理化学研究所  情報基盤センター バイオインフォマティクス研究開発ユニット 露露崎弘毅(@antiplastics)
  2. 2. この論論⽂文を選んだ理理由 •  最近カーネル法がマイブームだから •  よく読んだらカーネル法の論論⽂文じゃなかった •  従来法でグラフ間の距離離を使っていたところを、カーネル関数 を使って計算したところが新しい •  実際にこの論論⽂文で扱うような、複数⽣生物種での時系列列データが ⼿手に⼊入った事が無いので、今後どの程度度応⽤用できるかは不不明 (著者らは2011年年から同じデータを使い続けている)
  3. 3. 1. Introduction
  4. 4. Gene  Regulatory  Network(GRNs) この論論⽂文では、ノードを遺伝⼦子、 エッジを制御関係とした 有向グラフを考える ある遺伝⼦子が発現したことで、他の遺伝⼦子の 発現に影響を与えるという関係性を ネットワークとして表したもの http://www.nature.com/ncomms/journal/ v4/n5/fig_tab/ncomms2693_F2.html DNAマイクロアレイのデータとしては、 共発現として検出される Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c) Gene X Gene Y Gene Z X Y Z
  5. 5. JI&NL Joint inference(JI) Network leveraging(NL) GRNsの統合法として以下の2つを紹介(Fig.1) 共通祖先を仮定して統合 共通祖先を仮定せず統合 マウスの GRNs 恐⻯竜のGRNs (観測できない祖先) カラスの GRNs ワシの GRNs ヒトの GRNs チンパンジーの GRNs DNA マイクロアレイ データ Hyper network
  6. 6. 既存のJI&NLの問題点 ・ネットワークアライメント(Clark and Kalita, 2014)、 グラフカーネル(Towfic et al., 2009) →  時系列列データには対応していない ・オーソログ(1:1マッピング)情報を利利⽤用した⽅方法 → オーソログリストの扱いは難しい          (例例: 遺伝⼦子&染⾊色体の重複、遺伝⼦子の消失、始原遺伝⼦子、⽔水平伝搬) ・時系列列データを扱うモデル → ヒューリスティックなものしかない
  7. 7. Step.1 :  ある⽣生物種の遺伝⼦子発現量量が時系列列で与えられていて、 各時点ごとにGRNsを推定する (CSIというアルゴリズムを使うらしい) tntn-1 ・・・ t2t1 この論論⽂文の⽬目的 X(1) X(2) X(n-1) X(n) tntn-1 ・・・ t2t1 X(1) X(2) X(n-1) X(n) tntn-1 ・・・ t2t1 X(1) X(2) X(n-1) X(n) time tntn-1 ・・・ t2t1 Organism 1 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn
  8. 8. time tntn-1 ・・・ t2t1 Organism d この論論⽂文の⽬目的 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn time tntn-1 ・・・ t2t1 Organism 2 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn tntn-1 ・・・ t2t1 X(1) X(2) X(n-1) X(n) time tntn-1 ・・・ t2t1 Organism 1 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn Step.2 : Step.1を複数の⽣生物種で⾏行行う
  9. 9. time tntn-1 ・・・ t2t1 Organism d この論論⽂文の⽬目的 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn time tntn-1 ・・・ t2t1 Organism 2 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn tntn-1 ・・・ t2t1 X(1) X(2) X(n-1) X(n) time tntn-1 ・・・ t2t1 Organism 1 X(1) X(2) X(n-1) X(n) g1 g2 gn-1 gn ・・・ Step.3 : GRNsを統合
  10. 10. 2. Leveraging orthologous networks via Bayesian inference
  11. 11. X = X(1) , X(2) ,..., X(d) { } ある時点で発現量量データXが、d⽣生物種分あるとする これらのデータからGRNs(g)をd⽣生物種ごとに推定する g(1) ,g(2) ,...,g(d) { } グラフgは、ノード集合N、エッジ集合E、 ノードラベル集合lで定義されるとする g(i) = {N(i) , E(i) ,l(i) } 準備
  12. 12. Framework1(JI) X g φ d β g∗ 以下のような事後分布を仮定 Hyper Network Data Hyper Parameter Graph Model Parameter P(g(1) ,...,g(d) ,g*| X,φ,β) ∝ P(g(1) ,...,g(d) ,g*| β)× P(X( j) | g( j) ,φ( j) ) j=1 d ∏ g* = {N*, E*,l*} Hyper Network P(X( j) | g( j) ,φ( j) ) = L(g( j) |φ( j) ) Zdata (φ( j) ) g(j)の尤度度 規格化定数 事前分布 尤度度
  13. 13. Framework1(JI) 事前分布は以下のように ギブス分布(カノニカル分布)を仮定 P(g(1) ,...,g(d) ,g*| β) = exp(−βε(g(1) ,...,g(d) ,g*)) ZGK (β) エネルギー関数 規格化定数 これをMCMCで解くので、エネルギーが低い状態 (Hypernetworkと似ているネットワークをより含んでいる状態) がサンプリングで選ばれやすくなる β→0では各g(d)のみが各⽣生物種のGRNsとしてあてがわれる βを⼤大きくするにつれ、どの⽣生物種のGRNsも互いに似るようになる ε(g(1) ,...,g(d) ,g*) = ε(g( j) ,g*) j=1 d ∑ エネルギー関数は、グラフ間の⾮非類似度度を使う
  14. 14. Framework1(JI) 今回は、グラフ間の類似度度(カーネル関数)を使った ε(g(1) ,...,g(d) ,g*) =ε0 − K(g(1) ,g*) j=1 d ∑ 従来研究(Oates, 2014, Penfold et al, 2012, Werhli and Husmeier, 2008)では、グラフ間のハミング距離離を使った ε(g( j) ,g*) = d(g( j) ,g*) ⼀一致しないエッジの本数 3 ε0 = max g( j ) ,...,g* { K(g( j) ,g*) j=1 d ∑ }多分、距離離がマイナスに ならないように⾜足した これにより、グラフ全体を⾒見見てもわからない、 局所的な類似性を検出できて、精度度も上がる事を期待
  15. 15. Framework2(NL) ほとんどFramework1と同じだが、Hyper networkを 仮定しない事に伴い、カーネル関数が変更更 総当たりのグラフ間の類似度度の和 ε(g(1) ,...,g(d) ) =ε0 − K(g(i) ,g( j) ) i=j+1 d ∑ j=1 d ∑ P(g(1) ,...,g(d) | X,φ,β) ∝ P(g(1) ,...,g(d) | β)× P(X( j) | g( j) ,φ( j) ) j=1 d ∏ X g φ d β Data Hyper Parameter Graph Model Parameter
  16. 16. 補⾜足  :  カーネル法 簡単に⾔言うと、総当たりの類似度度計算の結果を格納した⾏行行列列 (グラム⾏行行列列)を元にした解析⼿手法 ただし、グラム⾏行行列列は対照⾏行行列列であり、正定値性を満たすものとする Data1 Data2 Data3 Data4 グラム⾏行行列列 その他、リッジ回帰、CCA、Fisher判別 分析、 SVM、K-means、PLS回帰、 SVR、ロジスティック回帰…etc 多くの多変量量解析⼿手法がカーネル版とし て利利⽤用可能 Data 1 Data 2 Data 3 Data 4 Data 1 Data 2 Data 3 Data 4 Data1 Data4 Data3 Data2 PC1 PC2 PC3 カーネルPCA類似度度が定義できるデータ集合
  17. 17. 補⾜足  :  カーネル法 メリット1: グラム⾏行行列列が正定値性を満たす場合、カーネルは、⾼高次 元(または無限次元)空間上でのベクトルの内積を意味する。 ⼀一般的に、⾼高次元ほど表現⼒力力が⾼高いので、精度度向上が期待できる カーネルを計算しただけで、⾼高次元空間での 内積をφを陽に使わずに計算できる! (カーネルトリック) φ(x1),φ(x2 ) = K(x1, x2 ) 計算⼤大変 (超⾼高次元、無限次元) 計算楽(データの次元) x1 x2 φ(x1) φ(x2) データの次元 超⾼高次元、無限次元 (この空間で線形な⼿手 法を適⽤用する)
  18. 18. 補⾜足  :  カーネル法 ⽂文字列列 ⽊木 グラフ メリット2: 数値ベクトルで表現できないが、データ間の類似度度は 定義できるようなデータ(構造化データ)に適⽤用できる ATAGGA ACGGT AGGTG GTCAC 今回はこれ
  19. 19. 補⾜足  :  カーネル法 ⽅方針として、⾮非数値ベクトルデータでのカーネルは、 部分構造同⼠士のカーネル関数によって再起的に定義する (畳み込みカーネルという)
  20. 20. Shortest  path  graph  kernel Kshortest path g 1( ) ,g 2( ) ( )= kwalk 1 e(1) ,e(2) ( ) e(2) ∈Esp 2( ) ∑ e(1) ∈Esp 1( ) ∑ g 1( ) g 2( ) gene1 gene2 gene3 gene4 gene5 gene1 gene2 gene3 gene4 gene5 例例 : gene2とgene5の最短経路路 E : エッジ集合 e : 最短エッジ kwalk : 最短経路路カーネル関数       ⼀一致したエッジの和を返す (Borgwardt and Kriegel, 2005) 当然どのカーネルを使ったかで、結果は影響される 既存の3つのグラフカーネルを試した ⼀一致 最短経路路カーネル あらゆる遺伝⼦子間の最短経路路内で⼀一致したエッジの和 gene3’ 1
  21. 21. Graphlet  kernel Kg g 1( ) ,g 2( ) ( )= fg 1( ) T fg 2( ) グラフレットカーネル グラフレット間のエッジの引き⽅方の⼀一致度度 グラフレット = 制限されたサイズの部分グラフ g 1( ) g 2( ) gene1 gene2 gene3 gene4 gene5 gene1 gene2 gene3 gene4 gene5 例例 : gene3,4,5でのグラフレット ⼀一致 ⼀一致 論論⽂文では、3ノードでのグラフレット間 のカーネルで計算した ノードの削除・重複でノード数が変わる ので、ノード数で正規化する Dg(1) = fg(1) Ng(1) Kg g 1( ) ,g 2( ) ( )= Dg 1( ) T Dg 2( ) gene3’ fg 1( ) T fg 2( ) = (0,1,0,0)(0,1,0,0) =1 エッジの引き⽅方の種類数 1
  22. 22. Weisfeiler-‐‑‒Lehman  (WL)  kernel K b( ) WL g 1( ) ,g 2( ) ( )= k gi 1( ) ,gi 2( ) ( )i=0 h ∑ WLカーネル 部分⽊木でのノードの種類数 g 1( ) g 2( ) 1 2 3 4 5 1 2 3 4 5 例例 : h=0でのWLカーネル 3 k g0 1( ) ,g0 2( ) ( )= φ(g0 1( ) )φ(g0 2( ) ) = (1,1,2,1,1) (1,1,1,1,1) =1+1+ 2 +1+1 = 5 各ノードの種類数 5
  23. 23. Weisfeiler-‐‑‒Lehman  (WL)  kernel g 1( ) g 2( ) 1 2 3 4 5 1 2 3 4 5 例例 : h=1でのWLカーネル 論論⽂文では、h=2で実⾏行行した g 1( ) g 2( ) 1,2 2,134 3,24 4,235 5,4 1,24 2,14 3,24 4,135 5,4 3 3,24 k g1 1( ) ,g1 2( ) ( )= φ(g1 (1) )φ(g1 (2) ) = (1,1,2,1,1, 1,0,1,0,2,0,1) (1,1,1,1,1, 0,1,0,1,1,1,1) =1+1+ 2 +1+1 + 0 + 0 + 0 + 0 + 2 + 0 +1 = 8 隣隣接ノードの種類で、 再ラベルしたノードの種類数 再ラベル 各ノードの種類数 5 3
  24. 24. 3. Results
  25. 25. in  silico  data  1 (ノードの重複なし) ・あくまで1⽣生物種のデータセットであるため、 ベンチマークとして不不適切切かもしれないが、⼿手法の性質はわかった ・WLカーネル + Framework 1は精度度が⾼高い (正解のGRNs構造を検出できている) ・Framework 2はデータ数が少なくても安定(Supplementary Section S2) DREAM4 In Silico Network Challenge(2009) 10遺伝⼦子 5実験条件 5時系列列
  26. 26. in  silico  data  2 (ノードの重複あり) 21時系列列 3遺伝⼦子 5⽣生物種
  27. 27. Framework2 (WL kernel) Framework1 (WL kernel) 平均AUC 周辺尤度度 ODE系による 時系列列データ ハイパーパラメーターの値 1データでのAUC値 データ統合した 今回のAUC値 最⼤大AUC値 ・ネットワーク構造から、常微分⽅方程式系 を作成、mRNAの時系列列データを作成 ・データだけから、元のネットワーク構造 をどの程度度当てられたか、AUCで評価 (閾値 = 個々の⽮矢印にあてがわれた確率率率) ・Framework1のほうがβに対して安定 ・WLカーネル以外は、統合しない⽅方法と対 して変わらない(data not shown) Fig. 2 in  silico  data  2 (ノードの重複あり)
  28. 28. 分裂裂酵⺟母 (S. pombe) 情報少ない 出芽酵⺟母 (S. cerevisiae) 情報多い 出芽酵⺟母のGRNsとの統合で、分裂裂酵⺟母の新規パスウェイを⾒見見つける事ができた Fig. 3 100 遺伝⼦子 ?時系列列 ・予測したエッジの2〜~12%がBioGRIDで⾒見見つかった ・gas1の⽋欠失で細胞壁が壊れる事はわかっていた ・今回gas1が、細胞壁関連の遺伝⼦子  (MBF複合体、cig2, mrc1, cdt2, rad12, msh6) を制御している事が原因だと予測できた 157 遺伝⼦子 + ?時系列列 実データ
  29. 29. 4. Discussion
  30. 30. まとめ •  出芽酵⺟母と分裂裂酵⺟母データでは、既知の相互作⽤用に加え、 Gas1の新規のパスウェイを予測した •  Zhang  an  Moret,  2010と似ているが、グラフカーネルと組み合わ せたのが新しい •  どのカーネルが良良いのかわからないが、今回はWLカーネルが良良い 性能を⽰示した •  Shortest  passカーネルとGraphletカーネルでのパラメーターβの最 適化も今後検討(Penfold,  2012,  Calderhead  and  Girolami,   2009)

×