Contenu connexe Plus de Masahito Ohue (20) PrePPI: structure-based protein-protein interaction prediction1. Structure-based prediction of protein-protein
interactions on a genome-wide scale
大上 雅史 (@tonets)
2014/07/04
Qiangfeng Cliff Zhang, et al.
Nature, 490(7421): 556-560, 2012.
11. SIM
• 構造の類似度
– テンプレートと入力タンパク質を二次構造を用いて比較
– 2つのタンパク質についてPSDを求め、平均をとって使う
• PSD(protein structural distance)
– 二重動的計画法(DDP)を用いた二次構造比較+RMSDによるスコア
1. まず、二次構造要素(SSE, secondary structural element)同士の距離や
角度からある二次構造ペア間の類似度 を網羅的に求める
11
距離 角度
𝑝, 𝑞, 𝑟: パラメータ
𝑖, 𝑗, 𝑚, 𝑛: 二次構造番号
二重動的計画法(DDP)を用いた二次構造比較スコア
15. SIM
• もうひとつのスコア
optimized CαRMSD
– RMSD: 2つのタンパク質を重ね合わせ
たときの、各原子間の距離をもとにし
た構造差
– まず二次構造アラインメントを用いて
大まかな一致箇所を探す
– 残基間アラインメントを用いて一致する
残基を探し、重ね合わせ、RMSDを求
める。
15
タンパク質3次元構造のペア
二次構造と溶媒露出面積を
求める
二次構造アラインメント
(さっきのやつ)
残基間アラインメント
剛体重ね合わせ、RMSD計算
RMSDは収束したか
no
yes
終了
流れ
18. OS and OL
• OS
– SIZのうち、結合面残基ペアの両方ともが一致している個数
• OL
– テンプレートの結合面残基のうち、入力タンパク質において
も結合面に存在するものの個数
18
19. ベイジアンネットワーク(BN)
を用いた学習モデル 1/3
• 複数のDBを組み合わせる(Table S1)
– 2つ以上のDBに含まれているPPIペアを信頼性の高いもの; HC (High Confidence)とする
– そうでないものを信頼性の低いもの; LC (Low Confidence)
– それ以外をN (negative) とする
• HCとNを用いる
10-fold cross validation
19
学習に用いたデータベース(DB)
• さきほどまでの5つの特徴量をベイジアンネットワークで組み
合わせ、PPIの予測モデルを作成する
yeast human
20. BNを用いたモデル 2/3
• COV, SIZ, OL, OS
– 全結合ベイジアンネットワーク
– 同時確率
• SIM
– ナイーブベイズ(他の4つとは関連が薄いため)
20
COV
SIZ
OL
OS
SIMClass
特徴量の利用方法(Fig. S1)
𝑝 𝐶𝑂𝑉, 𝑆𝐼𝑍, 𝑂𝐿, 𝑂𝑆
= 𝑝 𝐶𝑂𝑉 𝑝 𝑆𝐼𝑍 𝐶𝑂𝑉 𝑝 𝑂𝑆 𝐶𝑂𝑉, 𝑆𝐼𝑍 𝑝(𝑂𝐿|𝐶𝑂𝑉, 𝑆𝐼𝑍, 𝑂𝑆)
21. BNを用いたモデル 3/3
• 相互作用判定のための尤度比(LR, Likelihood Ratio)
– LR 𝑵𝑩 = LR 𝑩𝟒 ∗ LR 𝑺𝑰𝑴
– LR 𝑏𝑖𝑛 =
𝑂 𝑝𝑜𝑠𝑡
𝑂 𝑝𝑟𝑖𝑜𝑟
21
𝑂 𝑝𝑟𝑖𝑜𝑟 =
𝑃(𝐻𝐶)
𝑃(𝑁)
𝑂 𝑝𝑜𝑠𝑡 =
𝑃(𝐻𝐶|𝑏𝑖𝑛)
𝑃(𝑁|𝑏𝑖𝑛)
LR 𝑵𝑩 ≥ 𝟔𝟎𝟎
閾値
bin: 分類クラス
22. BN用いたモデル: 例
• つまり
22
10個 990個
HC N
学習データセット
𝑃 𝑁 =0.99
𝑃 𝐻𝐶 =0.01
HC:8
N:92
HC:2
N:898
0.5< 0.5≧
SIM
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 > 0.5] =0.08
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 ≤ 0.5] ≈0.002
𝑃 𝑁𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 > 0.5] =0.92
𝑃 𝑁𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 ≤ 0.5] ≈0.998
COV SIZ OS OL
4< 0.6< 3< 5<
HC:7 N:93
4≧ 0.6≧ 3≧ 5≧
HC:3 N:897
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5] =0.07
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝐶𝑂𝑉 ≤ 4, 𝑆𝐼𝑍 ≤ 0.6, 𝑂𝑆 ≤ 3, 𝑂𝐿 ≤ 5] ≈0.003
𝑃 𝑁|𝑏𝑖𝑛[𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5] =0.93
𝑃 𝑁|𝑏𝑖𝑛[𝐶𝑂𝑉 ≤ 4, 𝑆𝐼𝑍 ≤ 0.6, 𝑂𝑆 ≤ 3, 𝑂𝐿 ≤ 5] ≈0.997
𝑂 𝑝𝑟𝑖𝑜𝑟1
𝑂 𝑝𝑟𝑖𝑜𝑟2
簡単化のため、
クラス数をとても
減らしています
𝑂 𝑝𝑟𝑖𝑜𝑟 =
1
99
23. BNを用いたモデル: 例
この値が大きければ
相互作用すると判断
23
𝑂 𝑝𝑜𝑠𝑡1 =
7
93
入力タンパク質ペア
𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5𝑆𝐼𝑀 > 0.5
𝑂 𝑝𝑜𝑠𝑡2 =
8
92
LR 𝑩𝟒 =
𝑂 𝑝𝑜𝑠𝑡1
𝑂 𝑝𝑟𝑖𝑜𝑟1
=
7
93
×
99
1
≈ 7.45
LR 𝑵𝑩 =
𝑂 𝑝𝑜𝑠𝑡2
𝑂 𝑝𝑟𝑖𝑜𝑟2
=
8
92
×
99
1
≈ 8.61
LR 𝑵𝑩 = 𝟔𝟒. 𝟏
ひとつ前のスライドの
色の濃い方に含まれる
29. 構造と非構造の比較結果
その1 Fig. S3
• 非構造情報を用いた場合、閾値のLRが大きくな
ると急激に悪化する
• 構造情報はhigh confidence levelで有効である
29
• TP(True positive)
o HCのみ
• TP_ALL
o HC+LC
• P
o すべてのpositive予測の個数
30. 構造と非構造の比較結果
その2 Fig. S4
• SMは低FPR(0.1%以下)のときに特に効果を発揮する
• 大量のネガティブペアが存在するPPI予測では、これは効果
的である
30
• A: 全てのデータセット
• B: yeastのみ
• C: Bのうち全ての特徴量が
利用できるもののみ
• D: Bのうち構造情報を利用
できるもののみ
• E: yeastで学習してhumanで
試した?
35. DREAM exercise
• DREAM (Dialogue for Reverse Engineering Assessments and Methods)という
予測競走のイベントにおいて、PrePPIが一番良い
35