Contenu connexe
Similaire à Meta analysis of microarray
Similaire à Meta analysis of microarray (15)
Meta analysis of microarray
- 4. mRNA
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム
転写
mRNA
DNAマイクロアレイはこのmRNAを 翻訳,折りたたみ
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
タンパク質
互作用の解析等に利用
各種生体内機能
- 6. DNAマイクロアレイの原理
生物の細胞からmRNAを抽出
ビオチン標識
ハイブリダイゼーション反応
各スポットにcDNAと相補的なプローブが並んだ基盤
- 7. アレイ解析の基礎
実験 画像データ 数値データ、生データ
(.DAT) (.CEL)
正規化 & log2変換
c1 c2 c3 t1 t2 t3 各統計手法(例:t検定)
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007
遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001
遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09
対照群 処置群
何も刺激を与えていないもの 試薬の投与、培養条件の変化 FDR制御
など、刺激を与えたもの
発現変動遺伝子の判定等
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
- 9. p>>n問題
n=6(理想としては30000欲しい)
c1 c2 c3 t1 t2 t3
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7
p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6
遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1
DNAマイクロアレイ等ハイスループット技術において特に重大な問題
n(標本数)に対してp(仮説検定数)が異常に大きい
- 11. アレイデータ登録数の推移
750256枚
(2012/6/3)
二大マイクロアレイデータベース
GEO 128106枚
(2012/6/3)
GEO ArrayExpress
登録開始 登録開始
ArrayExpress
- 12. DNAマイクロアレイにおけるメタ解析
低レベル 高レベル
難しい、根本的 手っ取り早い
C1 C2 T1 T2 x p DEG
1241 1312 1005 1414 210 0.1 ×
C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG
341 321 286 241
(例:平均値の差) 0.1 (例:t 検定) 0.2 (例:発現変動遺伝子) ○
1211 1011 1441 1101
129 0.2 ○
C1
2414 2001 1801 1734 0.8 0.1 ×
341 C2 321 T1 286 T2 245 x p DEG ○
0.3 0.2
1245 1352 1005 1100
2414 2001 1801 1794 124 0.1 ○
0.2 0.2 ○
341 321 286 245 batch effect補正
42 0.3 ×
2414 2001 1801 1794
(Zスケーリン
グ,Empirical 214 0.2 ○
Bayes,FC変換)
1つに統合 = メタ解析
SVD、rGN、DWD、 FEM(母数モデル、等分散) Fisher, Stouffer, AW, Vote-Counting
XPN、L/S adjustment 、 REM(変数モデル、不等分散) maxP/minP, TPM (共通して変動する遺伝子を見る)
EB Bayesian model, meta-z, クラスタリング結果を見比べる
LASSO, PCD, SME, ネットワークを見比べる、重ねる
RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる
RankSum, MAPE、
MBP,Knorm
- 13. Vote-Counting法:解析結果の統合
Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
Step2 “閾値2”でメタな発現変動遺伝子を割り出す
処置群
vs vs vs vs vs
複数の研究に跨るDEGを
“Signature”と呼ぶから、
対照群 Signature解析ともいう
閾値1(例:FC>2) 閾値2
(例:3/5以上)
研究1 研究2 研究3 研究4 研究5 meta-DEG
gene1 ○ × ○ × × ×
gene2 × × × × × ×
gene3 × ○ ○ ○ ○ ○
… …
gene30000 × × ○ ○ ○ ○
- 14. Fisher法:p値の統合
Step1 各研究データ毎に、“片側検定”でp値を算出(*)
(+側、ー側の2パターンのp値を計算しておく)
Step2 +側の変動でのp値をFisher法で統合
*両側検定のp値はどっち側で
Step3 ー側の変動でのp値をFisher法で統合 有意なのか判断できないから
Fisher法
片側p値
研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEG
gene1 1.04 0.72 0.31 0.24 0.62 0.31 ×
gene2 0.12 0.45 0.54 0.03 0.05 0.01 ×
gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○
… … …
gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○
- 15. Effect Size Model
エフェクトサイズの統合
階層モデル
研究内分散 i : 1,2,…k(研究数)
yi : 各研究データの標準化した平均値
FEM εi : ノイズ項(研究内)
REM μ : 全研究データの平均
δi : ノイズ項(研究間)
研究間分散
等分散
均質性検定 (τ2=0)
FEM (Fixed Effect Model)
wi : si^(-2)
不等分散
(τ2≠0)
u : (Σwiyi) / Σwi
研究間のばらつきをχ2検定
REM (Random Effect Model)
- 17. XPN
Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
Step2 k-means法で各研究データをバイクラスタリング
Step3 行、列で最適と思われるクラスター数を推定し
(ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成
Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正
同じ癌でも幾つかの種類(Phenotype)
ブロック線形モデル があるだろうという仮定
ブロック平均 感度 ノイズ項
オフセット
g : 遺伝子 パラメータ
s : サンプル(任意のチップ1枚)
p : プラットフォーム(チップのタイプ)
同じような発現パターンの遺伝子”群”
があるだろうという仮定
- 19. データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?
実験条件を信じる立場 数字を信じる立場
同じ“ラットの品種”、同じ“性別”、 同じ条件下にあるのなら、殆どの遺伝
同じ“年齢”、同じ“生育条件”... 子が同程度の発現レベルを示している
で計測されたデータ同士は、同じ条件下 に違いない!
にあるに違いない!
→ “Cell montage”による類似データ
→アレイデータベースの利用 の検索
一次データベース:GEO、ArrayExpress、
SMD…
二次データベース:ONCOMINE(癌),
RefDic(免疫)、AtGenExpress(シロイヌ
ナズナ)…
- 20. Cellmontage
CBRC@台場
CMファイル のサーバー
スピアマンの順位和相
関係数をもとに類似 スコア順に結果を表示
データを検索
上位ランク
遺伝子
下位ランク
遺伝子
クエリ側 DB側 イメージ