Meta analysis of microarray

DNAマイクロアレイにおける
メタ解析

@antiplastics

目次
• 事前知識

• DNAマイクロアレイにおけるメタ解析
– Vote-Counting法
– Fisher法
– Effect Size Model (FEM&REM)
– XPN

• データ取得方法

mRNA
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム

転写

mRNA

DNAマイクロアレイはこのmRNAを翻訳,折りたたみ
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
タンパク質
互作用の解析等に利用

各種生体内機能

マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
Micro：1/1000レベルに分割して
Array：並べたもの

DNAマイクロアレイ = DNAを基盤上に固定化

細胞マイクロアレイ = 細胞を基盤上に固定化

タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…

DNAマイクロアレイの原理

生物の細胞からmRNAを抽出

ビオチン標識
ハイブリダイゼーション反応

各スポットにcDNAと相補的なプローブが並んだ基盤

アレイ解析の基礎
実験画像データ数値データ、生データ
(.DAT) (.CEL)

正規化 & log2変換

c1 c2 c3 t1 t2 t3 各統計手法（例：t検定）
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007
遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001

遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09
対照群処置群
何も刺激を与えていないもの試薬の投与、培養条件の変化 FDR制御
など、刺激を与えたもの

発現変動遺伝子の判定等

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。

DNAマイクロアレイに
おけるメタ解析

p>>n問題
n=6（理想としては30000欲しい）

c1 c2 c3 t1 t2 t3
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7
p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6

遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1

DNAマイクロアレイ等ハイスループット技術において特に重大な問題

n（標本数）に対してp（仮説検定数）が異常に大きい

メタ解析とは
p>>n問題を解決するべく、他の研究データと統合して、
より信頼性のある結論を導く事

例：ブリッジング試験
日本人アメリカ人イギリス人
（10歳、男性、8人）（11歳、男性、10人）（10歳、男性、7人）

+ + その薬を承認
してもいいか
薬Xを服用（4人）薬Xを服用（5人）薬Xを服用（3人）

検定検定検定

未服用（4人）未服用（5人）未服用（4人）

アレイデータ登録数の推移
750256枚
（2012/6/3）

二大マイクロアレイデータベース

GEO 128106枚
（2012/6/3）
GEO ArrayExpress
登録開始登録開始
ArrayExpress

DNAマイクロアレイにおけるメタ解析
低レベル高レベル
難しい、根本的手っ取り早い

C1 C2 T1 T2 x p DEG
1241 1312 1005 1414 210 0.1 ×
C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG
341 321 286 241
（例:平均値の差） 0.1 （例:t 検定） 0.2 （例:発現変動遺伝子） ○
1211 1011 1441 1101
129 0.2 ○
C1
2414 2001 1801 1734 0.8 0.1 ×
341 C2 321 T1 286 T2 245 x p DEG ○
0.3 0.2
1245 1352 1005 1100
2414 2001 1801 1794 124 0.1 ○
0.2 0.2 ○
341 321 286 245 batch effect補正
42 0.3 ×
2414 2001 1801 1794
（Zスケーリン
グ,Empirical 214 0.2 ○
Bayes,FC変換）
１つに統合 = メタ解析
SVD、rGN、DWD、 FEM（母数モデル、等分散） Fisher, Stouffer, AW, Vote-Counting
XPN、L/S adjustment 、 REM（変数モデル、不等分散） maxP/minP, TPM （共通して変動する遺伝子を見る）
EB Bayesian model, meta-z, クラスタリング結果を見比べる
LASSO, PCD, SME, ネットワークを見比べる、重ねる
RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる
RankSum, MAPE、
MBP,Knorm

Vote-Counting法：解析結果の統合
Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
Step2 “閾値2”でメタな発現変動遺伝子を割り出す

処置群

vs vs vs vs vs
複数の研究に跨るDEGを
“Signature”と呼ぶから、
対照群 Signature解析ともいう

閾値1（例：FC＞2）閾値2
（例：3/5以上）
研究1 研究2 研究3 研究4 研究5 meta-DEG
gene1 ○ × ○ × × ×
gene2 × × × × × ×
gene3 × ○ ○ ○ ○ ○
… …
gene30000 × × ○ ○ ○ ○

Fisher法：p値の統合
Step1 各研究データ毎に、“片側検定”でp値を算出（＊）
（＋側、ー側の2パターンのp値を計算しておく）
Step2 ＋側の変動でのp値をFisher法で統合
＊両側検定のp値はどっち側で
Step3 ー側の変動でのp値をFisher法で統合有意なのか判断できないから

Fisher法

片側p値

研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEG
gene1 1.04 0.72 0.31 0.24 0.62 0.31 ×
gene2 0.12 0.45 0.54 0.03 0.05 0.01 ×
gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○
… … …
gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○

Effect Size Model
エフェクトサイズの統合
階層モデル
研究内分散 i : 1,2,…k(研究数)
yi : 各研究データの標準化した平均値
FEM εi : ノイズ項(研究内)
REM μ : 全研究データの平均
δi : ノイズ項(研究間)
研究間分散

等分散
均質性検定 (τ2=0)
FEM (Fixed Effect Model)

wi : si^(-2)
不等分散
(τ2≠0)
u : (Σwiyi) / Σwi

研究間のばらつきをχ2検定
REM (Random Effect Model)

XPN：データセットを直接統合
Cross-Platform Normalization : プラットフォーム（アレイのタイプ）を跨いだ正規化手法

Affymetrix社
GeneChip
U95Av2 arrays

Agilent社一つのデータセット
25K oligonucleotide arrays に統合

Agilent社
22K oligonucleotide arrays

XPN
Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
Step2 k-means法で各研究データをバイクラスタリング
Step3 行、列で最適と思われるクラスター数を推定し
（ここでは全研究データで同じようにクラスタリング）、”ブロック”を作成
Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正

同じ癌でも幾つかの種類(Phenotype)
ブロック線形モデルがあるだろうという仮定

ブロック平均感度ノイズ項

オフセット
g : 遺伝子パラメータ
s : サンプル（任意のチップ1枚）
p : プラットフォーム（チップのタイプ）

同じような発現パターンの遺伝子”群”
があるだろうという仮定

データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?

実験条件を信じる立場数字を信じる立場

同じ“ラットの品種”、同じ“性別”、同じ条件下にあるのなら、殆どの遺伝
同じ“年齢”、同じ“生育条件”．．．子が同程度の発現レベルを示している
で計測されたデータ同士は、同じ条件下に違いない！
にあるに違いない！
→ “Cell montage”による類似データ
→アレイデータベースの利用の検索

一次データベース：GEO、ArrayExpress、
SMD…

二次データベース：ONCOMINE(癌),
RefDic(免疫)、AtGenExpress（シロイヌ
ナズナ）…

Cellmontage
CBRC@台場
CMファイルのサーバー

スピアマンの順位和相
関係数をもとに類似スコア順に結果を表示
データを検索

上位ランク
遺伝子

下位ランク
遺伝子

クエリ側 DB側イメージ

検索結果

カロリー制限ラット

→ 結構それっぽいものがひっかかってくる

まとめ
• アレイデータの二次利用として、メタ解析が行われ
るようになった

• メタ解析により、より信頼できる解析結果を導けると
考えられる

• どの段階で統合するかで様々な方法論が提案され
ている

• メタ解析のためのデータベース、ツールも開発され
ている

Meta analysis of microarray

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (8)

Similaire à Meta analysis of microarray

Similaire à Meta analysis of microarray (15)

Plus de 弘毅露崎

Plus de 弘毅露崎 (20)