SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
DNAマイクロアレイにおける
     メタ解析


   @antiplastics
目次
• 事前知識

• DNAマイクロアレイにおけるメタ解析
 –   Vote-Counting法
 –   Fisher法
 –   Effect Size Model (FEM&REM)
 –   XPN


• データ取得方法
事前知識
mRNA
       …ATGCATCGTAGATGCTAGCATGCTAGTAGCT…   ゲノム

                          転写


                                           mRNA


DNAマイクロアレイはこのmRNAを        翻訳,折りたたみ
定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相
                                           タンパク質
互作用の解析等に利用




                     各種生体内機能
マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの
   Micro:1/1000レベルに分割して
   Array:並べたもの

DNAマイクロアレイ = DNAを基盤上に固定化

細胞マイクロアレイ = 細胞を基盤上に固定化

タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
…
DNAマイクロアレイの原理

                  生物の細胞からmRNAを抽出

    ビオチン標識
             ハイブリダイゼーション反応




各スポットにcDNAと相補的なプローブが並んだ基盤
アレイ解析の基礎
  実験               画像データ             数値データ、生データ
                   (.DAT)            (.CEL)



                                                   正規化 & log2変換

            c1    c2    c3     t1     t2     t3      各統計手法(例:t検定)
遺伝子1        6.5   5.5   5.3   4.4    5.3     5.1         p=0.1
遺伝子2        2.3   3.3   1.0   5.6    7.5     5.7         p=0.007
遺伝子3        5.3   4.4   4.4   -5.5   -4.2   -5.6         p=0.001


遺伝子30000    1.5   0.4   4.4   1.3    2.4     2.1         p=0.09
                  対照群                処置群
           何も刺激を与えていないもの      試薬の投与、培養条件の変化             FDR制御
                               など、刺激を与えたもの

                                            発現変動遺伝子の判定等

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
DNAマイクロアレイに
  おけるメタ解析
p>>n問題
                          n=6(理想としては30000欲しい)

                     c1     c2    c3    t1     t2     t3
          遺伝子1       6.5    5.5   5.3   4.4    5.3    5.1
          遺伝子2       2.3    3.3   1.0   5.6    7.5    5.7
p=30000   遺伝子3       5.3    4.4   4.4   -5.5   -4.2   -5.6


          遺伝子30000   1.5    0.4   4.4   1.3    2.4    2.1




   DNAマイクロアレイ等ハイスループット技術において特に重大な問題

           n(標本数)に対してp(仮説検定数)が異常に大きい
メタ解析とは
p>>n問題を解決するべく、他の研究データと統合して、
  より信頼性のある結論を導く事

  例:ブリッジング試験
    日本人               アメリカ人             イギリス人
(10歳、男性、8人)       (11歳、男性、10人)       (10歳、男性、7人)




              +                  +                 その薬を承認
                                                   してもいいか
 薬Xを服用(4人)        薬Xを服用(5人)          薬Xを服用(3人)

     検定                検定                 検定

  未服用(4人)          未服用(5人)            未服用(4人)
アレイデータ登録数の推移
                                                         750256枚
                                                         (2012/6/3)


二大マイクロアレイデータベース




                                        GEO     128106枚
                                                (2012/6/3)
                  GEO    ArrayExpress
                  登録開始   登録開始
                                          ArrayExpress
DNAマイクロアレイにおけるメタ解析
           低レベル                                                                                            高レベル
          難しい、根本的                                                                                         手っ取り早い

              C1       C2       T1         T2                               x                       p                  DEG
              1241     1312     1005       1414                            210                      0.1                ×
       C1       C2       T1        T2              エフェクトサイズ           x       検定              p         解析結果    DEG
              341      321       286       241
                                                  (例:平均値の差)             0.1 (例:t 検定)            0.2 (例:発現変動遺伝子)     ○
       1211     1011   1441   1101
                                                                     129                      0.2                  ○
 C1
              2414   2001   1801   1734                                    0.8                      0.1                ×
       341 C2     321 T1    286 T2   245                        x                        p                    DEG ○
                                                                     0.3                      0.2
1245      1352    1005    1100
       2414    2001    1801    1794                            124                      0.1                    ○
                                                                     0.2                      0.2                  ○
 341        321      286       245            batch effect補正
                                                               42                       0.3                    ×
2414      2001       1801     1794
                                              (Zスケーリン
                                              グ,Empirical      214                      0.2                    ○
                                              Bayes,FC変換)
                                                           1つに統合 = メタ解析
SVD、rGN、DWD、         FEM(母数モデル、等分散)                                              Fisher, Stouffer, AW, Vote-Counting
XPN、L/S adjustment 、 REM(変数モデル、不等分散)                                             maxP/minP, TPM        (共通して変動する遺伝子を見る)
EB                   Bayesian model, meta-z,                                                           クラスタリング結果を見比べる
                     LASSO, PCD, SME,                                                                  ネットワークを見比べる、重ねる
                     RankProd, Rank aggregation,                                                       各論文の遺伝子リストを見比べる
                     RankSum, MAPE、
                     MBP,Knorm
Vote-Counting法:解析結果の統合
    Step1 “閾値1”で各研究での発現変動遺伝子を割り出す
    Step2 “閾値2”でメタな発現変動遺伝子を割り出す


       処置群

               vs     vs    vs    vs    vs
                                                     複数の研究に跨るDEGを
                                                     “Signature”と呼ぶから、
       対照群                                            Signature解析ともいう

閾値1(例:FC>2)                                    閾値2
                                             (例:3/5以上)
               研究1   研究2   研究3   研究4   研究5               meta-DEG
   gene1       ○     ×     ○     ×     ×                    ×
   gene2       ×     ×     ×     ×     ×                    ×
   gene3       ×     ○     ○     ○     ○                    ○
   …                                                        …
   gene30000   ×     ×     ○     ○     ○                    ○
Fisher法:p値の統合
    Step1 各研究データ毎に、“片側検定”でp値を算出(*)
    (+側、ー側の2パターンのp値を計算しておく)
    Step2 +側の変動でのp値をFisher法で統合
                                                           *両側検定のp値はどっち側で
    Step3 ー側の変動でのp値をFisher法で統合                              有意なのか判断できないから



              Fisher法

                   片側p値

            研究1    研究2    研究3     研究4    研究5     Fisher法   meta-p   FDR制御   meta-DEG
gene1       1.04   0.72   0.31    0.24   0.62               0.31               ×
gene2       0.12   0.45   0.54    0.03   0.05               0.01               ×
gene3       0.02   0.03   0.014   0.04   0.003              0.03               ○
…                                                            …                 …
gene30000   0.12   0.33   0.55    0.55   0.42               0.24               ○
Effect Size Model
                          エフェクトサイズの統合
               階層モデル
                                研究内分散     i : 1,2,…k(研究数)
                                          yi : 各研究データの標準化した平均値
         FEM                              εi : ノイズ項(研究内)
REM                                       μ : 全研究データの平均
                                          δi : ノイズ項(研究間)
                                研究間分散

                                 等分散
           均質性検定                 (τ2=0)
                                           FEM (Fixed Effect Model)


      wi : si^(-2)
                                 不等分散
                                 (τ2≠0)
      u : (Σwiyi) / Σwi

  研究間のばらつきをχ2検定
                                          REM (Random Effect Model)
XPN:データセットを直接統合
Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法



             Affymetrix社
             GeneChip
             U95Av2 arrays



             Agilent社                        一つのデータセット
             25K oligonucleotide arrays      に統合



             Agilent社
             22K oligonucleotide arrays
XPN
   Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出
   Step2 k-means法で各研究データをバイクラスタリング
   Step3 行、列で最適と思われるクラスター数を推定し
         (ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成
   Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正


                               同じ癌でも幾つかの種類(Phenotype)
    ブロック線形モデル                  があるだろうという仮定

     ブロック平均   感度       ノイズ項


                      オフセット
g : 遺伝子               パラメータ
s : サンプル(任意のチップ1枚)
p : プラットフォーム(チップのタイプ)



同じような発現パターンの遺伝子”群”
があるだろうという仮定
データ取得方法
データ取得
言うまでもなく、同じような実験データを収集する過程が一番大変
→ 何をもって”同じ”とする?

     実験条件を信じる立場                      数字を信じる立場

同じ“ラットの品種”、同じ“性別”、             同じ条件下にあるのなら、殆どの遺伝
同じ“年齢”、同じ“生育条件”...             子が同程度の発現レベルを示している
で計測されたデータ同士は、同じ条件下             に違いない!
にあるに違いない!
                               → “Cell montage”による類似データ
→アレイデータベースの利用                  の検索

一次データベース:GEO、ArrayExpress、
SMD…

二次データベース:ONCOMINE(癌),
RefDic(免疫)、AtGenExpress(シロイヌ
ナズナ)…
Cellmontage
                      CBRC@台場
CMファイル                のサーバー

         スピアマンの順位和相
         関係数をもとに類似              スコア順に結果を表示
         データを検索


              上位ランク
               遺伝子




              下位ランク
               遺伝子




  クエリ側 DB側            イメージ
検索結果




カロリー制限ラット




            → 結構それっぽいものがひっかかってくる
まとめ
• アレイデータの二次利用として、メタ解析が行われ
  るようになった

• メタ解析により、より信頼できる解析結果を導けると
  考えられる

• どの段階で統合するかで様々な方法論が提案され
  ている

• メタ解析のためのデータベース、ツールも開発され
  ている

Contenu connexe

Tendances

多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationtancoro
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot LearningMasahiro Suzuki
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural NetworksMasahiro Suzuki
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
[授業]洞察問題解決プロセスの分析(眼編)
[授業]洞察問題解決プロセスの分析(眼編)[授業]洞察問題解決プロセスの分析(眼編)
[授業]洞察問題解決プロセスの分析(眼編)Reiji Ohkuma
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Kazuki Maeno
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
深層学習入門 スライド
深層学習入門 スライド  深層学習入門 スライド
深層学習入門 スライド swamp Sawa
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)takehikoihayashi
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜Yasuyuki Okumura
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 

Tendances (20)

多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
機械学習と主成分分析
機械学習と主成分分析機械学習と主成分分析
機械学習と主成分分析
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
 
主成分分析
主成分分析主成分分析
主成分分析
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
[授業]洞察問題解決プロセスの分析(眼編)
[授業]洞察問題解決プロセスの分析(眼編)[授業]洞察問題解決プロセスの分析(眼編)
[授業]洞察問題解決プロセスの分析(眼編)
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
Anomaly detection survey
Anomaly detection surveyAnomaly detection survey
Anomaly detection survey
 
深層学習入門 スライド
深層学習入門 スライド  深層学習入門 スライド
深層学習入門 スライド
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 

En vedette

Microarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMicroarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMaté Ongenaert
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...Affymetrix
 
Agilent Technologies Corporate Overview
Agilent Technologies Corporate OverviewAgilent Technologies Corporate Overview
Agilent Technologies Corporate Overviewrajsodhi
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)Haruka Ozaki
 
Meta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevManMeta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevManGaurav Kamboj
 
Dna microarray (dna chips)
Dna microarray (dna chips)Dna microarray (dna chips)
Dna microarray (dna chips)Rachana Tiwari
 

En vedette (8)

Microarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the benchMicroarray data and pathway analysis: example from the bench
Microarray data and pathway analysis: example from the bench
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
Use of Affymetrix Arrays (GeneChip® Human Transcriptome 2.0 Array and Cytosca...
 
Agilent Technologies Corporate Overview
Agilent Technologies Corporate OverviewAgilent Technologies Corporate Overview
Agilent Technologies Corporate Overview
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
Agilent Technologies
Agilent TechnologiesAgilent Technologies
Agilent Technologies
 
Meta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevManMeta analysis: Made Easy with Example from RevMan
Meta analysis: Made Easy with Example from RevMan
 
Dna microarray (dna chips)
Dna microarray (dna chips)Dna microarray (dna chips)
Dna microarray (dna chips)
 

Similaire à Meta analysis of microarray

カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)Prunus 1350
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)Tatsuya Yokota
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2hirokazutanaka
 

Similaire à Meta analysis of microarray (15)

カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
Sakashita
SakashitaSakashita
Sakashita
 
Chapter14.4
Chapter14.4Chapter14.4
Chapter14.4
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 

Plus de 弘毅 露崎

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発弘毅 露崎
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向弘毅 露崎
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...弘毅 露崎
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加弘毅 露崎
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法弘毅 露崎
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...弘毅 露崎
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出弘毅 露崎
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出弘毅 露崎
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...弘毅 露崎
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合弘毅 露崎
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方弘毅 露崎
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...弘毅 露崎
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...弘毅 露崎
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化弘毅 露崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ弘毅 露崎
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知弘毅 露崎
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 

Plus de 弘毅 露崎 (20)

大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発大規模テンソルデータに適用可能なeinsumの開発
大規模テンソルデータに適用可能なeinsumの開発
 
バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向バイオインフォ分野におけるtidyなデータ解析の最新動向
バイオインフォ分野におけるtidyなデータ解析の最新動向
 
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...Benchmarking principal component analysis for large-scale single-cell RNA-seq...
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
 
R-4.0の解説
R-4.0の解説R-4.0の解説
R-4.0の解説
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加
 
20191204 mbsj2019
20191204 mbsj201920191204 mbsj2019
20191204 mbsj2019
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 

Meta analysis of microarray

  • 1. DNAマイクロアレイにおける メタ解析 @antiplastics
  • 2. 目次 • 事前知識 • DNAマイクロアレイにおけるメタ解析 – Vote-Counting法 – Fisher法 – Effect Size Model (FEM&REM) – XPN • データ取得方法
  • 4. mRNA …ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム 転写 mRNA DNAマイクロアレイはこのmRNAを 翻訳,折りたたみ 定量的に計測する技術 ⇒遺伝子の機能解析、遺伝子間相 タンパク質 互作用の解析等に利用 各種生体内機能
  • 5. マイクロアレイとは マイクロアレイ = 基盤上に何かを固定化させたもの Micro:1/1000レベルに分割して Array:並べたもの DNAマイクロアレイ = DNAを基盤上に固定化 細胞マイクロアレイ = 細胞を基盤上に固定化 タンパク質マイクロアレイ 抗体アレイ 組織マイクロアレイ 化合物マイクロアレイ …
  • 6. DNAマイクロアレイの原理 生物の細胞からmRNAを抽出 ビオチン標識 ハイブリダイゼーション反応 各スポットにcDNAと相補的なプローブが並んだ基盤
  • 7. アレイ解析の基礎 実験 画像データ 数値データ、生データ (.DAT) (.CEL) 正規化 & log2変換 c1 c2 c3 t1 t2 t3 各統計手法(例:t検定) 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09 対照群 処置群 何も刺激を与えていないもの 試薬の投与、培養条件の変化 FDR制御 など、刺激を与えたもの 発現変動遺伝子の判定等 1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる。
  • 9. p>>n問題 n=6(理想としては30000欲しい) c1 c2 c3 t1 t2 t3 遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=30000 遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 DNAマイクロアレイ等ハイスループット技術において特に重大な問題 n(標本数)に対してp(仮説検定数)が異常に大きい
  • 10. メタ解析とは p>>n問題を解決するべく、他の研究データと統合して、 より信頼性のある結論を導く事 例:ブリッジング試験 日本人 アメリカ人 イギリス人 (10歳、男性、8人) (11歳、男性、10人) (10歳、男性、7人) + + その薬を承認 してもいいか 薬Xを服用(4人) 薬Xを服用(5人) 薬Xを服用(3人) 検定 検定 検定 未服用(4人) 未服用(5人) 未服用(4人)
  • 11. アレイデータ登録数の推移 750256枚 (2012/6/3) 二大マイクロアレイデータベース GEO 128106枚 (2012/6/3) GEO ArrayExpress 登録開始 登録開始 ArrayExpress
  • 12. DNAマイクロアレイにおけるメタ解析 低レベル 高レベル 難しい、根本的 手っ取り早い C1 C2 T1 T2 x p DEG 1241 1312 1005 1414 210 0.1 × C1 C2 T1 T2 エフェクトサイズ x 検定 p 解析結果 DEG 341 321 286 241 (例:平均値の差) 0.1 (例:t 検定) 0.2 (例:発現変動遺伝子) ○ 1211 1011 1441 1101 129 0.2 ○ C1 2414 2001 1801 1734 0.8 0.1 × 341 C2 321 T1 286 T2 245 x p DEG ○ 0.3 0.2 1245 1352 1005 1100 2414 2001 1801 1794 124 0.1 ○ 0.2 0.2 ○ 341 321 286 245 batch effect補正 42 0.3 × 2414 2001 1801 1794 (Zスケーリン グ,Empirical 214 0.2 ○ Bayes,FC変換) 1つに統合 = メタ解析 SVD、rGN、DWD、 FEM(母数モデル、等分散) Fisher, Stouffer, AW, Vote-Counting XPN、L/S adjustment 、 REM(変数モデル、不等分散) maxP/minP, TPM (共通して変動する遺伝子を見る) EB Bayesian model, meta-z, クラスタリング結果を見比べる LASSO, PCD, SME, ネットワークを見比べる、重ねる RankProd, Rank aggregation, 各論文の遺伝子リストを見比べる RankSum, MAPE、 MBP,Knorm
  • 13. Vote-Counting法:解析結果の統合 Step1 “閾値1”で各研究での発現変動遺伝子を割り出す Step2 “閾値2”でメタな発現変動遺伝子を割り出す 処置群 vs vs vs vs vs 複数の研究に跨るDEGを “Signature”と呼ぶから、 対照群 Signature解析ともいう 閾値1(例:FC>2) 閾値2 (例:3/5以上) 研究1 研究2 研究3 研究4 研究5 meta-DEG gene1 ○ × ○ × × × gene2 × × × × × × gene3 × ○ ○ ○ ○ ○ … … gene30000 × × ○ ○ ○ ○
  • 14. Fisher法:p値の統合 Step1 各研究データ毎に、“片側検定”でp値を算出(*) (+側、ー側の2パターンのp値を計算しておく) Step2 +側の変動でのp値をFisher法で統合 *両側検定のp値はどっち側で Step3 ー側の変動でのp値をFisher法で統合 有意なのか判断できないから Fisher法 片側p値 研究1 研究2 研究3 研究4 研究5 Fisher法 meta-p FDR制御 meta-DEG gene1 1.04 0.72 0.31 0.24 0.62 0.31 × gene2 0.12 0.45 0.54 0.03 0.05 0.01 × gene3 0.02 0.03 0.014 0.04 0.003 0.03 ○ … … … gene30000 0.12 0.33 0.55 0.55 0.42 0.24 ○
  • 15. Effect Size Model エフェクトサイズの統合 階層モデル 研究内分散 i : 1,2,…k(研究数) yi : 各研究データの標準化した平均値 FEM εi : ノイズ項(研究内) REM μ : 全研究データの平均 δi : ノイズ項(研究間) 研究間分散 等分散 均質性検定 (τ2=0) FEM (Fixed Effect Model) wi : si^(-2) 不等分散 (τ2≠0) u : (Σwiyi) / Σwi 研究間のばらつきをχ2検定 REM (Random Effect Model)
  • 16. XPN:データセットを直接統合 Cross-Platform Normalization : プラットフォーム(アレイのタイプ)を跨いだ正規化手法 Affymetrix社 GeneChip U95Av2 arrays Agilent社 一つのデータセット 25K oligonucleotide arrays に統合 Agilent社 22K oligonucleotide arrays
  • 17. XPN Step1 Entrez Gene IDを割り当て、全ての実験データに存在する遺伝子のみ抽出 Step2 k-means法で各研究データをバイクラスタリング Step3 行、列で最適と思われるクラスター数を推定し (ここでは全研究データで同じようにクラスタリング)、”ブロック”を作成 Step4 各ブロック内のデータは以下の“ブロック線形モデル”に従うとして回帰,値を補正 同じ癌でも幾つかの種類(Phenotype) ブロック線形モデル があるだろうという仮定 ブロック平均 感度 ノイズ項 オフセット g : 遺伝子 パラメータ s : サンプル(任意のチップ1枚) p : プラットフォーム(チップのタイプ) 同じような発現パターンの遺伝子”群” があるだろうという仮定
  • 19. データ取得 言うまでもなく、同じような実験データを収集する過程が一番大変 → 何をもって”同じ”とする? 実験条件を信じる立場 数字を信じる立場 同じ“ラットの品種”、同じ“性別”、 同じ条件下にあるのなら、殆どの遺伝 同じ“年齢”、同じ“生育条件”... 子が同程度の発現レベルを示している で計測されたデータ同士は、同じ条件下 に違いない! にあるに違いない! → “Cell montage”による類似データ →アレイデータベースの利用 の検索 一次データベース:GEO、ArrayExpress、 SMD… 二次データベース:ONCOMINE(癌), RefDic(免疫)、AtGenExpress(シロイヌ ナズナ)…
  • 20. Cellmontage CBRC@台場 CMファイル のサーバー スピアマンの順位和相 関係数をもとに類似 スコア順に結果を表示 データを検索 上位ランク 遺伝子 下位ランク 遺伝子 クエリ側 DB側 イメージ
  • 21. 検索結果 カロリー制限ラット → 結構それっぽいものがひっかかってくる
  • 22. まとめ • アレイデータの二次利用として、メタ解析が行われ るようになった • メタ解析により、より信頼できる解析結果を導けると 考えられる • どの段階で統合するかで様々な方法論が提案され ている • メタ解析のためのデータベース、ツールも開発され ている