SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
Large-scale imputation of epigenetic
datasets for systematic annotation
of diverse human tissues
2015/3/17
Epigenome Roadmap 輪読会
RIKEN ACCC BiT
露崎弘毅
欠損値について
そのまま扱う = サンプルサイズがばらばら
削除して完全データにする = 著しく情報が損失
?
?
? ?
? ?
なんらかの理由で観測されない場合がある
データ
特徴量
例:

遺伝子発現量、
蛍光強度
例: 実験、組織、細胞
?
?
? ?
? ?
?
?
? ?
? ?
現実のデータはたびたび欠損値がある不完全データ
?
?
? ?
? ?
AはBより有意と言って
いいのか?
A
B
検定
p=0.01
p=0.03
列単位で削除 行単位で削除
DNAマイクロアレイ : ゴミで蛍光が観測されないプローブがある
SNPアレイ : チップが対応していないSNPが存在(メタ解析で関係)
NGS : リード数が少ない
欠損値補完 = Imputation
?
?
? ?
? ?
2.4
1.3
0.5 1.4
1.4 3.5
欠損値を予測する
Imputation
そのための根拠(古典的な統計学)
- 平均値代入、回帰代入、Hot-deck代入(似たデータから補完)、Cold-deck
代入(同じデータの違う状況下でのデータから補完)、Average the available
items, Last observation carried forward, Stochastic回帰代入

- 欠損メカニズムをモデル化

- 最近の方法 : Full Information maximum likelehood(FIML)、多重代入法

…etc
欠損値に関するメモ(オミックス研究と関連して)
どれも一長一短
?
?
? ?
? ?
似たデータを参考にするという方針(尺度: 相関係数、LDブロックなど)
2.4 2.5 2.3
?
? ?
? ?
2.1
?
1.9
? ?
? ?
2.1
2.3
列を似せる
行を似せる
オミックス解析でのImputation
列利用の方が結果が良いという比較研究はあるが大分データ依存的だとは思う
(Celton, M. et. al., 2010)
似たデータ内にも欠損値があったりするので、EMアルゴリズムで逐次的に推定する
この論文でImputeしたもの
sample(n=127)
mark (n=4315)
Figure 1a
Roadmap
Epigenomics
Project (n=111)
ENCODE
Project (n=16)
著者らが
sample-mark matrix
と言っているもの
mark : 25bpの各サイトにマップされたリード

のカバレッジ
sample : 細胞、組織データ
ヒストン修飾、DNAアクセシビリティ、
メチル化、RNA-seqなどを見た
この論文でのImputationの方針
行も列も使おう!
i) 同じサンプル内の異なるmarkからの情報

(あるmarkのカバレッジは周囲のmarkに似ているだろうという仮定)
ii) 異なるサンプル間でのターゲットmarkからの情報

(あるmarkのカバレッジは他のサンプルでも似ているだろうという仮定)
sample c ?
mark m
sample c ?
mark m
mark m
mark m
sample c
sample c
提案手法 : ChromImpute法
sample c ?
mark m
sample c
mark m
sample c
mark m
?
周囲500bpくらい
推定するときの重み(カバレッジが厚いところほど優先)
カバレッジ
ポジション
周りのマッピング状況から、欠損値を回帰モデルで推測する
補足 : アンサンブル回帰木
回帰木 : 区間毎に値を推定する(非線形な回帰をやりたかったから使った)
scikit-learn 1.8 Decision Treesより
アンサンブル回帰木 : 木を沢山書いて、平均をとる
要するにバギング、ブートストラップ集約(Random Forestではない?)
Regression tree ensembles in the
perspective of kernel-based methodsより
1個の回帰木 100個の回帰木の平均
結果
sampleレベルで他と似ている markレベルで他と似ている
Figure 1b,c
1. 他のデータに似せる事ができた
ランダムに200kbとってきて
も似てる
Figure 2a Figure 2c
相関係数計算して
も似てる
結果
2. H3K4me3のTSS(PromRecov)
Figure 3ac
この縦軸の値はSupplementary
Figで説明しているらしいのだが、
壊れてて見れない><
カバレッジが観測データと似てる
結果
3. H3K36me3のGeneBody(GeneRecov)
Figure 3bd
よくわからない>< カバレッジが観測データと似てる
4. NHGRI GWASカタログとの比較
結果
Imputationで有意な
SNPが増えた
行と列の情報を両方使ったほうがより有意に
結果
5. Quality control
あえて似てないデータだけを
使ってImputationした
Worst10を使った
Imputationの結果の
良し悪しは実験のQC
の参考になる
結果は悪くなった
同じサンプルでもデー
タのクオリティによっ
ては結果が悪くなる
結果
6. クロマチン状態
著者らは過去にChromHMMという手法で
クロマチン状態の予測を行った

(Ernst, J. & Kellis M., 2012)
欠損値があるところは予測精度が悪かった
欠損値がある箇所を削除すると
データがかなり減ってしまった
今回、ChromImputeと組み合わせる事で、
精度が改善された
(これが一番やりたかった事では?)
まとめ
・Epigenomics RoadmapとENCODEデータの
Imputationを行った
・sampleレベル、markレベルで類似度が高くなるよ
うに欠損値を推定するChromImpute法を提案した
・他のデータに似せることができた
・評価が難しい話しだけど、色々なデータから察する
に多分良い推定ができた

Contenu connexe

Plus de 弘毅 露崎

Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
弘毅 露崎
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
弘毅 露崎
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
弘毅 露崎
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
弘毅 露崎
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
弘毅 露崎
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
弘毅 露崎
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
 

Plus de 弘毅 露崎 (20)

R-4.0の解説
R-4.0の解説R-4.0の解説
R-4.0の解説
 
scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加scTGIFの鬼QC機能の追加
scTGIFの鬼QC機能の追加
 
20191204 mbsj2019
20191204 mbsj201920191204 mbsj2019
20191204 mbsj2019
 
1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法1細胞オミックスのための新GSEA手法
1細胞オミックスのための新GSEA手法
 
Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...Predicting drug-induced transcriptome responses of a wide range of human cell...
Predicting drug-induced transcriptome responses of a wide range of human cell...
 
LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出LRBase × scTensorで細胞間コミュニケーションの検出
LRBase × scTensorで細胞間コミュニケーションの検出
 
非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出非負値テンソル分解を用いた細胞間コミュニケーション検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
 
Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...Exploring the phenotypic consequences of tissue specific gene expression vari...
Exploring the phenotypic consequences of tissue specific gene expression vari...
 
データベースとデータ解析の融合
データベースとデータ解析の融合データベースとデータ解析の融合
データベースとデータ解析の融合
 
ビール砲の放ち方
ビール砲の放ち方ビール砲の放ち方
ビール砲の放ち方
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...A novel method for discovering local spatial clusters of genomic regions with...
A novel method for discovering local spatial clusters of genomic regions with...
 
Rによる統計解析と可視化
Rによる統計解析と可視化Rによる統計解析と可視化
Rによる統計解析と可視化
 
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
WACODE
WACODEWACODE
WACODE
 
PRML10章
PRML10章PRML10章
PRML10章
 
変分法
変分法変分法
変分法
 

Large-scale imputation of epigenetic datasets for systematic annotation of diverse human tissues