SlideShare une entreprise Scribd logo
1  sur  66
BGI 無料ウェビナー 
ゲノムワイドメチル化解析とアナリティクス 
2014年8月28日(木) 午後2時から3時まで 
東京農工大学「ゲノム科学人材育成プログラム」 
石井一夫
本日 
近年、次世代シーケンサーによるアプリケー 
ションとしてエピゲノミクス解析が行われるよう 
になっています。 
今回、ゲノムワイドメチル化解析に関するマイク 
ロアレイとNGS解析に関して、ゲノム情報解析 
の視点からその方法論と臨床解析事例につい 
てお話いたします。
本日 
• 本セミナーは初めて、メチル化解析のデータ解 
析を行いたい人のための入門的、かつチュート 
リアル的な内容です。 
• これをたたき台に、ご自分でより深く勉強して頂く 
ことを想定しています。 
• 後ほど、SlideShareにこのスライドは公開します。 
コマンドなどはあとでそちらで確認してください。 
しかし、簡潔な内容ですので、実際の使用時は 
文献を参照してください。 
• 資料の利用は自己責任でお願いいたします。
エピゲノムの 
実験的背景に関しましては 
すでに他社でウェビナー、セミナーが開催されています。たと 
えば、 
• イルミナ社ウェビナー 
エピゲノム解析シリーズDNAメチル化・基礎からの網羅的解 
析--- 国立がん研究センター研究所山下聡先生 
http://www.illuminakk.co.jp/documents/pdf/2012_illumina_h 
m450.pdf 
キアゲン/CLCの最近のセミナーでも講演されています。 
「Targeted bisulfite sequencingによるDNAメチル化解析」 
CLCbio ユーザーミーティング2014(7月24日(木))
エピゲノムの 
実験的背景に関しましては 
すでに他社でウェビナー、セミナーが開催され 
ています。たとえば、 
• イルミナ社ウェビナー 
エピゲノム解析によるiPS細胞の特性解析. 
2013.2.26 
http://www.illuminakk.co.jp/document/pdf/we 
binar/2013_illumina_ips_no2.pdf
今回は 
• そういう実験的な、生物学的化学的な意味付 
けなどは深くお話しません。必要な方はその 
ような資料をご覧ください。 
• コマンドラインを用いたデータ解析やデータマ 
イニングを中心にお話します。
今日のアジェンダ 
1. 網羅的メチル化解析の概要 
2. バイサルファイト法による網羅的メチル化解 
析のデータ解析法の概要とノウハウ 
3. メチル化マイクロアレイなど網羅的メチル化 
定量解析によるデータマイニング法
網羅的メチル化解析の概要
いろいろなゲノムメチル化解析法が 
有ります 
マイクロアレイベース他にはPCRベースも考えられます 
メチル化マイクロアレイ各種 
CpG Islandマイクロアレイ各種 
次世代シーケンサーベース 
全ゲノムバイサルファイトシークエンス(WGBS) 
Reduced Representation Bisulfite Sequencing 
(メチル化部位特異的制限酵素で濃縮) 
Me-DIP Seq (抗メチル化DNA抗体で濃縮) 
MethylCap Seq(メチル化DNA結合タンパクで濃縮) 
Sure-Select Methyl-Seq 
(ハイブリダイダイゼーションによる濃縮)
いろいろなゲノムメチル化解析法が 
有ります 
• メチル化DNA検出原理による分類 
1.バイサルファイト処理による塩基置換 
2.メチル化感受性制限酵素による切断 
3.抗メチル化シトシン抗体、またはメチル化DNA 
結合タンパク質による濃縮 
https://www.takara-bio. 
co.jp/goods/bioview/pdfs/58_02-08.pdf
メチル化マイクロアレイ 
• プローブを用いているため解像度が低い。 
• 比較的安価でデータが得られやすい。 
例 
≪アジレント社CpG Islandマイクロアレイ≫ 
・Human CpG Island Microarray(244Kフォーマット) 
・Mouse CpG Island Microarray(105Kフォーマット)
メチル化マイクロアレイ 
例 
Illumina Human Methylation 450K 
Infinium I およびInfinium II テクノロジーにより、 
一塩基レベルの高解像度を達成。 
詳細は以下をご参照ください。 
http://www.illuminakk.co.jp/documents/pdf/tec 
hnote_hm450_data_analysis_optimization-J.pdf
全ゲノムバイサルファイト 
シークエンス 
• Whole genome bisulfite sequence (WGBS) 
• バイサルファイト試薬処理により非メチル化シトシンがウ 
ラシルに変換するところを配列解析で検出 
C→T、G→Aに変わる部位が非メチル化部位、 
不変サイトはメチル化部位 
• 定量性を持たせるにはかなり高価(非現実的なほど高 
コスト) 
• 多分、これが本命の方法だが、高価で出来ないため他 
の方法で、コストを下げているのが実情
全ゲノムバイサルファイト 
BGI のサイトでシークエンス 
紹介されている 
ワークフロー 
(見にくいのであとで 
BGIのサイトで確認を)
Reduced Representation Bisulfite 
Sequencing 
DNAはまず制限酵素によりCpG認識部位で 
切断されます。 
その後アダプタ付加、ゲルによるサイズ選択、 
バイサルファイト変換とPCRを行い、DNAを濃縮します。 
この濃縮法では特定のメチル化領域を選択すること 
はできず、繰り返し配列と 
CpG-richな配列にバイアスがかかります。 
アジレントの解説文書より、転記。 
http://www.chem-agilent.com/pdf/low_5991-0166JAJP.pdf
Reduced Representation Bisulfite 
BGI のサイトでSequencing(RRBS) 
紹介されている 
ワークフロー 
(見にくいのであとで 
BGIのサイトで確認を)
MeDIP-seq 解析 
Methylated DNA immunoprecipitation (MeDIP)は 
メチル化DNAを全ゲノムに渡って解析する技術です。 
5-メチルシトシン(5mC)という抗体でメチル化DNA断片を 
沈降させ、ハイスループットシーケンシングを行います。 
MeDIPシーケンシングは高メチル化やCpGが高密度に 
あるゲノム領域を検出することができます。 
つぶやき; 
WGBSのように広い領域をカバーする方法は今のところない。 
どの方法でやるかは悩ましいのが現状。 
RRBSもMeDIP-seq 解析もカバー領域があまり広くないのが難点。 
Sure-Select Methylがややまし程度。 
Illumina Human Methylation 450Kマイクロアレイのほうが、楽かも。
MeDIP-seq 解析 
BGI のサイトで 
紹介されている 
ワークフロー 
(見にくいのであとで 
BGIのサイトで確認を)
バイサルファイト法による 
網羅的DNAメチル化解析の 
データ分析法
データ解析ワークフロー 
シーケンスリード 
トリムしたリード 
マッピング 
メチル化部位 
検出 
視覚化 
ゲノム配列 
Bisulfite Converted 
Genome 
Bowtie など 
Bismark など 
IGV, Genome Browser など
メチル化部位コーリングソフトの例 
• BISMARK − bowtie でマッピング 
• PASH − 低メモリ、高速 
• BSMAP − SOAP でマッピング 
• Methylcoder 
• BS-Seq − 植物用 
• Kismeth − 植物用、ウェブソフトいろいろある。 
以下のサイトでそのパフォーマンスが検討されていますので、参考にしてく 
ださい。 
http://www.genboree.org/workshopFiles/Epigenetics_Workshop_March_201 
2/Programs%20for%20mapping%20bisulfite%20reads_G%20Ramamoorthy% 
20030512.pdf 
以下も参照 
http://omictools.com/bisulfite-mappers/
Bismark's approach to bisulfite mapping and methylation calling. 
Krueger F , and Andrews S R Bioinformatics 2011;27:1571- 
1572 
© The Author(s) 2011. Published by Oxford University Press.
Bismark's approach to bisulfite mapping and methylation calling. 
Krueger F , and Andrews S R Bioinformatics 2011;27:1571- 
1572 
© The Author(s) 2011. Published by Oxford University Press.
Pash 3.0 Algorythm 
Multi-positional hash tables. A. Reads are indexed in a multi-positional hash table. 
B. A sliding fixed size genomic window is used 
Coarfa et al. BMC Bioinformatics 2010 11:572 doi:10.1186/1471-2105-11-572
BSMAP algorithm 
Xi and Li BMC Bioinformatics 
2009 10:232 
A) Bisulfite seed table, using the original seed and bisulfite variants as keys and 
corresponding coordinates in the reference genome as values. Each read was looked up in 
the seed table for potential mapping positions. B) A positional specific mask of the 
corresponding reference sequence was generated by setting 01 to C(light blue) and 11 to A, 
G, T(black). The original read was masked by a bitwise AND operation with the positional 
specific mask. C) The reference sequence and the masked read were compared with a 
bitwise XOR operation. Non-zero XOR results were counted as mismatches (red). Bisulfite 
alignment is marked in green.
BiQ Analyzer - a software tool for DNA 
methylation analysis 
Example of Graphical Tool
BisMark データ解析ワークフロー 
シーケンスリード 
Trimmomatic など 
トリムしたリード 
マッピング 
メチル化部位 
検出 
視覚化 
ゲノム配列 
Bisulfite Converted 
Genome 
Bowtie など 
Bismark など 
IGV, Genome Browser など
解析の実際(Bismark) 
インストールするソフトウェア(インストール上の注意) 
Bismark (v0.12.5) インストールはダウンロードして解凍するだけです。 
Bowtie2 (v2.2.3) インストールはダウンロードして解凍するだけです。 
SAMTools (v0.1.9) Makefile のcurses をncursesに書き換えてmakeします。 
Trimmomatic (v0.32) インストールはダウンロードして解凍するだけです。 
1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic) 
2. Generation of bisulfite converted genome (Bismark) 
3. Genome Alignment (Bismark ‐ Bowtie) 
4. Methylation calls (Bismark) 
5. Generation of genome wide tracks for visualization (SAMtools, Genome Browser) 
詳細は以下を参照してください。 
http://www.epibio.com/docs/default-source/protocols/ 
epignome-bioinformatics-user-guide.pdf?sfvrsn=2 
注意: コマンドやマニュアルは頻繁に変わりますので、最新のもので確認してください。 
本日のものは、セミナー時点で動作していますが、いつまで動くかはわかりません。 
コマンドの使用は自己の責任で実施してください。
解析の実際2 (Bismark) 
1. Filtering poor quality reads, and reads with adapter 
sequences (Trimmomatic) 
アダプターのトリミング 
コマンド例 
java -jar /root/bin/trimmomatic-0.32.jar SE -phred33 test.fastq test-trim.fastq 
ILLUMINACLIP:TruSeq2-SE:2:30:10 LEADING:3 TRAILING:3 MINLEN:36 & 
注;上記と同じコマンドが通るとは限りません。マニュアルをよく読んで、 
自分の環境に合わせて書き換えてください。
解析の実際3 (Bismark) 
2. Generation of bisulfite converted genome (Bismark) 
bisulfite converted genome の作成 
1) 以下のイルミナのiGenome のサイトから自分の実験に 
該当する参照配列をダウンロードします。 
かなり時間がかかります。 
http://support.illumina.com/sequencing/sequencing_software/igenome.ilmn 
コマンド例 
wget ftp://igenome:G3nom3s4u@ussd-ftp.illumina.com/Homo_sapiens/UCSC/ 
hg19/Homo_sapiens_UCSC_hg19.tar.gz 
tar zxvf Homo_sapiens_UCSC_hg19.tar.gz 
/Homo_sapiens/UCSC/hg19/Sequence/Chromosome というフォルダー内に 
ゲノム配列があることを確認する。
解析の実際4 (Bismark) 
2. Generation of bisulfite converted genome (Bismark) 
(続き) 
2) bisulfite converted genome を置くファイルを作成する。 
mkdir –p Genome/Bisulfude/hg19 
3) Homo_sapiens/UCSC/hg19/Sequence/Chromosome/ の中のクロモソームを含む 
fastaファイルをGenome/Bisulfude/hg19にコピーします。 
cp /Homo_sapiens/UCSC/hg19/Sequence/Chromosome/*fa Genome/Bisulfude/hg19 
4) bisulfite converted genome の作成 
bismark_genome_preparation --verdose Genome/Bisulfude/hg19 --bowtie2 
--path_to_bowtie /usr/local/bin 
--verdose にはbisulfite converted genome を置くファイルを、 
--path_to_bowtieにはbowtie2 が置かれているファイルを指定します。
解析の実際5 (Bismark) 
2. Genome Alignment (Bismark ‐ Bowtie2) (続き) 
1) Bismark (bowtie2) によるアラインメント 
Perl のモジュールのGD::Graphを最初にインストールしておかないと、 
結果のグラフが出てきません。 
あらかじめ、gd とgd-devel をインストールしておき、 
perl –MCPAN –e shell 
cpan> upgrade 
cpan> install YAML 
cpan> GD 
Cpan> GD::Graph 
でperl のモジュールをインストール 
zlib, libpng, freetype, jpeg, xpm 関連のライブラリも一緒にインストール 
RHELとか、CentOS系はこのあたりのパッケージの 
依存性が壊れていて、構築にそれなりに工夫が必要 
です。詳細は、個別にお問い合わせください。 
コマンド: bismark -q --bowtie2 --path_to_bowtie /root/bin/ 
Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq 
-q fastq の場合、--phred64-quals クオリティスコアphred64 を使用している場合 
--path_to_bowtieにはbowtie が置かれているファイルを指定 
Genome/Bisulfide/hg19 bisulfite は、converted genome の場所
解析の実際6 (Bismark) 
2. Genome Alignment (Bismark ‐ Bowtie2) (続き) 
1) Bismark (bowtie2) によるアラインメント(続き) 
コマンド例: bismark -q --phred64-quals --bowtie2 --path_to_bowtie /root/bin/ 
Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq 
うまくいば、 
*.png 
*.sam 
*.txt 
の3つのファイルができているはず。 
2) duplicate 除去 
コマンド例: deduplicate_bismark –s test1-2.fq_bismark_bt2.sam 
オプション-s : シングルエンドの場合、-p:ペアエンドの場合
解析の実際7 (Bismark) 
1) Bismark (bowtie2) によるアラインメント 
(続き) 
*alignment_overview.png の結果 
1箇所にalign 
複数箇所にalign 
Alignしなかったもの 
http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
解析の実際8 (Bismark) 
3. メチル化部位の検出 
コマンド使い方: bismark_methylation_extrctor [オプション] <ファイル名>.sam 
以下でヘルプが見れます。 
bismark_methylation_extractor –help | more 
コマンド例 
bismark_methylation_extractor -s –comprehensive 
test1-2.fq_bismark_bt2.duplicated.sam 
-s : シングルエンドの場合、-p:ペアエンドの場合 
--comprehensive 結果の出力形式の指定。ヘルプを参照。 
以下のような接頭文字をもつ出力ファイルが3つできる。 
CpG_content_....txt 
CHG_content_....txt 
CHH_content_....txt 
これらのデータから、情報を抽出して、 
いろいろな統計情報を作れる。
解析の実際9 (Bismark) 
4. メチル化部位の視覚化 
コマンド使い方: 
bismark_methylation_extrctor [オプション] <ファイル名>.sam 
以下でヘルプが見れます。 
bismark_methylation_extractor –help | more 
コマンド例 
bismark_methylation_extractor -s --bedGraph –counts 
test-2.fq_bismark_bt2.duplicated.sam 
-s : シングルエンドの場合、-p:ペアエンドの場合 
--bedGraph –counts 
できた、*.bedGraph ファイルをUCSC Genome Browser などで視覚化 
できます。
解析の実際10 (Bismark) 
4. メチル化部位の視覚化(続き) 
bedGraphの中身はこんな感じです。(このあとは, 
RやPerlなどでいろいろ処理できます。) 
# head test-2.fastq_bismark_bt2.deduplicated.bedGraph 
track type=bedGraph 
chr21 1050344 1050345 0 
chr21 1050919 1050920 0 
chr21 1050920 1050921 50 
chr21 1050987 1050988 100 
chr21 1050988 1050989 50 
chr21 1051049 1051050 100 
chr21 1051238 1051239 100 
chr21 1051282 1051283 100 
chr21 1051395 1051396 100 
メチル化率 
大体1千万箇所くらい 
ありました。
解析の実際11 (Bismark) 
ここで取り込んだ 
メチル化部位を 
参照できます。 
4. メチル化部位の視覚化(続き) 
bedGraph で以下のような感じで閲覧できます(UCSC Genome Browser)。
解析の実際12 (Bismark) 
4. メチル化部位の視覚化(続き) 
IGVによる視覚化例 
http://nbviewer.ipython.org/urls/dl.dropboxusercontent.com/u/115356/ip/claire/L 
arv_BS_Workflow_Example-IGV.ipynb
解析の実際13 (Bismark) 
4. メチル化部位の視覚化(続き) 
M-biasの出力結果。メチル化の偏りが確認できる。 
http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
解析の実際14 (Bismark) 
インストールや解析に、はまりどころが結構ある。 
Perl のモジュールのGD::Graphをインストールしないと 
グラフの出力ができないが、 
RHEL では、パッケージの依存性が壊れているようで、 
yum でエラーが出る。特定のパッケージをウェブ上で検索し、 
rpmコマンドをつかってインストールする必要があった。その 
後、perl -MCPAN -e shell でインストール。 
(Ubuntu などでは未確認。) 
時間がかかる(時間のオーダー、1プロセス数時間)。 
メモリもかなり必要(数百ギガのオーダー)。
解析の実際15 (Bismark) 
このあとすること。(RNA-Seq やChIP-Seqでの作業と類似) 
1、アノテーション。 
genes.gtf、refFlat.txt から、情報を抽出して、 
bash, perl/Python/Ruby などでスクリプトを作って注釈をつけま 
す。Methylkit などRのパッケージ他も、使えます。 
2、differential methylation 
各実験区のbedGraph をマージして、変動比を出し統計解析。 
3、機能解析 
GO解析とか、パスウェイ解析とか、(DAVIDなどをつかって、、。) 
4、モチーフ解析WebLogo, MEME
解析の実際 
次世代シーケンサーによる網羅的メチル化解析 
(RRBS、Sure Select Methyl-Seq) 
現状で、定量性を持たせるには、かなりのリード 
数が必要。 
データ解析もかなりのパワーを要する。 
現状で、多検体の解析に向くか、どうか、厳しい 
ところ。
今回の解析で用いた 
解析サーバーのスペック 
• HP ProLiant DL980G7 
• CPU:80コアメモリ:2TB RHEL6.4 
HP様のご協力に大変感謝いたします。
メチル化マイクロアレイなど 
網羅的メチル化定量解析による 
データマイニング法
NGSデータ解析手順 
一次解析 
画像データ 
から配列データの 
抽出 
自動化済 
ほとんどの場合 
FastQ 
二次解析 
マッピング 
アセンブリ 
SNP コーリング 
ChIP-Seq ピークコーリ 
ング 
RNA-Seq 発現量係数 
その他 
多分自動化は容易 
三次解析 
データマイニング 
教師付き学習 
教師なし学習 
数理モデル化 
視覚化 
自動化ソフトは多い 
がソフトに任せると 
危険 
ゲノムワイドメチル化解析の場合、コストがまだまだ高いことから、 
次世代シーケンサーデータのみでなくマイクロアレイ(イルミナ450Kアレイ)も使用 
も考慮します。三次解析は、マイクロアレイとNGSで共通するところも多い。
用語の整理(Wikipedia) 
• 機械学習 
機械学習の目的は、訓練データから学んだ「既知」の特 
徴に基づく予測である。 
• データマイニング 
データマイニングの目的は、それまで「未知」だったデー 
タの特徴を発見することである。 
厳密に言えば、データマイニングという意味は狭いが、 
本スライドでは、教師なし学習と、教師付き学習の両方 
を、特に教師付き学習に重点をおいて説明する。
教師なし学習 
分類、パターン認識 
マイクロアレイの発現解析でかなり実施されているので、 
おなじみかもしれない 
クラスタ解析→ ヒートマップ 
SOM(自己組織化マップ) 
K-means法 
PCA(主成分分析) 
簡単にできるが、それなりに使いこなすには、 
コツがあり経験が必要
教師付き学習 
識別、判別 
判別分析(線形判別分析、マハラノビス距離) 
サポートベクトルマシン 
ベイズ分類法 
次世代シーケンサーデータのみでなくマイクロアレイも 
使用可。ゲノムワイドメチル化解析の場合、 
イルミナ450Kアレイのほうが、解析しやすいことも、、。 
以下、Rを用いた簡単な例をご紹介します。
Rを用いた解析 
Rの使用法は、いろいろな書籍、サイトがありますので、そちら 
を参照されるとよいでしょう。 
R関係の資料は大変充実しているとおもいます。 
オススメは、以下のThe R Tips です。 
http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html 
Rを使うときのOSは、Linuxを使用します。 
Windowsはオススメしません。
線形判別分析のためのRのコード例 
手順 
① MASSライブラリの利用 
② 学習用Data の準備 
③ lda()関数で判別関数を作成 
④ predict()関数で判別関数による学習用Data の判別結果を得る 
⑤ データの集計視覚化、評価 
⑥ predict()関数で判別関数によるテスト用Data の判別結果を実施 
参考サイト 
http://www.slideshare.net/langstat/nagoyar3discriminant
線形判別分析のためのRのコード例 
> library(MASS) # ① MASS パッケージ使用 
> grouping1 <- matrix(c(rep(“1”,25),rep(“0”,25)),nrow=50,ncol=1) # 分類情報を 
入力 
> (rlt1_1 <- lda(as.matrix(data.z), grouping1)) 
#③lda()関数により判別関数を得る 
Call: 
lda(as.matrix(data.z), grouping = grouping1) 
…(中略) 
Coefficients of linear discriminants: #判別関数の判別係数 
LD1 
*data.z 実際に入力するデータはここに変数としてデータフレームの形で入力 
します。たとえば、メチル化率のデータ、遺伝子発現定量データを用いること 
ができます。
線形判別分析のためのRのコード例 
③判別関数を求めるには、。 
fLD = aX1 + bX2 + cX3 + d 
判別関数の判別係数は、lda()関数の 
Coefficients of linear discriminantsから得られま 
す。定数項dは以下の式で求められます。 
apply(rlt1_1$means%*%rlt1_1$scaling,2,mean) 
詳細は以下を参照してください 
http://www1.doshisha.ac.jp/~mjin/R/17.html 
http://homepage2.nifty.com/nandemoarchive/GLM/tahenryou_03_discrim.htm
線形判別分析のためのRのコード例 
④学習データの判別結果 
> (rlt1_2 <- predict(rlt1_1)) 
#判別関数による判別結果を得る 
$class # 識別結果 
[1] 1 0 1 1 1 1 0 1 1 1 1 1 
$posterior # 事後確率 
$x # 鑑別スコアLD1 
>(result <- table( grouping1, rlt1_2$class )) 
#判別関数による判別結果の表示
線形判別分析のためのRのコード例 
⑤ データの集計視覚化、評価 
>plot(rlt1_2$x,main=“Discrimination_Analysis”, pch=20, cex=2, 
col = ifelse(rlt1_2$x >= 0, “blue”, “red”)) #判別結果をプロット 
>abline(v = 25.5);abline(h = 0) 
#判別境界線などをプロットし見やすく 
>dev.copy(pdf, file="Discrimination_Analysis:pdf") 
>dev.off()
線形判別分析の解析例 
http://itbc-world. 
com/home/rfm/r%E3%81%AE%E7%B5%B1%E8%A8%88%E9%96%A2%E6 
%95%B0/%E5%88%A4%E5%88%A5%E5%88%86%E6%9E%90/
線形判別分析の解析例 
⑥ predict()関数で判別関数によるテスト用Data 
の判別を実施 
(rlt1_t <- predict(rlt1_1),test.data)
実際の事例 
GEOやSRA やDRAに多くのデータ事例がアップ 
されています。 
全部をみていくことは不可能ですので、2例のみ 
見ていきます。
実際のデータの入手 
• GEO http://www.ncbi.nlm.nih.gov/geo/ 
• SRA やDRA(DDBJ Sequence Read Archive) 
http://sra.dbcls.jp/ 
http://trace.ddbj.nig.ac.jp/dra/index.html 
上記のサイトなどで状況を見れます。臨床事例の集計も 
あるようです。 
ダウンロードの手順、利用方法は各自調査してください。
実際のデータの入手 
NCBI のサイトに飛んでいって手作業で調べても興味深い例は 
すぐに見つかります。 
最初の練習ならば、興味のあるものを拾ってきて解析してもい 
いと思います。
ざっと目についた例を見ると、、。 
Series GSE49149 Query DataSets for GSE49149 
Status Public on Jul 08, 2014 
Title Genome-wide DNA methylation patterns in 
pancreatic ductal adenocarcinoma (PDAC) 
Organism Homo sapiens 
Experiment type Methylation profiling by genome tiling 
array 
Summary Determine methylation pattern in PDAC a 
genome-wide analysis was performed in a cohort of 167 
PDAC and 29 adjacent pancreatic tissues samples using the 
Infinium 450k methylation arrays (Illumina). 
Int J Cancer. 2014 Sep 1;135(5):1110-8. doi: 
10.1002/ijc.28765. Epub 2014 May 9.
Genome-wide DNA methylation patterns in pancreatic 
ductal adenocarcinoma (PDAC) 
文献に紹介されているヒートマップ
ざっと目についた例を見ると、、(2)。 
Status Public on Oct 16, 2012 
Title Methylation data from glioblastoma tumor samples 
Organism Homo sapiens Experiment type Methylation 
profiling by genome tiling array 
Summary Glioblastoma (GBM) is an incurable brain tumor 
carrying a dismal prognosis, which displays considerable 
heterogeneity. 
Sturm D, Witt H, Hovestadt V, Khuong-Quang DA et al. 
Hotspot mutations in H3F3A and IDH1 define distinct 
epigenetic and biological subgroups of glioblastoma. Cancer 
Cell 2012 Oct 16;22(4):425-37. PMID: 23079654
Hotspot Mutations in H3F3A and IDH1 Define Distinct 
Epigenetic and Biological Subgroups of Glioblastoma 
文献に紹介されているヒートマップ
とても全部は見ていけませんが 
魅力的な研究はいろいろ開示されていま 
す。 
いわゆる教師なし学習の応用例は非常に 
多いのに対し、教師付き学習の応用例は 
比較的少なめです。 
ご自分の興味にあわせて参照されるとい 
いと思います。
ご傾聴ありがとうござい 
ました。

Contenu connexe

Tendances

変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
合成経路探索 -論文まとめ- (PFN中郷孝祐)
合成経路探索 -論文まとめ-  (PFN中郷孝祐)合成経路探索 -論文まとめ-  (PFN中郷孝祐)
合成経路探索 -論文まとめ- (PFN中郷孝祐)Preferred Networks
 
Vanderbiltの擬ポテンシャル
Vanderbiltの擬ポテンシャルVanderbiltの擬ポテンシャル
Vanderbiltの擬ポテンシャルdc1394
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
TVMの次期グラフIR Relayの紹介
TVMの次期グラフIR Relayの紹介TVMの次期グラフIR Relayの紹介
TVMの次期グラフIR Relayの紹介Takeo Imai
 
第一原理計算と密度汎関数理論
第一原理計算と密度汎関数理論第一原理計算と密度汎関数理論
第一原理計算と密度汎関数理論dc1394
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節Hakky St
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式Hiroshi Nakagawa
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)Takanori Hayashi
 
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Ryohei Suzuki
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical ReportDeep Learning JP
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and PoseDeep Learning JP
 
メタプログラミングって何だろう
メタプログラミングって何だろうメタプログラミングって何だろう
メタプログラミングって何だろうKota Mizushima
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous ManipulationDeep Learning JP
 

Tendances (20)

変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
合成経路探索 -論文まとめ- (PFN中郷孝祐)
合成経路探索 -論文まとめ-  (PFN中郷孝祐)合成経路探索 -論文まとめ-  (PFN中郷孝祐)
合成経路探索 -論文まとめ- (PFN中郷孝祐)
 
Vanderbiltの擬ポテンシャル
Vanderbiltの擬ポテンシャルVanderbiltの擬ポテンシャル
Vanderbiltの擬ポテンシャル
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
TVMの次期グラフIR Relayの紹介
TVMの次期グラフIR Relayの紹介TVMの次期グラフIR Relayの紹介
TVMの次期グラフIR Relayの紹介
 
第一原理計算と密度汎関数理論
第一原理計算と密度汎関数理論第一原理計算と密度汎関数理論
第一原理計算と密度汎関数理論
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
 
Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向Single-cell pseudo-temporal ordering 近年の技術動向
Single-cell pseudo-temporal ordering 近年の技術動向
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose
 
メタプログラミングって何だろう
メタプログラミングって何だろうメタプログラミングって何だろう
メタプログラミングって何だろう
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation
 

Similaire à BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

BotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミングBotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミングTakashi Yamanoue
 
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)Mr. Vengineer
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編Daiyu Hatakeyama
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも- Yusaku Watanabe
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みYusuke Goto
 
泥臭い運用から、プログラマブルインフラ構築(に行きたい)
泥臭い運用から、プログラマブルインフラ構築(に行きたい) 泥臭い運用から、プログラマブルインフラ構築(に行きたい)
泥臭い運用から、プログラマブルインフラ構築(に行きたい) Akihiro Kuwano
 
Microservices and Servcie Mesh on Azure
Microservices and Servcie Mesh on AzureMicroservices and Servcie Mesh on Azure
Microservices and Servcie Mesh on AzureTsukasa Kato
 
LLVM overview 20110122
LLVM overview 20110122LLVM overview 20110122
LLVM overview 20110122nothingcosmos
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニング誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニングKiyokazu Kaba
 
Sflt17 meteorではじめる最速ウェブアプリ開発
Sflt17 meteorではじめる最速ウェブアプリ開発Sflt17 meteorではじめる最速ウェブアプリ開発
Sflt17 meteorではじめる最速ウェブアプリ開発Hironao Sekine
 
Code igniterでテスト駆動開発 資料作成中
Code igniterでテスト駆動開発 資料作成中Code igniterでテスト駆動開発 資料作成中
Code igniterでテスト駆動開発 資料作成中Takako Miyagawa
 
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1Y Watanabe
 
遺伝研スパコンの『ここが困った!』事例集と今後への提言
遺伝研スパコンの『ここが困った!』事例集と今後への提言遺伝研スパコンの『ここが困った!』事例集と今後への提言
遺伝研スパコンの『ここが困った!』事例集と今後への提言Masahiro Kasahara
 

Similaire à BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics" (20)

BotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミングBotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミング
 
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも-
 
ABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組みABEMA を次のフェーズへ進化させる技術への取り組み
ABEMA を次のフェーズへ進化させる技術への取り組み
 
泥臭い運用から、プログラマブルインフラ構築(に行きたい)
泥臭い運用から、プログラマブルインフラ構築(に行きたい) 泥臭い運用から、プログラマブルインフラ構築(に行きたい)
泥臭い運用から、プログラマブルインフラ構築(に行きたい)
 
Microservices and Servcie Mesh on Azure
Microservices and Servcie Mesh on AzureMicroservices and Servcie Mesh on Azure
Microservices and Servcie Mesh on Azure
 
LLVM overview 20110122
LLVM overview 20110122LLVM overview 20110122
LLVM overview 20110122
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニング誰にでもできるパフォーマンスチューニング
誰にでもできるパフォーマンスチューニング
 
Das 2015
Das 2015Das 2015
Das 2015
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
How to run P4 BMv2
How to run P4 BMv2How to run P4 BMv2
How to run P4 BMv2
 
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
 
Sflt17 meteorではじめる最速ウェブアプリ開発
Sflt17 meteorではじめる最速ウェブアプリ開発Sflt17 meteorではじめる最速ウェブアプリ開発
Sflt17 meteorではじめる最速ウェブアプリ開発
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
 
Code igniterでテスト駆動開発 資料作成中
Code igniterでテスト駆動開発 資料作成中Code igniterでテスト駆動開発 資料作成中
Code igniterでテスト駆動開発 資料作成中
 
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1
JavaでWebサービスを作り続けるための戦略と戦術 JJUG-CCC-2018-Spring-g1
 
遺伝研スパコンの『ここが困った!』事例集と今後への提言
遺伝研スパコンの『ここが困った!』事例集と今後への提言遺伝研スパコンの『ここが困った!』事例集と今後への提言
遺伝研スパコンの『ここが困った!』事例集と今後への提言
 

BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"

  • 1. BGI 無料ウェビナー ゲノムワイドメチル化解析とアナリティクス 2014年8月28日(木) 午後2時から3時まで 東京農工大学「ゲノム科学人材育成プログラム」 石井一夫
  • 2. 本日 近年、次世代シーケンサーによるアプリケー ションとしてエピゲノミクス解析が行われるよう になっています。 今回、ゲノムワイドメチル化解析に関するマイク ロアレイとNGS解析に関して、ゲノム情報解析 の視点からその方法論と臨床解析事例につい てお話いたします。
  • 3. 本日 • 本セミナーは初めて、メチル化解析のデータ解 析を行いたい人のための入門的、かつチュート リアル的な内容です。 • これをたたき台に、ご自分でより深く勉強して頂く ことを想定しています。 • 後ほど、SlideShareにこのスライドは公開します。 コマンドなどはあとでそちらで確認してください。 しかし、簡潔な内容ですので、実際の使用時は 文献を参照してください。 • 資料の利用は自己責任でお願いいたします。
  • 4. エピゲノムの 実験的背景に関しましては すでに他社でウェビナー、セミナーが開催されています。たと えば、 • イルミナ社ウェビナー エピゲノム解析シリーズDNAメチル化・基礎からの網羅的解 析--- 国立がん研究センター研究所山下聡先生 http://www.illuminakk.co.jp/documents/pdf/2012_illumina_h m450.pdf キアゲン/CLCの最近のセミナーでも講演されています。 「Targeted bisulfite sequencingによるDNAメチル化解析」 CLCbio ユーザーミーティング2014(7月24日(木))
  • 5. エピゲノムの 実験的背景に関しましては すでに他社でウェビナー、セミナーが開催され ています。たとえば、 • イルミナ社ウェビナー エピゲノム解析によるiPS細胞の特性解析. 2013.2.26 http://www.illuminakk.co.jp/document/pdf/we binar/2013_illumina_ips_no2.pdf
  • 6. 今回は • そういう実験的な、生物学的化学的な意味付 けなどは深くお話しません。必要な方はその ような資料をご覧ください。 • コマンドラインを用いたデータ解析やデータマ イニングを中心にお話します。
  • 7. 今日のアジェンダ 1. 網羅的メチル化解析の概要 2. バイサルファイト法による網羅的メチル化解 析のデータ解析法の概要とノウハウ 3. メチル化マイクロアレイなど網羅的メチル化 定量解析によるデータマイニング法
  • 9. いろいろなゲノムメチル化解析法が 有ります マイクロアレイベース他にはPCRベースも考えられます メチル化マイクロアレイ各種 CpG Islandマイクロアレイ各種 次世代シーケンサーベース 全ゲノムバイサルファイトシークエンス(WGBS) Reduced Representation Bisulfite Sequencing (メチル化部位特異的制限酵素で濃縮) Me-DIP Seq (抗メチル化DNA抗体で濃縮) MethylCap Seq(メチル化DNA結合タンパクで濃縮) Sure-Select Methyl-Seq (ハイブリダイダイゼーションによる濃縮)
  • 10. いろいろなゲノムメチル化解析法が 有ります • メチル化DNA検出原理による分類 1.バイサルファイト処理による塩基置換 2.メチル化感受性制限酵素による切断 3.抗メチル化シトシン抗体、またはメチル化DNA 結合タンパク質による濃縮 https://www.takara-bio. co.jp/goods/bioview/pdfs/58_02-08.pdf
  • 11. メチル化マイクロアレイ • プローブを用いているため解像度が低い。 • 比較的安価でデータが得られやすい。 例 ≪アジレント社CpG Islandマイクロアレイ≫ ・Human CpG Island Microarray(244Kフォーマット) ・Mouse CpG Island Microarray(105Kフォーマット)
  • 12. メチル化マイクロアレイ 例 Illumina Human Methylation 450K Infinium I およびInfinium II テクノロジーにより、 一塩基レベルの高解像度を達成。 詳細は以下をご参照ください。 http://www.illuminakk.co.jp/documents/pdf/tec hnote_hm450_data_analysis_optimization-J.pdf
  • 13. 全ゲノムバイサルファイト シークエンス • Whole genome bisulfite sequence (WGBS) • バイサルファイト試薬処理により非メチル化シトシンがウ ラシルに変換するところを配列解析で検出 C→T、G→Aに変わる部位が非メチル化部位、 不変サイトはメチル化部位 • 定量性を持たせるにはかなり高価(非現実的なほど高 コスト) • 多分、これが本命の方法だが、高価で出来ないため他 の方法で、コストを下げているのが実情
  • 14. 全ゲノムバイサルファイト BGI のサイトでシークエンス 紹介されている ワークフロー (見にくいのであとで BGIのサイトで確認を)
  • 15. Reduced Representation Bisulfite Sequencing DNAはまず制限酵素によりCpG認識部位で 切断されます。 その後アダプタ付加、ゲルによるサイズ選択、 バイサルファイト変換とPCRを行い、DNAを濃縮します。 この濃縮法では特定のメチル化領域を選択すること はできず、繰り返し配列と CpG-richな配列にバイアスがかかります。 アジレントの解説文書より、転記。 http://www.chem-agilent.com/pdf/low_5991-0166JAJP.pdf
  • 16. Reduced Representation Bisulfite BGI のサイトでSequencing(RRBS) 紹介されている ワークフロー (見にくいのであとで BGIのサイトで確認を)
  • 17. MeDIP-seq 解析 Methylated DNA immunoprecipitation (MeDIP)は メチル化DNAを全ゲノムに渡って解析する技術です。 5-メチルシトシン(5mC)という抗体でメチル化DNA断片を 沈降させ、ハイスループットシーケンシングを行います。 MeDIPシーケンシングは高メチル化やCpGが高密度に あるゲノム領域を検出することができます。 つぶやき; WGBSのように広い領域をカバーする方法は今のところない。 どの方法でやるかは悩ましいのが現状。 RRBSもMeDIP-seq 解析もカバー領域があまり広くないのが難点。 Sure-Select Methylがややまし程度。 Illumina Human Methylation 450Kマイクロアレイのほうが、楽かも。
  • 18. MeDIP-seq 解析 BGI のサイトで 紹介されている ワークフロー (見にくいのであとで BGIのサイトで確認を)
  • 20. データ解析ワークフロー シーケンスリード トリムしたリード マッピング メチル化部位 検出 視覚化 ゲノム配列 Bisulfite Converted Genome Bowtie など Bismark など IGV, Genome Browser など
  • 21. メチル化部位コーリングソフトの例 • BISMARK − bowtie でマッピング • PASH − 低メモリ、高速 • BSMAP − SOAP でマッピング • Methylcoder • BS-Seq − 植物用 • Kismeth − 植物用、ウェブソフトいろいろある。 以下のサイトでそのパフォーマンスが検討されていますので、参考にしてく ださい。 http://www.genboree.org/workshopFiles/Epigenetics_Workshop_March_201 2/Programs%20for%20mapping%20bisulfite%20reads_G%20Ramamoorthy% 20030512.pdf 以下も参照 http://omictools.com/bisulfite-mappers/
  • 22. Bismark's approach to bisulfite mapping and methylation calling. Krueger F , and Andrews S R Bioinformatics 2011;27:1571- 1572 © The Author(s) 2011. Published by Oxford University Press.
  • 23. Bismark's approach to bisulfite mapping and methylation calling. Krueger F , and Andrews S R Bioinformatics 2011;27:1571- 1572 © The Author(s) 2011. Published by Oxford University Press.
  • 24. Pash 3.0 Algorythm Multi-positional hash tables. A. Reads are indexed in a multi-positional hash table. B. A sliding fixed size genomic window is used Coarfa et al. BMC Bioinformatics 2010 11:572 doi:10.1186/1471-2105-11-572
  • 25. BSMAP algorithm Xi and Li BMC Bioinformatics 2009 10:232 A) Bisulfite seed table, using the original seed and bisulfite variants as keys and corresponding coordinates in the reference genome as values. Each read was looked up in the seed table for potential mapping positions. B) A positional specific mask of the corresponding reference sequence was generated by setting 01 to C(light blue) and 11 to A, G, T(black). The original read was masked by a bitwise AND operation with the positional specific mask. C) The reference sequence and the masked read were compared with a bitwise XOR operation. Non-zero XOR results were counted as mismatches (red). Bisulfite alignment is marked in green.
  • 26. BiQ Analyzer - a software tool for DNA methylation analysis Example of Graphical Tool
  • 27. BisMark データ解析ワークフロー シーケンスリード Trimmomatic など トリムしたリード マッピング メチル化部位 検出 視覚化 ゲノム配列 Bisulfite Converted Genome Bowtie など Bismark など IGV, Genome Browser など
  • 28. 解析の実際(Bismark) インストールするソフトウェア(インストール上の注意) Bismark (v0.12.5) インストールはダウンロードして解凍するだけです。 Bowtie2 (v2.2.3) インストールはダウンロードして解凍するだけです。 SAMTools (v0.1.9) Makefile のcurses をncursesに書き換えてmakeします。 Trimmomatic (v0.32) インストールはダウンロードして解凍するだけです。 1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic) 2. Generation of bisulfite converted genome (Bismark) 3. Genome Alignment (Bismark ‐ Bowtie) 4. Methylation calls (Bismark) 5. Generation of genome wide tracks for visualization (SAMtools, Genome Browser) 詳細は以下を参照してください。 http://www.epibio.com/docs/default-source/protocols/ epignome-bioinformatics-user-guide.pdf?sfvrsn=2 注意: コマンドやマニュアルは頻繁に変わりますので、最新のもので確認してください。 本日のものは、セミナー時点で動作していますが、いつまで動くかはわかりません。 コマンドの使用は自己の責任で実施してください。
  • 29. 解析の実際2 (Bismark) 1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic) アダプターのトリミング コマンド例 java -jar /root/bin/trimmomatic-0.32.jar SE -phred33 test.fastq test-trim.fastq ILLUMINACLIP:TruSeq2-SE:2:30:10 LEADING:3 TRAILING:3 MINLEN:36 & 注;上記と同じコマンドが通るとは限りません。マニュアルをよく読んで、 自分の環境に合わせて書き換えてください。
  • 30. 解析の実際3 (Bismark) 2. Generation of bisulfite converted genome (Bismark) bisulfite converted genome の作成 1) 以下のイルミナのiGenome のサイトから自分の実験に 該当する参照配列をダウンロードします。 かなり時間がかかります。 http://support.illumina.com/sequencing/sequencing_software/igenome.ilmn コマンド例 wget ftp://igenome:G3nom3s4u@ussd-ftp.illumina.com/Homo_sapiens/UCSC/ hg19/Homo_sapiens_UCSC_hg19.tar.gz tar zxvf Homo_sapiens_UCSC_hg19.tar.gz /Homo_sapiens/UCSC/hg19/Sequence/Chromosome というフォルダー内に ゲノム配列があることを確認する。
  • 31. 解析の実際4 (Bismark) 2. Generation of bisulfite converted genome (Bismark) (続き) 2) bisulfite converted genome を置くファイルを作成する。 mkdir –p Genome/Bisulfude/hg19 3) Homo_sapiens/UCSC/hg19/Sequence/Chromosome/ の中のクロモソームを含む fastaファイルをGenome/Bisulfude/hg19にコピーします。 cp /Homo_sapiens/UCSC/hg19/Sequence/Chromosome/*fa Genome/Bisulfude/hg19 4) bisulfite converted genome の作成 bismark_genome_preparation --verdose Genome/Bisulfude/hg19 --bowtie2 --path_to_bowtie /usr/local/bin --verdose にはbisulfite converted genome を置くファイルを、 --path_to_bowtieにはbowtie2 が置かれているファイルを指定します。
  • 32. 解析の実際5 (Bismark) 2. Genome Alignment (Bismark ‐ Bowtie2) (続き) 1) Bismark (bowtie2) によるアラインメント Perl のモジュールのGD::Graphを最初にインストールしておかないと、 結果のグラフが出てきません。 あらかじめ、gd とgd-devel をインストールしておき、 perl –MCPAN –e shell cpan> upgrade cpan> install YAML cpan> GD Cpan> GD::Graph でperl のモジュールをインストール zlib, libpng, freetype, jpeg, xpm 関連のライブラリも一緒にインストール RHELとか、CentOS系はこのあたりのパッケージの 依存性が壊れていて、構築にそれなりに工夫が必要 です。詳細は、個別にお問い合わせください。 コマンド: bismark -q --bowtie2 --path_to_bowtie /root/bin/ Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq -q fastq の場合、--phred64-quals クオリティスコアphred64 を使用している場合 --path_to_bowtieにはbowtie が置かれているファイルを指定 Genome/Bisulfide/hg19 bisulfite は、converted genome の場所
  • 33. 解析の実際6 (Bismark) 2. Genome Alignment (Bismark ‐ Bowtie2) (続き) 1) Bismark (bowtie2) によるアラインメント(続き) コマンド例: bismark -q --phred64-quals --bowtie2 --path_to_bowtie /root/bin/ Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq うまくいば、 *.png *.sam *.txt の3つのファイルができているはず。 2) duplicate 除去 コマンド例: deduplicate_bismark –s test1-2.fq_bismark_bt2.sam オプション-s : シングルエンドの場合、-p:ペアエンドの場合
  • 34. 解析の実際7 (Bismark) 1) Bismark (bowtie2) によるアラインメント (続き) *alignment_overview.png の結果 1箇所にalign 複数箇所にalign Alignしなかったもの http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
  • 35. 解析の実際8 (Bismark) 3. メチル化部位の検出 コマンド使い方: bismark_methylation_extrctor [オプション] <ファイル名>.sam 以下でヘルプが見れます。 bismark_methylation_extractor –help | more コマンド例 bismark_methylation_extractor -s –comprehensive test1-2.fq_bismark_bt2.duplicated.sam -s : シングルエンドの場合、-p:ペアエンドの場合 --comprehensive 結果の出力形式の指定。ヘルプを参照。 以下のような接頭文字をもつ出力ファイルが3つできる。 CpG_content_....txt CHG_content_....txt CHH_content_....txt これらのデータから、情報を抽出して、 いろいろな統計情報を作れる。
  • 36. 解析の実際9 (Bismark) 4. メチル化部位の視覚化 コマンド使い方: bismark_methylation_extrctor [オプション] <ファイル名>.sam 以下でヘルプが見れます。 bismark_methylation_extractor –help | more コマンド例 bismark_methylation_extractor -s --bedGraph –counts test-2.fq_bismark_bt2.duplicated.sam -s : シングルエンドの場合、-p:ペアエンドの場合 --bedGraph –counts できた、*.bedGraph ファイルをUCSC Genome Browser などで視覚化 できます。
  • 37. 解析の実際10 (Bismark) 4. メチル化部位の視覚化(続き) bedGraphの中身はこんな感じです。(このあとは, RやPerlなどでいろいろ処理できます。) # head test-2.fastq_bismark_bt2.deduplicated.bedGraph track type=bedGraph chr21 1050344 1050345 0 chr21 1050919 1050920 0 chr21 1050920 1050921 50 chr21 1050987 1050988 100 chr21 1050988 1050989 50 chr21 1051049 1051050 100 chr21 1051238 1051239 100 chr21 1051282 1051283 100 chr21 1051395 1051396 100 メチル化率 大体1千万箇所くらい ありました。
  • 38. 解析の実際11 (Bismark) ここで取り込んだ メチル化部位を 参照できます。 4. メチル化部位の視覚化(続き) bedGraph で以下のような感じで閲覧できます(UCSC Genome Browser)。
  • 39. 解析の実際12 (Bismark) 4. メチル化部位の視覚化(続き) IGVによる視覚化例 http://nbviewer.ipython.org/urls/dl.dropboxusercontent.com/u/115356/ip/claire/L arv_BS_Workflow_Example-IGV.ipynb
  • 40. 解析の実際13 (Bismark) 4. メチル化部位の視覚化(続き) M-biasの出力結果。メチル化の偏りが確認できる。 http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
  • 41. 解析の実際14 (Bismark) インストールや解析に、はまりどころが結構ある。 Perl のモジュールのGD::Graphをインストールしないと グラフの出力ができないが、 RHEL では、パッケージの依存性が壊れているようで、 yum でエラーが出る。特定のパッケージをウェブ上で検索し、 rpmコマンドをつかってインストールする必要があった。その 後、perl -MCPAN -e shell でインストール。 (Ubuntu などでは未確認。) 時間がかかる(時間のオーダー、1プロセス数時間)。 メモリもかなり必要(数百ギガのオーダー)。
  • 42. 解析の実際15 (Bismark) このあとすること。(RNA-Seq やChIP-Seqでの作業と類似) 1、アノテーション。 genes.gtf、refFlat.txt から、情報を抽出して、 bash, perl/Python/Ruby などでスクリプトを作って注釈をつけま す。Methylkit などRのパッケージ他も、使えます。 2、differential methylation 各実験区のbedGraph をマージして、変動比を出し統計解析。 3、機能解析 GO解析とか、パスウェイ解析とか、(DAVIDなどをつかって、、。) 4、モチーフ解析WebLogo, MEME
  • 43. 解析の実際 次世代シーケンサーによる網羅的メチル化解析 (RRBS、Sure Select Methyl-Seq) 現状で、定量性を持たせるには、かなりのリード 数が必要。 データ解析もかなりのパワーを要する。 現状で、多検体の解析に向くか、どうか、厳しい ところ。
  • 44. 今回の解析で用いた 解析サーバーのスペック • HP ProLiant DL980G7 • CPU:80コアメモリ:2TB RHEL6.4 HP様のご協力に大変感謝いたします。
  • 46. NGSデータ解析手順 一次解析 画像データ から配列データの 抽出 自動化済 ほとんどの場合 FastQ 二次解析 マッピング アセンブリ SNP コーリング ChIP-Seq ピークコーリ ング RNA-Seq 発現量係数 その他 多分自動化は容易 三次解析 データマイニング 教師付き学習 教師なし学習 数理モデル化 視覚化 自動化ソフトは多い がソフトに任せると 危険 ゲノムワイドメチル化解析の場合、コストがまだまだ高いことから、 次世代シーケンサーデータのみでなくマイクロアレイ(イルミナ450Kアレイ)も使用 も考慮します。三次解析は、マイクロアレイとNGSで共通するところも多い。
  • 47. 用語の整理(Wikipedia) • 機械学習 機械学習の目的は、訓練データから学んだ「既知」の特 徴に基づく予測である。 • データマイニング データマイニングの目的は、それまで「未知」だったデー タの特徴を発見することである。 厳密に言えば、データマイニングという意味は狭いが、 本スライドでは、教師なし学習と、教師付き学習の両方 を、特に教師付き学習に重点をおいて説明する。
  • 48. 教師なし学習 分類、パターン認識 マイクロアレイの発現解析でかなり実施されているので、 おなじみかもしれない クラスタ解析→ ヒートマップ SOM(自己組織化マップ) K-means法 PCA(主成分分析) 簡単にできるが、それなりに使いこなすには、 コツがあり経験が必要
  • 49. 教師付き学習 識別、判別 判別分析(線形判別分析、マハラノビス距離) サポートベクトルマシン ベイズ分類法 次世代シーケンサーデータのみでなくマイクロアレイも 使用可。ゲノムワイドメチル化解析の場合、 イルミナ450Kアレイのほうが、解析しやすいことも、、。 以下、Rを用いた簡単な例をご紹介します。
  • 50. Rを用いた解析 Rの使用法は、いろいろな書籍、サイトがありますので、そちら を参照されるとよいでしょう。 R関係の資料は大変充実しているとおもいます。 オススメは、以下のThe R Tips です。 http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html Rを使うときのOSは、Linuxを使用します。 Windowsはオススメしません。
  • 51. 線形判別分析のためのRのコード例 手順 ① MASSライブラリの利用 ② 学習用Data の準備 ③ lda()関数で判別関数を作成 ④ predict()関数で判別関数による学習用Data の判別結果を得る ⑤ データの集計視覚化、評価 ⑥ predict()関数で判別関数によるテスト用Data の判別結果を実施 参考サイト http://www.slideshare.net/langstat/nagoyar3discriminant
  • 52. 線形判別分析のためのRのコード例 > library(MASS) # ① MASS パッケージ使用 > grouping1 <- matrix(c(rep(“1”,25),rep(“0”,25)),nrow=50,ncol=1) # 分類情報を 入力 > (rlt1_1 <- lda(as.matrix(data.z), grouping1)) #③lda()関数により判別関数を得る Call: lda(as.matrix(data.z), grouping = grouping1) …(中略) Coefficients of linear discriminants: #判別関数の判別係数 LD1 *data.z 実際に入力するデータはここに変数としてデータフレームの形で入力 します。たとえば、メチル化率のデータ、遺伝子発現定量データを用いること ができます。
  • 53. 線形判別分析のためのRのコード例 ③判別関数を求めるには、。 fLD = aX1 + bX2 + cX3 + d 判別関数の判別係数は、lda()関数の Coefficients of linear discriminantsから得られま す。定数項dは以下の式で求められます。 apply(rlt1_1$means%*%rlt1_1$scaling,2,mean) 詳細は以下を参照してください http://www1.doshisha.ac.jp/~mjin/R/17.html http://homepage2.nifty.com/nandemoarchive/GLM/tahenryou_03_discrim.htm
  • 54. 線形判別分析のためのRのコード例 ④学習データの判別結果 > (rlt1_2 <- predict(rlt1_1)) #判別関数による判別結果を得る $class # 識別結果 [1] 1 0 1 1 1 1 0 1 1 1 1 1 $posterior # 事後確率 $x # 鑑別スコアLD1 >(result <- table( grouping1, rlt1_2$class )) #判別関数による判別結果の表示
  • 55. 線形判別分析のためのRのコード例 ⑤ データの集計視覚化、評価 >plot(rlt1_2$x,main=“Discrimination_Analysis”, pch=20, cex=2, col = ifelse(rlt1_2$x >= 0, “blue”, “red”)) #判別結果をプロット >abline(v = 25.5);abline(h = 0) #判別境界線などをプロットし見やすく >dev.copy(pdf, file="Discrimination_Analysis:pdf") >dev.off()
  • 57. 線形判別分析の解析例 ⑥ predict()関数で判別関数によるテスト用Data の判別を実施 (rlt1_t <- predict(rlt1_1),test.data)
  • 58. 実際の事例 GEOやSRA やDRAに多くのデータ事例がアップ されています。 全部をみていくことは不可能ですので、2例のみ 見ていきます。
  • 59. 実際のデータの入手 • GEO http://www.ncbi.nlm.nih.gov/geo/ • SRA やDRA(DDBJ Sequence Read Archive) http://sra.dbcls.jp/ http://trace.ddbj.nig.ac.jp/dra/index.html 上記のサイトなどで状況を見れます。臨床事例の集計も あるようです。 ダウンロードの手順、利用方法は各自調査してください。
  • 60. 実際のデータの入手 NCBI のサイトに飛んでいって手作業で調べても興味深い例は すぐに見つかります。 最初の練習ならば、興味のあるものを拾ってきて解析してもい いと思います。
  • 61. ざっと目についた例を見ると、、。 Series GSE49149 Query DataSets for GSE49149 Status Public on Jul 08, 2014 Title Genome-wide DNA methylation patterns in pancreatic ductal adenocarcinoma (PDAC) Organism Homo sapiens Experiment type Methylation profiling by genome tiling array Summary Determine methylation pattern in PDAC a genome-wide analysis was performed in a cohort of 167 PDAC and 29 adjacent pancreatic tissues samples using the Infinium 450k methylation arrays (Illumina). Int J Cancer. 2014 Sep 1;135(5):1110-8. doi: 10.1002/ijc.28765. Epub 2014 May 9.
  • 62. Genome-wide DNA methylation patterns in pancreatic ductal adenocarcinoma (PDAC) 文献に紹介されているヒートマップ
  • 63. ざっと目についた例を見ると、、(2)。 Status Public on Oct 16, 2012 Title Methylation data from glioblastoma tumor samples Organism Homo sapiens Experiment type Methylation profiling by genome tiling array Summary Glioblastoma (GBM) is an incurable brain tumor carrying a dismal prognosis, which displays considerable heterogeneity. Sturm D, Witt H, Hovestadt V, Khuong-Quang DA et al. Hotspot mutations in H3F3A and IDH1 define distinct epigenetic and biological subgroups of glioblastoma. Cancer Cell 2012 Oct 16;22(4):425-37. PMID: 23079654
  • 64. Hotspot Mutations in H3F3A and IDH1 Define Distinct Epigenetic and Biological Subgroups of Glioblastoma 文献に紹介されているヒートマップ
  • 65. とても全部は見ていけませんが 魅力的な研究はいろいろ開示されていま す。 いわゆる教師なし学習の応用例は非常に 多いのに対し、教師付き学習の応用例は 比較的少なめです。 ご自分の興味にあわせて参照されるとい いと思います。