Contenu connexe
Similaire à NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Similaire à NGS現場の会第2回_アメリエフ株式会社_がんExome解析 (13)
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
- 1. がんゲノムのエクソーム解析
2012年5月24日
アメリエフ株式会社
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 3. 方法
■データ
Nature Genetics Volume: 43, Pages: 875–878 Year published: (2011) DOI: doi:10.1038/ng.907 Received 13 May 2011 Accepted 15 July
2011 Published online 07 August 2011
Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of the
bladder
・移行上皮癌(TCC)は、膀胱癌の中で発生頻度が最も高い。
・Discovery screenとして、患者9人のエキソーム解析を行った。
・Prevalence Screenとして、発見された全ての変異遺伝子に対して、異なったステージとグレードの患者88人の試料を用いてスクリーニングを行った。
・患者97人のうち59% にクロマチンリモデリングにかかわる遺伝子(UTX、MLL-MLL3、CREBBP-EP300、NCOR1、ARID1A、CHD6)に変異が認められた。
・UTX は、ステージとグレードのより低い腫瘍において、はるかに高い頻度で変化しているため、膀胱癌における分類と診断において役に立つ可能性
がある。
・クロマチン制御の異常が膀胱癌の特徴であることを示唆した。
上記のデータのうち、下記の4検体8サンプルを使用した。
・ Illumina Genome Analyzer IIを使用した。
・NimbleGen Sequence Capture 2.1M Exome Array(SeqCap EZ Exome発売前の商品)を使用した。
num SRR SRX sample
1 SRR290592 SRX079167 B2_Blood
2 SRR290593 SRX079168 B2_Cancer
3 SRR290594 SRX079169 B8_Blood
4 SRR290597 SRX079172 B8_Cancer
5 SRR290595 SRX079170 B9_Blood
6 SRR290598 SRX079173 B9_Cancer
7 SRR290599 SRX079174 B10_Blood
8 SRR290600 SRX079175 B10_Cancer 3
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 4. 方法
■ソフトウェア
1. FastQC : FastqファイルのQC
QC 2. FastX : Fastqファイルをフィルタリング
3. TagCleaner : 混入しているアダプターを予測
4. compfastq : ペアリードのうち片側のみのリードを除外
Mapping 1. BWA : アライメント&マッピング
2. Picard : 重複リードの除去
1. SAMtools : SNV/Indel検出、BAMファイル操作
SNV/Indel 2. VarScan : Tumor/Normal比較
3. GATK : SNV/Indel検出、カバレージ算出
4. QuickAnnotator :アノテーション付与
集計 1. snpEFF :アノテーション付与/集計
2. 弊社開発スクリプト
4
4
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 5. 方法
■エクソーム解析の手順
参考コマンド
FASTQ形式チェック
QC # FASTQデータのクオリティチェック
htmlやサマリーが出力される
データクオリティチェック(FastQC)
$ fastqc -o FILE -f fastq FILE1.fastq
# クオリティ20未満の塩基が80%以上のリードを除去
Illumina CASAVA filter [Y] を除去
$ fastq_quality_filter -i FILE1.fastq -o
Mapping FILE1.qual.fastq -q 20 -p 80 -Q 33 -v
クオリティ20未満が80%以上の
リードを除去 # クオリティ20未満の末端をトリム
弊社開発
スクリプト $ prinseq-lite.pl -fastq FILE1.qual.fastq -
クオリティ20未満の末端をトリム Qcleaner使用 out_format 3 -log -trim_qual_right 20 -
trim_qual_left 20
SNV/Indel
未知の塩基(N)が多いリード除去 # 配列長が20未満のリード除去
$ prinseq-lite.pl -fastq
配列長が短いリード除去 FILE1_prinseq_good_Su1_.fastq -
out_format 3 -min_len 20
集計 片側のみのリードを除外
データクオリティチェック(FastQC)
※Qcleanerの詳細につきましてはT38のポスター、または、アメリエフのブースへお越しください。
5
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 6. 方法
参考コマンド
■エクソーム解析の手順
# アライメント
$ bwa aln -t 4 hg19.fa FILE1.treated.fastq -f
FILE1.sai
アライメント
QC # マッピング→BAMに変換→ソート
BWA
マッピング $ bwa sampe -r
"@RG¥tID:FILE¥tSM:FILE¥tPL:Illumina" -n
SAMファイルを 3 -N 10 -a 500 hg19.fa FILE1.sai FILE2.sai
BAMファイルに変換 FILE1.treated.fastq FILE2.treated.fastq |
Mapping samtools view -Sb - | samtools sort -
SAMtools FILE.sorted
BAMファイルをソート
# Duplicated reads を除去
BAMファイルをインデキシング $ java -jar MarkDuplicates.jar
I=FILE.sorted.bam
SNV/Indel Duplicated reads を除去 Picard O=FILE.sorted.redup.bam
METRICS_FILE=jeter.metrics
カバレージを計算 BEDtools REMOVE_DUPLICATES=true
ASSUME_SORTED=true
SAMtools VALIDATION_STRINGENCY=SILENT
集計 SNV/Indel検出
# Duplicated reads を除去
$ samtools mpileup –Bgf hg19.fa
FILE.sorted.redup.bam | bcftools view
-vcg - > FILE.vcf
6
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 7. 方法
■エクソーム解析の手順
参考コマンド
QC # ソマティックな変異検出
がん細胞特異的な多型検出 $ java -jar VarScan.v2.2.11.jar somatic
①ケースとコントロールでカバレージが b2_blood.pileup b2_cancer.pileup
10以上
②Base Qualityの平均が15以上
b2.varscan.vcf --output-vcf
③癌のリードの10%が変異支持
VarScan
④癌のリードの5本以上が変異支持 # ソマティックな変異フィルタリング
Mapping ⑤コントロールと同じ変異 $ java -jar VarScan.v2.2.8.jar somaticFilter b2.
varscan.vcf.snp --min-coverage 10 --min-avg-
qual 15 --min-var-freq 0.1 --min-reads2 5 --
output-file b2.varscan.vcf.filterd.snp
リアライメントして多型を再検出 GATK
SNV/Indel # GATK入力用にBAMファイルを並び替え
java -jar ReorderSam.jar
I=FILE.sorted.redup.mapped.bam
VarScanとGATKで BEDtools
共通するSNV/Indelを抽出 O=$FILE.karyotypic.bam
REFERENCE=hg19.karyotypic.fa
集計
# GATKによるSNV検出
$ java –jar GenomeAnalysisTK.jar -T
UnifiedGenotyper -R hg19.karyotypic.fa -I
FILE.karyotypic.realigned.alnRecal.bam -o
FILE.gatk.snv.vcf
7
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 8. 方法
■エクソーム解析の手順
参考コマンド
SNV/ Indelをフィルタリング
QC ① Mapping qualities ≧ 30 SAMtools # SNV/ Indelをフィルタリング
② SNV qualities ≧ 20
③ Indel qualities ≧ 50 $ awk '/^#/ || (/INDEL/&&$6>=50) ||
(!/INDEL/&&$6>=20)' b2.snv.vcf >
b2.filtered.snv.vcf
Indelをフィルタリング
①一方の向きのリードのみが
支持するIndelは除外 #アノテーション付与/集計
Mapping ②30base以内にSNVがある 弊社開発 $ java -Xmx4G -jar snpEff.jar eff -c
Indelは除外 スクリプト snpEff.config -i vcf -o vcf hg19
b2.filtered.snv.vcf > b2.filtered. eff.snv.vcf
偽遺伝子と反復配列に含まれる場
合は、変異支持するリードの10%以
上がユニークなSNV/Indelを抽出
SNV/Indel
アノテーション付与/集計 snpEFF
情報付与 弊社開発
dbsnv135,1000 genomes スクリプト
集計 OMIM, GO QuickAnnotator
※QuickAnnotatorの詳細につきましては、アメリエフのブースへお越しください。
8 8
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 9. 結果
・QCおよびマッピングの結果
B2_Blood B2_Cancer B8_Blood B8_Cancer B9_Blood B9_Cancer B10_Blood B10_Cancer
SRR290592 SRR290593 SRR290594 SRR290597 SRR290595 SRR290598 SRR290599 SRR290600
フィルタリング率
クリーニング前 271,286,968 259,326,348 286,222,172 259,677,208 282,187,548 254,273,550 258,459,568 265,407,220
クリーニング後 260,322,476 248,161,648 274,677,306 248,021,142 273,326,192 244,913,382 252,955,308 257,523,242
95.96% 95.69% 95.97% 95.51% 96.86% 96.32% 97.87% 97.03%
マッピング率
マッピング前 260,322,476 248,161,648 274,677,306 248,021,142 273,326,192 244,913,382 252,955,308 257,523,242
マッピング後 228,755,759 206,183,044 241,507,897 197,004,644 242,104,730 202,828,283 210,955,736 220,644,478
87.87% 83.08% 87.92% 79.43% 88.58% 82.82% 83.40% 85.68%
カバレージ
Average of Coverage 12.27 11.88 10.22 8.60 10.59 9.84 8.25 9.07
Averageof Coverage (>=5) 72.88 67.36 42.67 27.06 48.11 41.53 27.08 54.83
Averageof Coverage (>=10) 109.56 93.26 90.71 63.25 94.44 81.35 56.90 95.83
クリーニング前 クリーニング後
9 9
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 10. 結果
B2サンプル
・方法2. VarScan出力例 ※VCFフォーマットも出力可能
QC
Mapping
SNV/Indel
集計
Germline, Somatic, LOH, Unknownに分類
10 10
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 11. 結果
B2サンプル
・集計/情報付与
方法1 . SAMTools 方法2 .VarScan
11 11
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 12. 結果
B2サンプル
・集計/情報付与
方法1 . SAMTools 方法2 .VarScan
Coverage
Changes by chromosome
12 12
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 13. 結果
B2サンプル
・方法1
SAMtoolsを用いて、がん細胞と正常細胞から intersectBedなどで 偽陽性を除外するために
各々のSNV/Indelを検出してフィルタリング → がん細胞特異的なSNV/Indelを抽出 → GATKでも検出されたSNV/Indelを検出
QC
Tumor.vcf Normal.vcf Somatic? Somatic!
148,724 145,812 25,224 22,102
Mapping 約17.0%ががん特異的 391,461
・方法2 GATKと一致/がん特異的
偽陽性を除外するために 約87.6%
VarScanを用いてSNV/Indel検出 → GATKでも検出されたSNV/Indelを検出
SNV/Indel Somatic!
Germline Somatic LOH Unknown 1,813
128,988 6,170 7,091 158
GATKと一致/がん特異的
TOTAL 154,748 約29.4%
集計 391,461
約3.99%ががん特異的
VarScanは偽陽性(はずれ)が多い?
GATKおよびSAMtoolsは偽陰性(見落とし)が多い? 実験的に調べる必要
13 13
Copyright © Amelieff Co. Ltd. All Rights Reserved