Contenu connexe
Similaire à フリーソフトではじめるNGS融合遺伝子解析入門 (13)
フリーソフトではじめるNGS融合遺伝子解析入門
- 1. フ リ ー ソ フ ト で は じ め る
N G S 融 合 遺 伝 ⼦ 解 析 ⼊ ⾨
2016年5⽉27⽇
アメリエフ株式会社
- 2. 本 ⽇ の テ ー マ
2Copyright © Amelieff Corporation All Rights Reserved.
• RNA-seq解析
• 融合遺伝⼦解析
- 5. 5
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化
発現レベル予測
コンセンサス
転写物予測
マッピング・
転写構造予測
転写構造・発現レベル⽐較
既知転写物と⽐較
新規転写物
候補
マッピング
チェック結果
マッピングチェック・カバレージチェック
平均カバレージ
チェック結果
SNP/InDel
検出結果
SNP/InDel検出
Copyright © Amelieff Corporation All Rights Reserved.
- 7. Copyright © Amelieff Corporation. All Rights Reserved.
7
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多⼈数で同時に利⽤し、常時稼働していることを想定したコンピューター
UNIXは権利問題などで、⼀般⼈の⼿の届かない存在となったため、Linus⽒がUNIXを
参考にして、PCで動く独⾃OSを開発
Linux
⼤多数の解析ツールを使⽤することができる
新しいツールが出た時、すぐ⾃分で試せる
次世代シーケンシンスデータのように、⼤
きなデータは、Excel等で⾒る事が難しい
⾃分の思い通りにデータの可視化や加⼯ができる
バイオインフォマティクスで使⽤する解析ツールの
多くは、Linux⽤に作成されている
「Primerを数百個作りたい」「数万個の配列がどの遺伝⼦に当たるの
か確認したい」という時、同じ作業を何度も繰り返す事は、難しい
繰り返し作業を⾃動化する事ができる
⼤量データの扱い
繰り返し操作の簡易化
解析ツールの問題
- 17. 17
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化
発現レベル予測
コンセンサス
転写物予測
マッピング・
転写構造予測
転写構造・発現レベル⽐較
既知転写物と⽐較
新規転写物
候補
マッピング
チェック結果
マッピングチェック・カバレージチェック
平均カバレージ
チェック結果
SNP/InDel
検出結果
SNP/InDel検出
Copyright © Amelieff Corporation All Rights Reserved.
- 18. 本 ⽇ の テ ー マ
• RNA-seq解析
• 融合遺伝⼦解析
18Copyright © Amelieff Corporation All Rights Reserved.
- 19. 融 合 遺 伝 ⼦ と は
• 染⾊体の挿⼊・逆位・転座などの組換えの結果、2つの遺伝⼦が
融合して⽣じる遺伝⼦
• がんなどにおけるゲノム・遺伝⼦異常の⼀種
19Copyright © Amelieff Corporation All Rights Reserved.
exon exon exon
Gene A
exon exon exon
Gene B
exon exon exon exon
join
Fusion Gene
- 21. 融 合 遺 伝 ⼦ 関 連 論 ⽂
21Copyright © Amelieff Corporation All Rights Reserved.
⽪膚ガンの原因遺伝⼦を特定
AYA世代の⽩⾎病で複数の新規の融合癌遺伝⼦を同定
Cancer Res. 2015 Nov 1;75(21):4458-65.
Nat Genet. 2016 May;48(5):569-74.
近年、NGSを⽤いた融合遺伝⼦の研究が盛んに⾏われている
- 22. Copyright © Amelieff Corporation. All Rights Reserved.
22
ChimeraScan FusionSeq TopHat-Fusion
deFuse SOAP-Fusion PRADA
FusionMap STAR-Fusion :
⽇々、多くのソフトが公開されているが
golden standardと呼べるものはまだない
ソフトウェア 論⽂ 被引⽤数
Chimerascan
ChimeraScan: a tool for identifying chimeric
transcription in sequencing data, Bioinformatics, 2011
107
deFuse
deFuse: an algorithm for gene fusion discovery in
tumor RNA-Seq data, PLoS Comput Biol, 2011
215
TopHat-Fusion
TopHat-Fusion: an algorithm for discovery of novel
fusion transcripts, Genome Biol, 2011
226
融 合 遺 伝 ⼦ 検 出 ソ フ ト
- 23. 公 開 デ ー タ を ⽤ い た 検 証
本論⽂のデータを⽤いて融合遺伝⼦の検出を、TopHat-
FusionおよびChimerascanで検証した
23Copyright © Amelieff Corporation All Rights Reserved.
- 24. 検 証 に ⽤ い た 公 開 デ ー タ
• サンプル:ヒト乳がんの細胞株5種類
• シーケンシング:Illumina Genome Analyzer IIx, paired-end
24Copyright © Amelieff Corporation All Rights Reserved.
# ID 細胞株 リード⻑ リード数
1 SRR064286 MCF-7 50bp 12,805,674
2 SRR064287 KPL-4 50bp 10,199,593
3 SRR064437 normal breast 56bp 11,134,621
4
SRR064438
BT-474
50bp 27,030,264
SRR064439 50bp 15,830,764
5
SRR064440
SK-BR-3
50bp 18,096,704
SRR064441 50bp 18,194,304
Edgren et al., Genome Biology, 2011
- 25. 25
検 証 の 対 象 と し た 融 合 遺 伝 ⼦
Copyright © Amelieff Corporation All Rights Reserved.
27個の
融合遺伝⼦
Edgren et al., Genome Biology, 2011
- 26. 融 合 遺 伝 ⼦ 解 析 の 流 れ
26Copyright © Amelieff Corporation All Rights Reserved.
⽣の
リードデータ
クリーニングした
リードデータ
融合遺伝⼦候補
リードQC
融合遺伝⼦検出
マッピング
フィルタリング
- 27. 27
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ ⽐ 較
Copyright © Amelieff Corporation All Rights Reserved.
• クオリティスコアの低いリードを除去
• クリーニング前後のリード配列をFastQCでチェック
塩
基
ク
オ
リ
テ
ィ
0
40
5ʻリード上のポジション3ʼ
- 28. T o p H a t - F u s i o n 解 析 フ ロ ー
28Copyright © Amelieff Corporation All Rights Reserved.
クリーニングしたリードデータ
融合遺伝⼦候補
マップされたリード マップされなかったリード
融合遺伝⼦検出
ブレイクポイントの探索
マッピング
フィルタリング
Supporting リードの情報
- 29. 29
ブ レ イ ク ポ イ ン ト の 探 索
Copyright © Amelieff Corporation All Rights Reserved.
• マッピングされなかった
リードをセグメントに分割
↓
• 分割されたセグメントから
ブレイクポイントを探索
Kim et al., Genome Biology, 2011
- 30. 30
T o p H a t - F u s i o n の 実 ⾏
Copyright © Amelieff Corporation All Rights Reserved.
• クリーニング後のFASTQファイルから融合遺伝⼦を検出する
$ tophat -o tophat_SAMPLE -p 8 --fusion-search ¥
--keep-fasta-order --no-coverage-search ¥
--mate-std-dev 80 --max-intron-length 100000 ¥
--fusion-min-dist 100000 --fusion-anchor-length 13 ¥
--fusion-ignore-chromosomes chrM ¥
/path/to/bowtie2_index/hg19 SAMPLE_1.fastq SAMPLE_2.fastq
--keep-fasta-order = In order to sort alignments in the same order in the genome fasta file.
--no-coverage-search = Disables the coverage based search for junctions.
--mate-std-dev = The standard deviation for the distribution on inner distances between mate pairs.
--max-intron-length = The maximum intron length.
--fusion-min-dist = Minimum distance for intra-chromosomal fusions.
--fusion-anchor-length = Minimum anchor length of supporting read.
--fusion-ignore-chromosomes = Ignore some chromosomes such as chrM.
- 31. • 出⼒結果(fusion.out)では、多数の融合遺伝⼦候補が検出される
31
T o p H a t - F u s i o n の 実 ⾏ 結 果
Copyright © Amelieff Corporation All Rights Reserved.
# ID 細胞株 検出候補数
1 SRR064286 MCF-7 59,713
2 SRR064287 KPL-4 46,195
3 SRR064437 normal breast 34,032
4
SRR064438
BT-474
69,008
SRR064439 58,525
5
SRR064440
SK-BR-3
56,852
SRR064441 52,760
- 32. 32
T o p H a t - F u s i o n の フ ィ ル タ リ ン グ
Copyright © Amelieff Corporation All Rights Reserved.
• 出⼒結果(fusion.out)からフィルタリングを⾏う
– BLAST検索の結果をフィルタリングに⽤いるため、BLASTの
データベースをダウンロードしておく必要がある。
– フィルタリングではBowtie1とインデックスファイルを⽤意し
ておく必要がある。
$ tophat-fusion-post -p 8 --num-fusion-reads 1 ¥
--num-fusion-pairs 2 --num-fusion-both 3
/path/to/bowtie_index/hg19
--num-fusion-reads = Fusions with at least this many supporting reads.
--num-fusion-pairs = Fusions with at least this many supporting pairs.
--num-fusion-both = The sum of supporting reads and pairs.
- 33. 33
フ ィ ル タ リ ン グ 結 果
Copyright © Amelieff Corporation All Rights Reserved.
フィルタリングにより、数個〜数⼗個の融合遺伝⼦に絞りこまれた
# ID 細胞株 検出数
1 SRR064286 MCF-7 12
2 SRR064287 KPL-4 4
3 SRR064437 normal breast 1
4
SRR064438
BT-474 34
SRR064439
5
SRR064440
SK-BR-3 21
SRR064441
- 34. 他 ソ フ ト ウ ェ ア と の ⽐ 較
34Copyright © Amelieff Corporation All Rights Reserved.
TopHat-Fusion Chimerascan
総検出数 72 335
既知融合遺伝⼦の検出数 17 21
既知融合遺伝⼦数 27
ソフトウェア 論⽂ 被引⽤数
Chimerascan
ChimeraScan: a tool for identifying chimeric
transcription in sequencing data, Bioinformatics, 2011
107
TopHat-Fusion
TopHat-Fusion: an algorithm for discovery of novel
fusion transcripts, Genome Biol, 2011
226
Chimerascanの⽅が既知融合遺伝⼦の検出数は多い
- 35. 35
検 出 結 果 の ⽐ 較
Copyright © Amelieff Corporation All Rights Reserved.
Sample 5' gene 5' chr 3' gene 3' chr TopHat-Fusion Chimerascan
BT-474
ACACA 17 STAC2 17 ● ●
RPS6KB1 17 SNF8 17 ● ●
VAPB 20 IKZF3 17 ● ●
ZMYND8 20 CEP250 20 ● ●
RAB22A 20 MYO9B 19 ●
SKA2 17 MYO19 17 ● ●
DIDO1 20 KIAA0406 20 ●
STARD3 17 DOK5 20 ●
LAMP1 13 MCF2L 13
GLB1 3 CMTM7 3 ● ●
CPNE1 20 PI3 20
KPL-4
BSG 19 NFIX 19 ● ●
PPP1R12A 12 10-Sep 2 ● ●
NOTCH1 9 NUP214 9 ●
MCF-7
BCAS4 20 BCAS3 17 ● ●
ARFGEF2 20 SULF2 20 ● ●
RPS6KB1 17 TMEM49 17 ●
SK-BR-3
TATDN1 8 GSDMB 17 ● ●
CSE1L 20 ENSG00000236127 20
RARA 17 PKIA 8 ● ●
ANKHD1 5 PCDH1 5 ● ●
CCDC85C 14 SETD3 14 ●
SUMF1 3 LRRFIP2 3 ● ●
WDR67 8 ZNF704 8 ●
CYTH1 17 EIF3H 8 ● ●
DHX35 20 ITCH 20 ●
NFS1 20 PREX1 20
両ソフトで検出 15
TopHat-Fusionのみ 2
Chimerascanのみ 6
両ソフトで検出なし 4
正常サンプルでの検出数
TopHat-Fusion 1
Chimerascan 27
Chimerascanの⽅が
既知融合遺伝⼦の検出
数は多いが、正常サン
プルでの検出数も多い
- 36. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
36Copyright © Amelieff Corporation All Rights Reserved.
• ChimerDB (http://biome.ewha.ac.kr:8080/FusionGene/)
– Sanger CGP, OMIM, PubMedなどの公開情報をまとめたデータ
ベース
検出した融合遺伝⼦と照合することで、既知の融合遺伝⼦の情報をア
ノテーションすることができる
- 37. ア ノ テ ー シ ョ ン 結 果
37Copyright © Amelieff Corporation All Rights Reserved.
1 2 3 4 5 6 7 8 9 10 11
MCF7 BCAS4 chr20 49411707 BCAS3 chr17 59430946 7 2 9 B
SK-BR-3 TATDN1 chr8 125551265 GSDMB chr17 38066176 125 21 151 -
(1) 融合遺伝⼦が検出されたサンプル名
(2) 融合遺伝⼦の左側の遺伝⼦名
(3) 左側の遺伝⼦がある染⾊体番号
(4) 左側の遺伝⼦のポジション
(5) 融合遺伝⼦の右側の遺伝⼦名
(6) 右側の遺伝⼦がある染⾊体番号
(7) 右側の遺伝⼦のポジション
(8) ブレイクポイント上のリード数
(9) ブレイクポイントを挟むペア数
(10) ⽚側のリードが融合遺伝⼦上にあるペア数
(11)chimerDBのアノテーション(A,B,Cの信頼性クラスで⽰される)
- 38. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
38Copyright © Amelieff Corporation All Rights Reserved.
http://54.84.12.177/PanCanFusV2/
• TCGA Fusion gene
Data Portal
– がんに関連する融
合遺伝⼦の情報を
検索できるサイト
遺伝⼦別や疾患別に検索
することが可能
- 39. 受 託 解 析 サ ー ビ ス : 融 合 遺 伝 ⼦ 解 析
39Copyright © Amelieff Corporation All Rights Reserved.