SlideShare une entreprise Scribd logo
1  sur  39
フ リ ー ソ フ ト で は じ め る
N G S 融 合 遺 伝 ⼦ 解 析 ⼊ ⾨
2016年5⽉27⽇
アメリエフ株式会社
本 ⽇ の テ ー マ
2Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• RNA-seq解析
• 融合遺伝⼦解析
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
3
R N A - s e q と は
メッセンジャーRNA(mRNA)をキャプチャして次世代
シーケンサでシーケンシングする⼿法
• リファレンスゲノムがある⽣物種の場合:
– 既知遺伝⼦にマッピングする
– リファレンスゲノムにマッピングして遺伝⼦構造を同定する
• リファレンスゲノムがない⽣物種の場合:
– アセンブリングして転写物構造を予測し、それに対してマッピングする
– 近いゲノムのリファレンスゲノムにマッピングする
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
R N A - s e q 解 析 で で き る こ と
• 発現量の定量・⽐較
• 新規転写物・新規スプライシングバリアントの探索
• 融合遺伝⼦の検出
4
RNA-seqがマイクロアレイと⽐較して優れている点
• 新規転写物や融合遺伝⼦が検出可
• SNV・small Indelも検出可
• プローブの設計を必要としない(⾮モデル⽣物にも対応可)
5
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化
発現レベル予測
コンセンサス
転写物予測
マッピング・
転写構造予測
転写構造・発現レベル⽐較
既知転写物と⽐較
新規転写物
候補
マッピング
チェック結果
マッピングチェック・カバレージチェック
平均カバレージ
チェック結果
SNP/InDel
検出結果
SNP/InDel検出
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
上記はほんの⼀部
⽇々、多くのソフトが公開されている
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
6
R N A - S e q 解 析 ソ フ ト
QC
• cutadapt
• FastQC
• FastX-toolkit
• HTseq
• prinseq
:
多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する
アライメント
• bowtie
• bwa
• SOAP
• STAR
• Tophat
:
発現定量/⽐較
• Cufflinks
• DESeq
• DEGSeq
• EdgeR
• ERANGE
:
融合遺伝⼦検出
• BreakDancer
• FusionCatcher
• SOAPfusion
• deFuse
• Tophat-Fusion
:
※Rなど、WindowsやMacでも動くものもある
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
7
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多⼈数で同時に利⽤し、常時稼働していることを想定したコンピューター
UNIXは権利問題などで、⼀般⼈の⼿の届かない存在となったため、Linus⽒がUNIXを
参考にして、PCで動く独⾃OSを開発
Linux
⼤多数の解析ツールを使⽤することができる
新しいツールが出た時、すぐ⾃分で試せる
次世代シーケンシンスデータのように、⼤
きなデータは、Excel等で⾒る事が難しい
⾃分の思い通りにデータの可視化や加⼯ができる
バイオインフォマティクスで使⽤する解析ツールの
多くは、Linux⽤に作成されている
「Primerを数百個作りたい」「数万個の配列がどの遺伝⼦に当たるの
か確認したい」という時、同じ作業を何度も繰り返す事は、難しい
繰り返し作業を⾃動化する事ができる
⼤量データの扱い
繰り返し操作の簡易化
解析ツールの問題
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
8
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red Hat系・・・Red Hat Enterprise Linux(商⽤)、CentOS(無償)など
⾒た⽬やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理由
• 更新⽅針が保守的で、アップデートが頻発しない
• 枯れた技術を使っていて、安定している
弊社販売の
解析サーバで
使⽤
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
9
⽣データ → クオリティコントロール → マッピング→発現定量
R N A - s e q 解 析 : ク オ リ テ ィ コ ン ト ロ ー ル
サンプルや調整⽅法、シーケンサの特徴にあわせて
クリーニング項⽬や条件を⼯夫しています。
塩
基
ク
オ
リ
テ
ィ
0
40
5ʻリード上のポジション3ʼ
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
10
⽣データ → クオリティコントロール → マッピング→発現定量
• TopHatの使い方を確認
$ tophat
R N A - s e q 解 析 : マ ッ ピ ン グ
スプライシングを考慮して、マッピングするため、
既知の遺伝⼦情報を使⽤することもできます。
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
11
⽣データ → クオリティコントロール → マッピング→発現定量
• マッピング
$ tophat -o SMAPLE -g 3 –G /path/to/genes.gtf ¥
/path/to/Bowtie2Index/genome SAMPLE_clean_1.fastq ¥
SAMPLE_clean_2.fastq
$ ls SAMPLE
R N A - s e q 解 析 : マ ッ ピ ン グ
BAMとインデックス、
BEDなどが作成されます。
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
12
ポ イ ン ト ) T o p H a t の ア ル ゴ リ ズ ム
1. リードをペアエンドでリファレンスに
マッピングする。
2. マッピングできなかったリードを断
片化して、リファレンスにマッピング
する。
3. マッピング結果をもとに、転写構造
をアセンブリングする。
http://www.ncbi.nlm.nih.gov/pubmed/19289445http://en.wikipedia.org/wiki/File:RNA-seq-alignment.png
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
13
• Cufflinksの使い⽅を確認
R N A - s e q 解 析 : 発 現 定 量
$ cufflinks
アセンブルのガイドとして既知の遺伝⼦情報を
使⽤することもできます。
⽣データ → クオリティコントロール → マッピング→発現定量
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
14
• 発現量を計算
R N A - s e q 解 析 : 発 現 定 量
$ cufflinks -o SAMPLE SAMPL/accepted_hits.bam ¥
–g /path/to/genes.gtf –M /path/to/mask.gtf
$ ll –h SAMPLE fpkm_trackingファイル
が作成されます。
⽣データ → クオリティコントロール → マッピング→発現定量
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
15
R N A - s e q 解 析 : 発 現 定 量
$ less SAMPL/genes.fpkm_tracking
4列⽬がGene ID、
10列⽬がFPKMです。
⽣データ → クオリティコントロール → マッピング→発現定量
• 発現量を計算
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
16
⻑い遺伝⼦ほど、マップされるリードは多くなる(遺伝⼦間のバイアス)
サンプル量の多いランほど、マップされるリードは多くなる(ラン間のバイアス)
・発現量としてよく使われる指標
RPKM(Reads Per Kilobase per Million mapped reads)
FPKM(Fragments Per Kilobase of exon per Million mapped fragments)
どちらも、発現量をエクソン⻑と全マッピング数で補正した値
FPKM = raw	counts×
1,000,000
all	reads
×
1,000
gene	length
ポ イ ン ト ) 発 現 量
遺伝⼦の発現量 ≠ 遺伝⼦上にマップされたリード数
これらのバイアスを補正してから発現量を⽐較する必要があります
17
解 析 フ ロ ー
⽣の
リードデータ
クリーニングした
リードデータ
マッピング結果
ジャンクション
情報
転写物情報
発現レベル
情報
コンセンサス
転写物
グラフ画像
融合遺伝⼦
検出
⽐較結果
リードQC
融合遺伝⼦
予測
視覚化
発現レベル予測
コンセンサス
転写物予測
マッピング・
転写構造予測
転写構造・発現レベル⽐較
既知転写物と⽐較
新規転写物
候補
マッピング
チェック結果
マッピングチェック・カバレージチェック
平均カバレージ
チェック結果
SNP/InDel
検出結果
SNP/InDel検出
Copyright	©	Amelieff Corporation	All	Rights	Reserved.
本 ⽇ の テ ー マ
• RNA-seq解析
• 融合遺伝⼦解析
18Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
融 合 遺 伝 ⼦ と は
• 染⾊体の挿⼊・逆位・転座などの組換えの結果、2つの遺伝⼦が
融合して⽣じる遺伝⼦
• がんなどにおけるゲノム・遺伝⼦異常の⼀種
19Copyright	©	Amelieff Corporation	All	Rights	Reserved.
exon exon exon
Gene A
exon exon exon
Gene B
exon exon exon exon
join
Fusion Gene
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
20
• 腫瘍のドライバーとなったり、分⼦標的治療のターゲットとなる
など、がんなどの疾患との関連が注⽬されている
– ヒト21番染⾊体上のTMPRESS2遺伝⼦とERG遺伝⼦から⽣じる融合
遺伝⼦TMPRESS2-ERGは、前⽴腺がんとの関連が報告されている
Tomlins SA et al., Recurrent fusion of TMPRSS2 and ETS transcription
factor genes in prostate cancer. Science. 2005;310(5748):644–8.
– RET-ROS1融合遺伝⼦は肺腺がんの分⼦標的治療のターゲットである
Takeuchi K, Soda M, Togashi Y, et al. RET, ROS1 and ALK fusions in
lung cancer. Nat Med 2012;18:378-81.
融 合 遺 伝 ⼦ と は
融 合 遺 伝 ⼦ 関 連 論 ⽂
21Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
⽪膚ガンの原因遺伝⼦を特定
AYA世代の⽩⾎病で複数の新規の融合癌遺伝⼦を同定
Cancer Res. 2015	Nov	1;75(21):4458-65.
Nat Genet. 2016	May;48(5):569-74.
近年、NGSを⽤いた融合遺伝⼦の研究が盛んに⾏われている
Copyright	©	Amelieff	Corporation.	All	Rights	Reserved.
22
ChimeraScan FusionSeq TopHat-Fusion
deFuse SOAP-Fusion PRADA
FusionMap STAR-Fusion :
⽇々、多くのソフトが公開されているが
golden standardと呼べるものはまだない
ソフトウェア 論⽂ 被引⽤数
Chimerascan
ChimeraScan: a tool for identifying chimeric
transcription in sequencing data, Bioinformatics, 2011
107
deFuse
deFuse: an algorithm for gene fusion discovery in
tumor RNA-Seq data, PLoS Comput Biol, 2011
215
TopHat-Fusion
TopHat-Fusion: an algorithm for discovery of novel
fusion transcripts, Genome Biol, 2011
226
融 合 遺 伝 ⼦ 検 出 ソ フ ト
公 開 デ ー タ を ⽤ い た 検 証
本論⽂のデータを⽤いて融合遺伝⼦の検出を、TopHat-
FusionおよびChimerascanで検証した
23Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
検 証 に ⽤ い た 公 開 デ ー タ
• サンプル:ヒト乳がんの細胞株5種類
• シーケンシング:Illumina Genome Analyzer IIx, paired-end
24Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
# ID 細胞株 リード⻑ リード数
1 SRR064286 MCF-7 50bp 12,805,674
2 SRR064287 KPL-4 50bp 10,199,593
3 SRR064437 normal breast 56bp 11,134,621
4
SRR064438
BT-474
50bp 27,030,264
SRR064439 50bp 15,830,764
5
SRR064440
SK-BR-3
50bp 18,096,704
SRR064441 50bp 18,194,304
Edgren et al., Genome Biology, 2011
25
検 証 の 対 象 と し た 融 合 遺 伝 ⼦
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
27個の
融合遺伝⼦
Edgren et al., Genome Biology, 2011
融 合 遺 伝 ⼦ 解 析 の 流 れ
26Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
⽣の
リードデータ
クリーニングした
リードデータ
融合遺伝⼦候補
リードQC
融合遺伝⼦検出
マッピング
フィルタリング
27
ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ ⽐ 較
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• クオリティスコアの低いリードを除去
• クリーニング前後のリード配列をFastQCでチェック
塩
基
ク
オ
リ
テ
ィ
0
40
5ʻリード上のポジション3ʼ
T o p H a t - F u s i o n 解 析 フ ロ ー
28Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
クリーニングしたリードデータ
融合遺伝⼦候補
マップされたリード マップされなかったリード
融合遺伝⼦検出
ブレイクポイントの探索
マッピング
フィルタリング
Supporting リードの情報
29
ブ レ イ ク ポ イ ン ト の 探 索
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• マッピングされなかった
リードをセグメントに分割
↓
• 分割されたセグメントから
ブレイクポイントを探索
Kim et al., Genome Biology, 2011
30
T o p H a t - F u s i o n の 実 ⾏
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• クリーニング後のFASTQファイルから融合遺伝⼦を検出する
$ tophat -o tophat_SAMPLE -p 8 --fusion-search ¥
--keep-fasta-order --no-coverage-search ¥
--mate-std-dev 80 --max-intron-length 100000 ¥
--fusion-min-dist 100000 --fusion-anchor-length 13 ¥
--fusion-ignore-chromosomes chrM ¥
/path/to/bowtie2_index/hg19 SAMPLE_1.fastq SAMPLE_2.fastq
--keep-fasta-order = In order to sort alignments in the same order in the genome fasta file.
--no-coverage-search = Disables the coverage based search for junctions.
--mate-std-dev = The standard deviation for the distribution on inner distances between mate pairs.
--max-intron-length = The maximum intron length.
--fusion-min-dist = Minimum distance for intra-chromosomal fusions.
--fusion-anchor-length = Minimum anchor length of supporting read.
--fusion-ignore-chromosomes = Ignore some chromosomes such as chrM.
• 出⼒結果(fusion.out)では、多数の融合遺伝⼦候補が検出される
31
T o p H a t - F u s i o n の 実 ⾏ 結 果
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
# ID 細胞株 検出候補数
1 SRR064286 MCF-7 59,713
2 SRR064287 KPL-4 46,195
3 SRR064437 normal breast 34,032
4
SRR064438
BT-474
69,008
SRR064439 58,525
5
SRR064440
SK-BR-3
56,852
SRR064441 52,760
32
T o p H a t - F u s i o n の フ ィ ル タ リ ン グ
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• 出⼒結果(fusion.out)からフィルタリングを⾏う
– BLAST検索の結果をフィルタリングに⽤いるため、BLASTの
データベースをダウンロードしておく必要がある。
– フィルタリングではBowtie1とインデックスファイルを⽤意し
ておく必要がある。
$ tophat-fusion-post -p 8 --num-fusion-reads 1 ¥
--num-fusion-pairs 2 --num-fusion-both 3
/path/to/bowtie_index/hg19
--num-fusion-reads = Fusions with at least this many supporting reads.
--num-fusion-pairs = Fusions with at least this many supporting pairs.
--num-fusion-both = The sum of supporting reads and pairs.
33
フ ィ ル タ リ ン グ 結 果
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
フィルタリングにより、数個〜数⼗個の融合遺伝⼦に絞りこまれた
# ID 細胞株 検出数
1 SRR064286 MCF-7 12
2 SRR064287 KPL-4 4
3 SRR064437 normal breast 1
4
SRR064438
BT-474 34
SRR064439
5
SRR064440
SK-BR-3 21
SRR064441
他 ソ フ ト ウ ェ ア と の ⽐ 較
34Copyright	©	Amelieff Corporation	All	Rights	Reserved.
TopHat-Fusion Chimerascan
総検出数 72 335
既知融合遺伝⼦の検出数 17 21
既知融合遺伝⼦数 27
ソフトウェア 論⽂ 被引⽤数
Chimerascan
ChimeraScan: a tool for identifying chimeric
transcription in sequencing data, Bioinformatics, 2011
107
TopHat-Fusion
TopHat-Fusion: an algorithm for discovery of novel
fusion transcripts, Genome Biol, 2011
226
Chimerascanの⽅が既知融合遺伝⼦の検出数は多い
35
検 出 結 果 の ⽐ 較
Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
Sample 5' gene 5' chr 3' gene 3' chr TopHat-Fusion Chimerascan
BT-474
ACACA 17 STAC2 17 ● ●
RPS6KB1 17 SNF8 17 ● ●
VAPB 20 IKZF3 17 ● ●
ZMYND8 20 CEP250 20 ● ●
RAB22A 20 MYO9B 19 ●
SKA2 17 MYO19 17 ● ●
DIDO1 20 KIAA0406 20 ●
STARD3 17 DOK5 20 ●
LAMP1 13 MCF2L 13
GLB1 3 CMTM7 3 ● ●
CPNE1 20 PI3 20
KPL-4
BSG 19 NFIX 19 ● ●
PPP1R12A 12 10-Sep 2 ● ●
NOTCH1 9 NUP214 9 ●
MCF-7
BCAS4 20 BCAS3 17 ● ●
ARFGEF2 20 SULF2 20 ● ●
RPS6KB1 17 TMEM49 17 ●
SK-BR-3
TATDN1 8 GSDMB 17 ● ●
CSE1L 20 ENSG00000236127 20
RARA 17 PKIA 8 ● ●
ANKHD1 5 PCDH1 5 ● ●
CCDC85C 14 SETD3 14 ●
SUMF1 3 LRRFIP2 3 ● ●
WDR67 8 ZNF704 8 ●
CYTH1 17 EIF3H 8 ● ●
DHX35 20 ITCH 20 ●
NFS1 20 PREX1 20
両ソフトで検出 15
TopHat-Fusionのみ 2
Chimerascanのみ 6
両ソフトで検出なし 4
正常サンプルでの検出数
TopHat-Fusion 1
Chimerascan 27
Chimerascanの⽅が
既知融合遺伝⼦の検出
数は多いが、正常サン
プルでの検出数も多い
融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
36Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
• ChimerDB (http://biome.ewha.ac.kr:8080/FusionGene/)
– Sanger CGP, OMIM, PubMedなどの公開情報をまとめたデータ
ベース
検出した融合遺伝⼦と照合することで、既知の融合遺伝⼦の情報をア
ノテーションすることができる
ア ノ テ ー シ ョ ン 結 果
37Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
1 2 3 4 5 6 7 8 9 10 11
MCF7 BCAS4 chr20 49411707 BCAS3 chr17 59430946 7 2 9 B
SK-BR-3 TATDN1 chr8 125551265 GSDMB chr17 38066176 125 21 151 -
(1) 融合遺伝⼦が検出されたサンプル名
(2) 融合遺伝⼦の左側の遺伝⼦名
(3) 左側の遺伝⼦がある染⾊体番号
(4) 左側の遺伝⼦のポジション
(5) 融合遺伝⼦の右側の遺伝⼦名
(6) 右側の遺伝⼦がある染⾊体番号
(7) 右側の遺伝⼦のポジション
(8) ブレイクポイント上のリード数
(9) ブレイクポイントを挟むペア数
(10) ⽚側のリードが融合遺伝⼦上にあるペア数
(11)chimerDBのアノテーション(A,B,Cの信頼性クラスで⽰される)
融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介
38Copyright	©	Amelieff	Corporation	All	Rights	Reserved.
http://54.84.12.177/PanCanFusV2/
• TCGA Fusion gene
Data Portal
– がんに関連する融
合遺伝⼦の情報を
検索できるサイト
遺伝⼦別や疾患別に検索
することが可能
受 託 解 析 サ ー ビ ス : 融 合 遺 伝 ⼦ 解 析
39Copyright	©	Amelieff	Corporation	All	Rights	Reserved.

Contenu connexe

Tendances

FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
Haruka Ozaki
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
ayohe
 

Tendances (20)

ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
 
NGSを用いたジェノタイピングを様々な解析に用いるには?
NGSを用いたジェノタイピングを様々な解析に用いるには?NGSを用いたジェノタイピングを様々な解析に用いるには?
NGSを用いたジェノタイピングを様々な解析に用いるには?
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモAnaconda navigatorのアップデートが終わらないときの対処方法メモ
Anaconda navigatorのアップデートが終わらないときの対処方法メモ
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
 
MLデザインパターン入門_Embeddings
MLデザインパターン入門_EmbeddingsMLデザインパターン入門_Embeddings
MLデザインパターン入門_Embeddings
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
 

Similaire à フリーソフトではじめるNGS融合遺伝子解析入門

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Amelieff
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
Haruka Ozaki
 
qPCR_primer_construction_ver_1.0
qPCR_primer_construction_ver_1.0qPCR_primer_construction_ver_1.0
qPCR_primer_construction_ver_1.0
Satoshi Kume
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
Genaris Omics, Inc.
 

Similaire à フリーソフトではじめるNGS融合遺伝子解析入門 (13)

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)コスモバイオニュース No.122 (2016年10月)
コスモバイオニュース No.122 (2016年10月)
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
qPCR_primer_construction_ver_1.0
qPCR_primer_construction_ver_1.0qPCR_primer_construction_ver_1.0
qPCR_primer_construction_ver_1.0
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
Hormon 127.07
Hormon 127.07Hormon 127.07
Hormon 127.07
 
コスモバイオニュース No.154 (2019年6月)
コスモバイオニュース No.154 (2019年6月)コスモバイオニュース No.154 (2019年6月)
コスモバイオニュース No.154 (2019年6月)
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
RNASkim
RNASkimRNASkim
RNASkim
 

フリーソフトではじめるNGS融合遺伝子解析入門

  • 1. フ リ ー ソ フ ト で は じ め る N G S 融 合 遺 伝 ⼦ 解 析 ⼊ ⾨ 2016年5⽉27⽇ アメリエフ株式会社
  • 2. 本 ⽇ の テ ー マ 2Copyright © Amelieff Corporation All Rights Reserved. • RNA-seq解析 • 融合遺伝⼦解析
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 3 R N A - s e q と は メッセンジャーRNA(mRNA)をキャプチャして次世代 シーケンサでシーケンシングする⼿法 • リファレンスゲノムがある⽣物種の場合: – 既知遺伝⼦にマッピングする – リファレンスゲノムにマッピングして遺伝⼦構造を同定する • リファレンスゲノムがない⽣物種の場合: – アセンブリングして転写物構造を予測し、それに対してマッピングする – 近いゲノムのリファレンスゲノムにマッピングする
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. R N A - s e q 解 析 で で き る こ と • 発現量の定量・⽐較 • 新規転写物・新規スプライシングバリアントの探索 • 融合遺伝⼦の検出 4 RNA-seqがマイクロアレイと⽐較して優れている点 • 新規転写物や融合遺伝⼦が検出可 • SNV・small Indelも検出可 • プローブの設計を必要としない(⾮モデル⽣物にも対応可)
  • 5. 5 解 析 フ ロ ー ⽣の リードデータ クリーニングした リードデータ マッピング結果 ジャンクション 情報 転写物情報 発現レベル 情報 コンセンサス 転写物 グラフ画像 融合遺伝⼦ 検出 ⽐較結果 リードQC 融合遺伝⼦ 予測 視覚化 発現レベル予測 コンセンサス 転写物予測 マッピング・ 転写構造予測 転写構造・発現レベル⽐較 既知転写物と⽐較 新規転写物 候補 マッピング チェック結果 マッピングチェック・カバレージチェック 平均カバレージ チェック結果 SNP/InDel 検出結果 SNP/InDel検出 Copyright © Amelieff Corporation All Rights Reserved.
  • 6. 上記はほんの⼀部 ⽇々、多くのソフトが公開されている Copyright © Amelieff Corporation. All Rights Reserved. 6 R N A - S e q 解 析 ソ フ ト QC • cutadapt • FastQC • FastX-toolkit • HTseq • prinseq : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント • bowtie • bwa • SOAP • STAR • Tophat : 発現定量/⽐較 • Cufflinks • DESeq • DEGSeq • EdgeR • ERANGE : 融合遺伝⼦検出 • BreakDancer • FusionCatcher • SOAPfusion • deFuse • Tophat-Fusion : ※Rなど、WindowsやMacでも動くものもある
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. 7 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多⼈数で同時に利⽤し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、⼀般⼈の⼿の届かない存在となったため、Linus⽒がUNIXを 参考にして、PCで動く独⾃OSを開発 Linux ⼤多数の解析ツールを使⽤することができる 新しいツールが出た時、すぐ⾃分で試せる 次世代シーケンシンスデータのように、⼤ きなデータは、Excel等で⾒る事が難しい ⾃分の思い通りにデータの可視化や加⼯ができる バイオインフォマティクスで使⽤する解析ツールの 多くは、Linux⽤に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝⼦に当たるの か確認したい」という時、同じ作業を何度も繰り返す事は、難しい 繰り返し作業を⾃動化する事ができる ⼤量データの扱い 繰り返し操作の簡易化 解析ツールの問題
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商⽤)、CentOS(無償)など ⾒た⽬やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新⽅針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使⽤
  • 9. Copyright © Amelieff Corporation All Rights Reserved. 9 ⽣データ → クオリティコントロール → マッピング→発現定量 R N A - s e q 解 析 : ク オ リ テ ィ コ ン ト ロ ー ル サンプルや調整⽅法、シーケンサの特徴にあわせて クリーニング項⽬や条件を⼯夫しています。 塩 基 ク オ リ テ ィ 0 40 5ʻリード上のポジション3ʼ
  • 10. Copyright © Amelieff Corporation All Rights Reserved. 10 ⽣データ → クオリティコントロール → マッピング→発現定量 • TopHatの使い方を確認 $ tophat R N A - s e q 解 析 : マ ッ ピ ン グ スプライシングを考慮して、マッピングするため、 既知の遺伝⼦情報を使⽤することもできます。
  • 11. Copyright © Amelieff Corporation All Rights Reserved. 11 ⽣データ → クオリティコントロール → マッピング→発現定量 • マッピング $ tophat -o SMAPLE -g 3 –G /path/to/genes.gtf ¥ /path/to/Bowtie2Index/genome SAMPLE_clean_1.fastq ¥ SAMPLE_clean_2.fastq $ ls SAMPLE R N A - s e q 解 析 : マ ッ ピ ン グ BAMとインデックス、 BEDなどが作成されます。
  • 12. Copyright © Amelieff Corporation. All Rights Reserved. 12 ポ イ ン ト ) T o p H a t の ア ル ゴ リ ズ ム 1. リードをペアエンドでリファレンスに マッピングする。 2. マッピングできなかったリードを断 片化して、リファレンスにマッピング する。 3. マッピング結果をもとに、転写構造 をアセンブリングする。 http://www.ncbi.nlm.nih.gov/pubmed/19289445http://en.wikipedia.org/wiki/File:RNA-seq-alignment.png
  • 13. Copyright © Amelieff Corporation All Rights Reserved. 13 • Cufflinksの使い⽅を確認 R N A - s e q 解 析 : 発 現 定 量 $ cufflinks アセンブルのガイドとして既知の遺伝⼦情報を 使⽤することもできます。 ⽣データ → クオリティコントロール → マッピング→発現定量
  • 14. Copyright © Amelieff Corporation All Rights Reserved. 14 • 発現量を計算 R N A - s e q 解 析 : 発 現 定 量 $ cufflinks -o SAMPLE SAMPL/accepted_hits.bam ¥ –g /path/to/genes.gtf –M /path/to/mask.gtf $ ll –h SAMPLE fpkm_trackingファイル が作成されます。 ⽣データ → クオリティコントロール → マッピング→発現定量
  • 15. Copyright © Amelieff Corporation All Rights Reserved. 15 R N A - s e q 解 析 : 発 現 定 量 $ less SAMPL/genes.fpkm_tracking 4列⽬がGene ID、 10列⽬がFPKMです。 ⽣データ → クオリティコントロール → マッピング→発現定量 • 発現量を計算
  • 16. Copyright © Amelieff Corporation All Rights Reserved. 16 ⻑い遺伝⼦ほど、マップされるリードは多くなる(遺伝⼦間のバイアス) サンプル量の多いランほど、マップされるリードは多くなる(ラン間のバイアス) ・発現量としてよく使われる指標 RPKM(Reads Per Kilobase per Million mapped reads) FPKM(Fragments Per Kilobase of exon per Million mapped fragments) どちらも、発現量をエクソン⻑と全マッピング数で補正した値 FPKM = raw counts× 1,000,000 all reads × 1,000 gene length ポ イ ン ト ) 発 現 量 遺伝⼦の発現量 ≠ 遺伝⼦上にマップされたリード数 これらのバイアスを補正してから発現量を⽐較する必要があります
  • 17. 17 解 析 フ ロ ー ⽣の リードデータ クリーニングした リードデータ マッピング結果 ジャンクション 情報 転写物情報 発現レベル 情報 コンセンサス 転写物 グラフ画像 融合遺伝⼦ 検出 ⽐較結果 リードQC 融合遺伝⼦ 予測 視覚化 発現レベル予測 コンセンサス 転写物予測 マッピング・ 転写構造予測 転写構造・発現レベル⽐較 既知転写物と⽐較 新規転写物 候補 マッピング チェック結果 マッピングチェック・カバレージチェック 平均カバレージ チェック結果 SNP/InDel 検出結果 SNP/InDel検出 Copyright © Amelieff Corporation All Rights Reserved.
  • 18. 本 ⽇ の テ ー マ • RNA-seq解析 • 融合遺伝⼦解析 18Copyright © Amelieff Corporation All Rights Reserved.
  • 19. 融 合 遺 伝 ⼦ と は • 染⾊体の挿⼊・逆位・転座などの組換えの結果、2つの遺伝⼦が 融合して⽣じる遺伝⼦ • がんなどにおけるゲノム・遺伝⼦異常の⼀種 19Copyright © Amelieff Corporation All Rights Reserved. exon exon exon Gene A exon exon exon Gene B exon exon exon exon join Fusion Gene
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 • 腫瘍のドライバーとなったり、分⼦標的治療のターゲットとなる など、がんなどの疾患との関連が注⽬されている – ヒト21番染⾊体上のTMPRESS2遺伝⼦とERG遺伝⼦から⽣じる融合 遺伝⼦TMPRESS2-ERGは、前⽴腺がんとの関連が報告されている Tomlins SA et al., Recurrent fusion of TMPRSS2 and ETS transcription factor genes in prostate cancer. Science. 2005;310(5748):644–8. – RET-ROS1融合遺伝⼦は肺腺がんの分⼦標的治療のターゲットである Takeuchi K, Soda M, Togashi Y, et al. RET, ROS1 and ALK fusions in lung cancer. Nat Med 2012;18:378-81. 融 合 遺 伝 ⼦ と は
  • 21. 融 合 遺 伝 ⼦ 関 連 論 ⽂ 21Copyright © Amelieff Corporation All Rights Reserved. ⽪膚ガンの原因遺伝⼦を特定 AYA世代の⽩⾎病で複数の新規の融合癌遺伝⼦を同定 Cancer Res. 2015 Nov 1;75(21):4458-65. Nat Genet. 2016 May;48(5):569-74. 近年、NGSを⽤いた融合遺伝⼦の研究が盛んに⾏われている
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ChimeraScan FusionSeq TopHat-Fusion deFuse SOAP-Fusion PRADA FusionMap STAR-Fusion : ⽇々、多くのソフトが公開されているが golden standardと呼べるものはまだない ソフトウェア 論⽂ 被引⽤数 Chimerascan ChimeraScan: a tool for identifying chimeric transcription in sequencing data, Bioinformatics, 2011 107 deFuse deFuse: an algorithm for gene fusion discovery in tumor RNA-Seq data, PLoS Comput Biol, 2011 215 TopHat-Fusion TopHat-Fusion: an algorithm for discovery of novel fusion transcripts, Genome Biol, 2011 226 融 合 遺 伝 ⼦ 検 出 ソ フ ト
  • 23. 公 開 デ ー タ を ⽤ い た 検 証 本論⽂のデータを⽤いて融合遺伝⼦の検出を、TopHat- FusionおよびChimerascanで検証した 23Copyright © Amelieff Corporation All Rights Reserved.
  • 24. 検 証 に ⽤ い た 公 開 デ ー タ • サンプル:ヒト乳がんの細胞株5種類 • シーケンシング:Illumina Genome Analyzer IIx, paired-end 24Copyright © Amelieff Corporation All Rights Reserved. # ID 細胞株 リード⻑ リード数 1 SRR064286 MCF-7 50bp 12,805,674 2 SRR064287 KPL-4 50bp 10,199,593 3 SRR064437 normal breast 56bp 11,134,621 4 SRR064438 BT-474 50bp 27,030,264 SRR064439 50bp 15,830,764 5 SRR064440 SK-BR-3 50bp 18,096,704 SRR064441 50bp 18,194,304 Edgren et al., Genome Biology, 2011
  • 25. 25 検 証 の 対 象 と し た 融 合 遺 伝 ⼦ Copyright © Amelieff Corporation All Rights Reserved. 27個の 融合遺伝⼦ Edgren et al., Genome Biology, 2011
  • 26. 融 合 遺 伝 ⼦ 解 析 の 流 れ 26Copyright © Amelieff Corporation All Rights Reserved. ⽣の リードデータ クリーニングした リードデータ 融合遺伝⼦候補 リードQC 融合遺伝⼦検出 マッピング フィルタリング
  • 27. 27 ク リ ー ニ ン グ 前 後 の ク オ リ テ ィ ⽐ 較 Copyright © Amelieff Corporation All Rights Reserved. • クオリティスコアの低いリードを除去 • クリーニング前後のリード配列をFastQCでチェック 塩 基 ク オ リ テ ィ 0 40 5ʻリード上のポジション3ʼ
  • 28. T o p H a t - F u s i o n 解 析 フ ロ ー 28Copyright © Amelieff Corporation All Rights Reserved. クリーニングしたリードデータ 融合遺伝⼦候補 マップされたリード マップされなかったリード 融合遺伝⼦検出 ブレイクポイントの探索 マッピング フィルタリング Supporting リードの情報
  • 29. 29 ブ レ イ ク ポ イ ン ト の 探 索 Copyright © Amelieff Corporation All Rights Reserved. • マッピングされなかった リードをセグメントに分割 ↓ • 分割されたセグメントから ブレイクポイントを探索 Kim et al., Genome Biology, 2011
  • 30. 30 T o p H a t - F u s i o n の 実 ⾏ Copyright © Amelieff Corporation All Rights Reserved. • クリーニング後のFASTQファイルから融合遺伝⼦を検出する $ tophat -o tophat_SAMPLE -p 8 --fusion-search ¥ --keep-fasta-order --no-coverage-search ¥ --mate-std-dev 80 --max-intron-length 100000 ¥ --fusion-min-dist 100000 --fusion-anchor-length 13 ¥ --fusion-ignore-chromosomes chrM ¥ /path/to/bowtie2_index/hg19 SAMPLE_1.fastq SAMPLE_2.fastq --keep-fasta-order = In order to sort alignments in the same order in the genome fasta file. --no-coverage-search = Disables the coverage based search for junctions. --mate-std-dev = The standard deviation for the distribution on inner distances between mate pairs. --max-intron-length = The maximum intron length. --fusion-min-dist = Minimum distance for intra-chromosomal fusions. --fusion-anchor-length = Minimum anchor length of supporting read. --fusion-ignore-chromosomes = Ignore some chromosomes such as chrM.
  • 31. • 出⼒結果(fusion.out)では、多数の融合遺伝⼦候補が検出される 31 T o p H a t - F u s i o n の 実 ⾏ 結 果 Copyright © Amelieff Corporation All Rights Reserved. # ID 細胞株 検出候補数 1 SRR064286 MCF-7 59,713 2 SRR064287 KPL-4 46,195 3 SRR064437 normal breast 34,032 4 SRR064438 BT-474 69,008 SRR064439 58,525 5 SRR064440 SK-BR-3 56,852 SRR064441 52,760
  • 32. 32 T o p H a t - F u s i o n の フ ィ ル タ リ ン グ Copyright © Amelieff Corporation All Rights Reserved. • 出⼒結果(fusion.out)からフィルタリングを⾏う – BLAST検索の結果をフィルタリングに⽤いるため、BLASTの データベースをダウンロードしておく必要がある。 – フィルタリングではBowtie1とインデックスファイルを⽤意し ておく必要がある。 $ tophat-fusion-post -p 8 --num-fusion-reads 1 ¥ --num-fusion-pairs 2 --num-fusion-both 3 /path/to/bowtie_index/hg19 --num-fusion-reads = Fusions with at least this many supporting reads. --num-fusion-pairs = Fusions with at least this many supporting pairs. --num-fusion-both = The sum of supporting reads and pairs.
  • 33. 33 フ ィ ル タ リ ン グ 結 果 Copyright © Amelieff Corporation All Rights Reserved. フィルタリングにより、数個〜数⼗個の融合遺伝⼦に絞りこまれた # ID 細胞株 検出数 1 SRR064286 MCF-7 12 2 SRR064287 KPL-4 4 3 SRR064437 normal breast 1 4 SRR064438 BT-474 34 SRR064439 5 SRR064440 SK-BR-3 21 SRR064441
  • 34. 他 ソ フ ト ウ ェ ア と の ⽐ 較 34Copyright © Amelieff Corporation All Rights Reserved. TopHat-Fusion Chimerascan 総検出数 72 335 既知融合遺伝⼦の検出数 17 21 既知融合遺伝⼦数 27 ソフトウェア 論⽂ 被引⽤数 Chimerascan ChimeraScan: a tool for identifying chimeric transcription in sequencing data, Bioinformatics, 2011 107 TopHat-Fusion TopHat-Fusion: an algorithm for discovery of novel fusion transcripts, Genome Biol, 2011 226 Chimerascanの⽅が既知融合遺伝⼦の検出数は多い
  • 35. 35 検 出 結 果 の ⽐ 較 Copyright © Amelieff Corporation All Rights Reserved. Sample 5' gene 5' chr 3' gene 3' chr TopHat-Fusion Chimerascan BT-474 ACACA 17 STAC2 17 ● ● RPS6KB1 17 SNF8 17 ● ● VAPB 20 IKZF3 17 ● ● ZMYND8 20 CEP250 20 ● ● RAB22A 20 MYO9B 19 ● SKA2 17 MYO19 17 ● ● DIDO1 20 KIAA0406 20 ● STARD3 17 DOK5 20 ● LAMP1 13 MCF2L 13 GLB1 3 CMTM7 3 ● ● CPNE1 20 PI3 20 KPL-4 BSG 19 NFIX 19 ● ● PPP1R12A 12 10-Sep 2 ● ● NOTCH1 9 NUP214 9 ● MCF-7 BCAS4 20 BCAS3 17 ● ● ARFGEF2 20 SULF2 20 ● ● RPS6KB1 17 TMEM49 17 ● SK-BR-3 TATDN1 8 GSDMB 17 ● ● CSE1L 20 ENSG00000236127 20 RARA 17 PKIA 8 ● ● ANKHD1 5 PCDH1 5 ● ● CCDC85C 14 SETD3 14 ● SUMF1 3 LRRFIP2 3 ● ● WDR67 8 ZNF704 8 ● CYTH1 17 EIF3H 8 ● ● DHX35 20 ITCH 20 ● NFS1 20 PREX1 20 両ソフトで検出 15 TopHat-Fusionのみ 2 Chimerascanのみ 6 両ソフトで検出なし 4 正常サンプルでの検出数 TopHat-Fusion 1 Chimerascan 27 Chimerascanの⽅が 既知融合遺伝⼦の検出 数は多いが、正常サン プルでの検出数も多い
  • 36. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介 36Copyright © Amelieff Corporation All Rights Reserved. • ChimerDB (http://biome.ewha.ac.kr:8080/FusionGene/) – Sanger CGP, OMIM, PubMedなどの公開情報をまとめたデータ ベース 検出した融合遺伝⼦と照合することで、既知の融合遺伝⼦の情報をア ノテーションすることができる
  • 37. ア ノ テ ー シ ョ ン 結 果 37Copyright © Amelieff Corporation All Rights Reserved. 1 2 3 4 5 6 7 8 9 10 11 MCF7 BCAS4 chr20 49411707 BCAS3 chr17 59430946 7 2 9 B SK-BR-3 TATDN1 chr8 125551265 GSDMB chr17 38066176 125 21 151 - (1) 融合遺伝⼦が検出されたサンプル名 (2) 融合遺伝⼦の左側の遺伝⼦名 (3) 左側の遺伝⼦がある染⾊体番号 (4) 左側の遺伝⼦のポジション (5) 融合遺伝⼦の右側の遺伝⼦名 (6) 右側の遺伝⼦がある染⾊体番号 (7) 右側の遺伝⼦のポジション (8) ブレイクポイント上のリード数 (9) ブレイクポイントを挟むペア数 (10) ⽚側のリードが融合遺伝⼦上にあるペア数 (11)chimerDBのアノテーション(A,B,Cの信頼性クラスで⽰される)
  • 38. 融 合 遺 伝 ⼦ の デ ー タ ベ ー ス の 紹 介 38Copyright © Amelieff Corporation All Rights Reserved. http://54.84.12.177/PanCanFusV2/ • TCGA Fusion gene Data Portal – がんに関連する融 合遺伝⼦の情報を 検索できるサイト 遺伝⼦別や疾患別に検索 することが可能
  • 39. 受 託 解 析 サ ー ビ ス : 融 合 遺 伝 ⼦ 解 析 39Copyright © Amelieff Corporation All Rights Reserved.