資料科學於預防醫學之應用4. Outline
• 染色體晶片分析簡介
• 染色體、基因及拷貝數變異簡介
• 晶片探針設計
• 佈放探針至晶片
• 晶片資料分析
• 染色體晶片科學證據和國際趨勢
• CytoOneArray
6. 染色體晶片分析簡介 (1/2)
正常人的DNA
(參照樣本)
羊水中的胎兒DNA或新生兒血液DNA
(受檢樣本)
幫兩類樣本標定不同
色的螢光訊號
探針 – ATTACGCATA
樣本DNA – TAATGCGTAT
探針: 短DNA序列
代表疾病區域
雜交
受檢樣本和正常樣本相比
出現異常訊號
(2).檢測實驗 (比較性基因體)
晶片
(1). 晶片探針設計
(3). 數據分析
7. 染色體晶片分析簡介 (2/2)
Gain or Loss是拷貝數變異(Copy number variation, CNV)
每個探針訊號的測量: Log2(T/R)
T: 測量出的DNA拷貝數(copy number)
R=2 for humans (diploid organisms)
受檢樣本
參照樣本
Gain
Loss
8. 染色體簡介
1個DNA鹼基對
為A-T or G-C核苷酸組成
正股– ATTACGCATA
反股– TAATGCGTAT
核苷酸為DNA的一個基本
單位依據核苷酸所含鹼基
的不同 可分成四類(ATGC)
人類基因體含有約30億個DNA鹼基對!!!
極小空間儲存極大資料!!!
23對染色體
多一條21號染色體???
9. 拷貝數變異(Copy number variation, CNV)
紅色區域代表病人和正常人相比多的拷貝數數目(gain)
綠色區域代表病人和正常人相比少的拷貝數數目(loss)
問題:
1. 怎麼知道我想檢測的疾病,有哪些
染色體區域有問題?
2. 如果我想同時檢測數種疾病(染色
體區域) ,有什麼有效率的方法?
傳統的色帶分析法:顯微鏡觀察判讀(肉眼) = 低解析度
染色體晶片檢測:使用電腦軟體分析數據 = 高解析度
10. 晶片探針設計 (1/2)
疾病名稱
染色體 變異區域
先天性腎上腺發育不良症
1 14984XXXX-14994XXXX
腎上腺腦白質失養症
3 14298XXXX-14356XXXX
布魯頓氏低免疫球蛋白血症
3 18139XXXX-18146XXXX
阿拉吉歐症候群
4 481XXXX-491XXXX
白化症 第2型
11 197XXXX-207XXXX
甲型海洋性貧血併智力遲緩
症
11 286XXXX-295XXXX
亞伯氏症候群
11 7031XXXX-7093XXXX
家族性阿茲海默症
13 2081XXXX-2101XXXX
雄性激素不敏感症候群
13 10058XXXX-10068XXXX
天使症候群;Angelman氏症
候群
14 10118XXXX-10136XXXX
無虹膜症
16 118XXXX-128XXXX
X性聯遺傳亞斯伯格症候群
17 2015XXXX-2297XXXX
自閉症 (A2BP1 基因缺陷)
20 5038XXXX-5140XXXX
自閉症 (ANKRD11 基因缺陷)
22 2409XXXX-2420XXXX
共有數百個因染色體變異造成的發育遲
緩和智能障礙疾病
chr11:
7031XXXX-7093XXXX
TCACCAGAAGCCTTTCCCTGCTCCCACGGGCCACTGCGCTTGGCCCTTTTA
TTTTGTTTTATTTGTTTGTTTTTTTAAGTTAGTGCTAACTGCCAGCAAGTG
GATGCCTTTTGTGTTTGCTGTCACACAGGATGGAGCCACCAAATATCCCAG
TGTCTGAGGTGGATCTCAAACCAAGAAGTGTGACTTATCTCATGCACCAGA
GAAGTTCCTCAAGAAAAGAAGCATGTCATTAGTAATTGCTGCATTGCACAT
TTGGAGAGGAAATAGCATTCTCCAGCCAACAGGCCTGGTGTGCTTTGCTTC
CTGCTGTCTCTTCTACATCTAAAATGATGCTTCGTACATAGCATGGCACAA
GTTGGCACTCAATAAAGGCTTCTTGCATGGAAGAAGGATAAACACCCTGAC
ACACCAATTATGGCATCAGTGTGGGTCCCACCATCTCCCATCTGCTTTGCT
AGACATCCCCCTTTCAAACTCCACACCCTCTTCTCAACCCCACTACTACAC
AGGGTACAAGAGAAGACCAAGGAGGCCGGGCGCGGTGGCTCACACCTCTAA
TCCTGACACTTTGGGAGGCCGAGGTGGGCGGATCACTTGAGGTCAGGCATT
CGAGATCAGCCTGGCCAACATGGTGAAACCCCATCTCTACTAAAAAACAAA
AATACAAAAATATATTAAAATCACCCGGGCACGGCCGGGCGCAGTGGCTCA
CGCCTGTAATCCCAGCACTTTGGGAGGCCAATGCGGGCAGATCACGGGTCA
GGAGTTCGAGACCAGCCTGGCCAACATAGTGAAATCCTGTCTCTACTAAAA
ATACAAAAACTTAGCCACGCATGGTGGCAGGCACTGGTAATCTCAGCTACT
CAGGAGGTTAAGGCAGGAGAATTGCTTGAACCCGGGAGGCGGAGGTTGCAG
TGAGCCGAGATCATGCCATTGCACTCTAGCCCAGGCAACAGTGCGAGACTC
此區域共有~600,000個鹼基(示意圖)
遺傳疾病資料庫(示意表)
怎麼建立遺傳疾病資料庫?
11. 晶片探針設計 (2/2)
chr11: 7031XXXX-7093XXXX
TCACCAGAAGCCTTTCCCTGCTCCCACGGGCCACTGCGCTTGGCCCTTTTA
TTTTGTTTTATTTGTTTGTTTTTTTAAGTTAGTGCTAACTGCCAGCAAGTG
GATGCCTTTTGTGTTTGCTGTCACACAGGATGGAGCCACCAAATATCCCAG
TGTCTGAGGTGGATCTCAAACCAAGAAGTGTGACTTATCTCATGCACCAGA
GAAGTTCCTCAAGAAAAGAAGCATGTCATTAGTAATTGCTGCATTGCACAT
TTGGAGAGGAAATAGCATTCTCCAGCCAACAGGCCTGGTGTGCTTTGCTTC
CTGCTGTCTCTTCTACATCTAAAATGATGCTTCGTACATAGCATGGCACAA
GTTGGCACTCAATAAAGGCTTCTTGCATGGAAGAAGGATAAACACCCTGAC
ACACCAATTATGGCATCAGTGTGGGTCCCACCATCTCCCATCTGCTTTGCT
AGACATCCCCCTTTCAAACTCCACACCCTCTTCTCAACCCCACTACTACAC
AGGGTACAAGAGAAGACCAAGGAGGCCGGGCGCGGTGGCTCACACCTCTAA
TCCTGACACTTTGGGAGGCCGAGGTGGGCGGATCACTTGAGGTCAGGCATT
CGAGATCAGCCTGGCCAACATGGTGAAACCCCATCTCTACTAAAAAACAAA
AATACAAAAATATATTAAAATCACCCGGGCACGGCCGGGCGCAGTGGCTCA
CGCCTGTAATCCCAGCACTTTGGGAGGCCAATGCGGGCAGATCACGGGTCA
GGAGTTCGAGACCAGCCTGGCCAACATAGTGAAATCCTGTCTCTACTAAAA
ATACAAAAACTTAGCCACGCATGGTGGCAGGCACTGGTAATCTCAGCTACT
CAGGAGGTTAAGGCAGGAGAATTGCTTGAACCCGGGAGGCGGAGGTTGCAG
TGAGCCGAGATCATGCCATTGCACTCTAGCCCAGGCAACAGTGCGAGACTC
此區域共有~600,000個鹼基(示意圖)
如何設計探針?
1. 此區間挑選10個探針
2. 考慮DNA雜交時之熱力學 (最小自由能)
3. 探針需有高度專一性
chr11: 7031XXXX-7093XXXX
TCACCAGAAGCCTTTCCCTGCTCCCACGGGCCACTGCGCTTGGCCCTTTTA
TTTTGTTTTATTTGTTTGTTTTTTTAAGTTAGTGCTAACTGCCAGCAAGTG
GATGCCTTTTGTGTTTGCTGTCACACAGGATGGAGCCACCAAATATCCCAG
TGTCTGAGGTGGATCTCAAACCAAGAAGTGTGACTTATCTCATGCACCAGA
GAAGTTCCTCAAGAAAAGAAGCATGTCATTAGTAATTGCTGCATTGCACAT
TTGGAGAGGAAATAGCATTCTCCAGCCAACAGGCCTGGTGTGCTTTGCTTC
CTGCTGTCTCTTCTACATCTAAAATGATGCTTCGTACATAGCATGGCACAA
GTTGGCACTCAATAAAGGCTTCTTGCATGGAAGAAGGATAAACACCCTGAC
ACACCAATTATGGCATCAGTGTGGGTCCCACCATCTCCCATCTGCTTTGCT
AGACATCCCCCTTTCAAACTCCACACCCTCTTCTCAACCCCACTACTACAC
AGGGTACAAGAGAAGACCAAGGAGGCCGGGCGCGGTGGCTCACACCTCTAA
TCCTGACACTTTGGGAGGCCGAGGTGGGCGGATCACTTGAGGTCAGGCATT
CGAGATCAGCCTGGCCAACATGGTGAAACCCCATCTCTACTAAAAAACAAA
AATACAAAAATATATTAAAATCACCCGGGCACGGCCGGGCGCAGTGGCTCA
CGCCTGTAATCCCAGCACTTTGGGAGGCCAATGCGGGCAGATCACGGGTCA
GGAGTTCGAGACCAGCCTGGCCAACATAGTGAAATCCTGTCTCTACTAAAA
ATACAAAAACTTAGCCACGCATGGTGGCAGGCACTGGTAATCTCAGCTACT
CAGGAGGTTAAGGCAGGAGAATTGCTTGAACCCGGGAGGCGGAGGTTGCAG
TGAGCCGAGATCATGCCATTGCACTCTAGCCCAGGCAACAGTGCGAGACTC
紅色區域即為探針(Probes),探針組合
可想像為特定疾病區域的fingerprints,
用這些探針代表疾病區域
12. 探針專一性評估
探針序列與基因組序列比對
不希望探針比對到基因組一個區域以上
一個探針為60個AGCT的組成 ( 60-mer )
左圖為示意圖 (13-mer)
基因組有30億個鹼基對
需將基因組變成具Index的資料庫
探針(短序列)再和資料庫進行比對
基因組序列
探針序列
1. 將數百萬筆探針(短序列)和23條染色體(超長序列)比對後,會產生數千萬
筆的比對結果
2. 從中挑出專一性最高的數萬筆的探針,佈放至染色體晶片上
14. 染色體晶片資料分析流程
正規化 (Normalization)
異常訊號偵測演算法
視覺化
目的: 修正非生物性因素造成的系統偏差:Cy3/
Cy5螢光性質的不同
目的: 由訊號中找出Normal、Gain 或Loss的區域
目的: 顯示正常區域及異常區域的訊號分佈及區域
疾病區域註解
目的: 比對斷點區間位置和疾病區間位置,以判斷
出可能疾病
15. 正規化 (Normalization)
LOWESS (LOcally WEighted Scatterplot Smoothing) regression
Same
data
set
normalized
by:
Mnorm
=
M-‐c(A)
where
c(A)
is
an
intensity
dependent
funcon
esmated
by
local
regression
Rao
–
Intensity
(M-‐A)
plot
of
raw
data:
M
=
log2(R/G)
;
A
=
(log2(R)
+
log2(G))
/
2
17. 異常訊號偵測相關演算法
• Circular Binary Segmentation (CBS)
• HMMs
• Bayesian HMMs
• Kalman Filters
• Wavelet decompositions
• Quantile regression
• EM and edge filtering
• Lasso…….
CBS
as
the
best
operaonal
characteriscs
in
terms
of
its
sensivity
and
FDR
for
breakpoint
detecon.
Lai,W.R.
et
al.
(2005)
Bioinformacs,
21,
3763–3770.
17
18. CBS (circular binary segmentation)演算法 (1/2)
Recursive change point algorithm: the change-points are the
genomic locations of copy number transitions
• H0: there is no change-point, H1: there
are change-points locating at i and j
1,2,3, ….,i-1, i, i+1,…,j-1,j, j+1,...n
1. Form the sequence of intensities
(Log ratio) into a circle by joining
the first and last probes
2. For all possible ways of dividing
up the circle into complimentary
arcs, compute the t-test statistic
for a difference in means
between the two arcs
Olshen et al. Biostatistics. 2004 Oct;5(4):557-72. Bioinformatics. 15;23(6):657-63. 2007
19. CBS (circular binary segmentation)演算法 (2/2)
3. If the maximum of these test statistics exceeds its null
distribution critical value, segment the circle there
4. Repeat recursively for the segmented arcs until no more
significant segments can be found
21. 累積樣本數據協助結果判斷
1號染色體(kb) 25,350
基因組區域
探針區域
樣本1
樣本2
樣本3
樣本4
樣本5
樣本6
樣本7
樣本8
樣本9
25,370
25,390
Bailey
et
al.
Cytogenet
Genome
Res
2008
22. 22
染色體晶片科學證據和國際趨勢
ü 2010 American Journal of Human Genetics推薦染色體晶片為第一線的兒
童 DD/ID 診斷工具,取代 Karyotyping
ü 2012 新英格蘭醫學雜誌論文推薦染色體晶片作為產前胎兒的遺傳疾病檢
測
ü 以色列將產前胎兒染色體晶片檢測列為健保給付項目
ü 美國已有數家保險公司將產前產後的染色體晶片檢測列為給付項目
ü 2013美國婦產科醫師學會 (ACOG) 與母胎醫學學會 (SMFM) 更進一步正
式建議:
使用染色體晶片作為產前超音波異常時的第一線胎兒檢測工具,並建議孕婦
進行染色體晶片檢測的年齡不應限制在 35 歲以上
29. Acknowledgement
科技顧問: 蕭廣仁博士
台北榮民總醫院 教學研究部 特約研究員
預防醫學基金會 執行長
台北市立聯合醫院 教學研究部 顧問
科技顧問: 陳燕彰醫師
仁愛院區小兒科主治醫師
陽明大學臨床醫學研究所生命科學系副教授
台北榮總兒童醫學部臨床研究員
研發團隊