4. Что мы узнали
• Редакционное расстояние
• Глобальное и локальное выравнивание
• Аффинная модель вставки
• Всё за O(N )2
• Множественное выравнивание
• Геномные перестройки
воскресенье, 7 октября 12 г.
5. Что мы узнали
• Поиск подстроки в строке
• Таблица К-меров
• Суффиксное дерево, массив
• BLAST
воскресенье, 7 октября 12 г.
6. Графы
Николай Вяххи
vyahhi@bioinf.spbau.ru
Computer Science клуб
Екатеринбург, 2012
воскресенье, 7 октября 12 г.
15. Секвенирование
Видовое секвенирование:
определить «общий геном» вида.
Индивидуальное
секвенирование:
определить, насколько индивидуум
отличается от вида.
воскресенье, 7 октября 12 г.
16. Зачем?
Видовое cеквенирование:
• Сравнить различные виды (например, человек
и шимпанзе)
• Понять, как функционируют гены (например,
какие гены важны для развития головного
мозга).
• Выявить эволюционное родство между
видами.
• Определить генетический состав предков.
воскресенье, 7 октября 12 г.
17. Зачем?
Индивидуальное секвенирование:
• Открытие генетической основы заболеваний.
• Судебные исследования.
воскресенье, 7 октября 12 г.
18. Краткая история
Конец 1970-х: Уолтер Гилберт и Фредерик
Сэнгер развивают независимые методы
секвенирования.
1980: Они получают Нобелевскую премию
по химии.
Их методы выявления последовательности
слишком дороги для больших геномов.
воскресенье, 7 октября 12 г.
19. Краткая история
1990: Общественный проект «Человеческий
геном», возглавляемый Фрэнсисом
Коллинзом, задаётся целью расшифровать
человеческий геном.
1997: Крейг Вентер создаёт частную
компанию «Celera Genomics» с той же
целью.
воскресенье, 7 октября 12 г.
20. Краткая история
2000: Черновой вариант человеческого генома
одновременно завершён (общественным)
проектом «Человеческий геном» и (частной)
компанией Celera Genomics.
воскресенье, 7 октября 12 г.
22. Персональная геномка
2000-е: Компании запускают проекты с целью на
порядок уменьшить затраты на секвенирование.
2010: Рождается рынок приборов, секвенирующих геном:
• Illumina уменьшает стоимость секвенирования индивидуального
человеческого генома с 3 миллиардов долларов до 10 тысяч.
• Complete Genomics строит в Кремниевой долине
предприятие по секвенированию с производительностью сотни
геномов в месяц.
• Beijing Genomic Institute заказывает сотни секвенирующих
машин, становясь крупнейшим секвенирующим центром в мире.
• 23andMe предлагает частичное чтение последовательности
генома за 499 долларов (1M позиций).
воскресенье, 7 октября 12 г.
23. Будущее
Секвенирование человеческого генома за 1000 долларов
может стать реальностью уже в 2013-14 году.
Cеквенирование индивидуального генома вскоре станет
таким же рутинным делом, как рентгеновский снимок.
воскресенье, 7 октября 12 г.
24. Объемы данных
Beijing Genomics Institute, based in China, is the
world’s largest genomics research institute, with 167
DNA sequencers producing the equivalent of 2,000
human genomes a day.
BGI churns out so much data that it often cannot
transmit its results to clients or collaborators over the
Internet or other communications lines because that
would take weeks. Instead, it sends computer disks
containing the data, via FedEx.
The New York Times, 30 Nov 2011
воскресенье, 7 октября 12 г.
25. Объемы данных
2124 секвенирующих машин в
764 центрах (omicsmaps.com):
• 621, Illumina HiSeq 2000
• 532, Illumina Genome Analyser 2x
• 348, ABI SOLiD
• 320, Roche 454
• 167, Ion Torrent
• 76, Illumina MiSeq
• 39, Pacific Biosciences
воскресенье, 7 октября 12 г.
26. Illumina
HiSeq 2000/2500:
600Gb / 11 days
HiSeq 2500:
120Gb / 27 h
воскресенье, 7 октября 12 г.
27. Объемы данных
621 Illumina HiSeq 2000
= 33.8 Tb / day = 12 Pb / year
Лучшее хранилище ДНК — холодильник.
воскресенье, 7 октября 12 г.
29. 1000genomes.org
> 2500 геномов людей было прочитано
249 TB сжатых данных (FASTQs, BAMs,VCFs)
ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes
29 Oct 2009 (pilot):
• 24581 CPU-days = 67 CPU-years
• Full production project is >10 times
more data than the pilot.
воскресенье, 7 октября 12 г.
31. Секвенирование
Чтение фрагментов
(лабораторная):
Считать множество
фрагментов из многих копий
одного генома.
Сборка фрагментов
(вычислительная):
Собрать геном из этих ридов
с помощью алгоритмов.
воскресенье, 7 октября 12 г.
61. Масс-спектрометрия
H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH
Ri-1 Ri Ri+1
N-terminus C-terminus
AA residuei-1 AA residuei AA residuei+1
воскресенье, 7 октября 12 г.
73. По базе данных
..., MDERHILNM, KLQWVCSDL, PTYWASDL,
ENQIKRSACVM, TLACHGGEM, NGALPQWRT,
HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF,
GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...
воскресенье, 7 октября 12 г.
74. По базе данных
..., MDERHILNM, KLQWVCSDL, PTYWASDL,
ENQIKRSACVM, TLACHGGEM, NGALPQWRT,
HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF,
GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...
воскресенье, 7 октября 12 г.
75. Похожие спектры
Shared peaks count (SPC) — количество
общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = (S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
76. Spectral Convolution
Shared peaks count (SPC) — количество
общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = ?(S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
77. Spectral Convolution
Shared peaks count (SPC) — количество
общих пиков.
S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
(S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
SPC = (S1 ⊕ S2)(0)
воскресенье, 7 октября 12 г.
78. Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
воскресенье, 7 октября 12 г.
79. Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
воскресенье, 7 октября 12 г.
80. Сдвиги
S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
(S ⊕ S')(0) = (S ⊕ S'')(0) = 5
(S ⊕ S')(5) = (S ⊕ S'')(5) = 5
Выравнивание строк!
воскресенье, 7 октября 12 г.
81. Книги
Algorithms on Strings, Trees and
Sequences: Computer Science and
Computational Biology. Dan Gusfield, 1997.
An Introduction to Bioinformatics
Algorithms. Jones & Pevzner, 2004.
Computational Molecular Biology, An
Algorithmic Approach. Pavel Pevzner, 2000.
http://bioinf.me/books
воскресенье, 7 октября 12 г.
82. Домашнее задание
http://rosalind.info
• LONG
• DBRU
• GASM
• ASMQ
• PRTM, SPEC
http://rosalind.info/classes/enroll/
171da3d314a0b07e00883287cd2b6ddeeeba225b/
воскресенье, 7 октября 12 г.
83. Приезжайте к нам :)
Магистратура: http://mit.spbau.ru/bioinf
Курсы: http://bioinf.me
Лаборатория: http://bioinf.spbau.ru
Стажировка: http://bioinf.spbau.ru/int
Розалинд: http://rosalind.info
vyahhi@bioinf.spbau.ru
воскресенье, 7 октября 12 г.