SlideShare une entreprise Scribd logo
1  sur  83
Télécharger pour lire hors ligne
Графы
                                  Николай Вяххи
                               vyahhi@bioinf.spbau.ru

                               Computer Science клуб
                                Екатеринбург, 2012


воскресенье, 7 октября 12 г.
Центральная Догма




воскресенье, 7 октября 12 г.
Омики




воскресенье, 7 октября 12 г.
Что мы узнали
                    • Редакционное расстояние
                    • Глобальное и локальное выравнивание
                    • Аффинная модель вставки
                    • Всё за O(N )2


                    • Множественное выравнивание
                    • Геномные перестройки
воскресенье, 7 октября 12 г.
Что мы узнали

                    • Поиск подстроки в строке
                    • Таблица К-меров
                    • Суффиксное дерево, массив
                    • BLAST

воскресенье, 7 октября 12 г.
Графы
                                  Николай Вяххи
                               vyahhi@bioinf.spbau.ru

                               Computer Science клуб
                                Екатеринбург, 2012


воскресенье, 7 октября 12 г.
Линейность генома




воскресенье, 7 октября 12 г.
Граф интервалов




воскресенье, 7 октября 12 г.
Граф интервалов




воскресенье, 7 октября 12 г.
Граф интервалов




воскресенье, 7 октября 12 г.
Граф интервалов




воскресенье, 7 октября 12 г.
Линейность генов




                                 Линейный    Нелинейный
воскресенье, 7 октября 12 г.
Микрочипы




воскресенье, 7 октября 12 г.
Микрочипы




воскресенье, 7 октября 12 г.
Секвенирование

                       Видовое секвенирование:
                       определить «общий геном» вида.
                       Индивидуальное
                       секвенирование:
                       определить, насколько индивидуум
                       отличается от вида.




воскресенье, 7 октября 12 г.
Зачем?
                       Видовое cеквенирование:

                          •    Сравнить различные виды (например, человек
                               и шимпанзе)

                          •    Понять, как функционируют гены (например,
                               какие гены важны для развития головного
                               мозга).

                          •    Выявить эволюционное родство между
                               видами.

                          •    Определить генетический состав предков.

воскресенье, 7 октября 12 г.
Зачем?
                       Индивидуальное секвенирование:

                          •    Открытие генетической основы заболеваний.

                          •    Судебные исследования.




воскресенье, 7 октября 12 г.
Краткая история
                       Конец 1970-х: Уолтер Гилберт и Фредерик
                       Сэнгер развивают независимые методы
                       секвенирования.
                       1980: Они получают Нобелевскую премию
                       по химии.
                       Их методы выявления последовательности
                       слишком дороги для больших геномов.



воскресенье, 7 октября 12 г.
Краткая история

                       1990: Общественный проект «Человеческий
                       геном», возглавляемый Фрэнсисом
                       Коллинзом, задаётся целью расшифровать
                       человеческий геном.
                       1997: Крейг Вентер создаёт частную
                       компанию «Celera Genomics» с той же
                       целью.




воскресенье, 7 октября 12 г.
Краткая история
                       2000: Черновой вариант человеческого генома
                       одновременно завершён (общественным)
                       проектом «Человеческий геном» и (частной)
                       компанией Celera Genomics.




воскресенье, 7 октября 12 г.
воскресенье, 7 октября 12 г.
Персональная геномка
                       2000-е: Компании запускают проекты с целью на
                       порядок уменьшить затраты на секвенирование.
                       2010: Рождается рынок приборов, секвенирующих геном:
                          •    Illumina уменьшает стоимость секвенирования индивидуального
                               человеческого генома с 3 миллиардов долларов до 10 тысяч.
                          •    Complete Genomics строит в Кремниевой долине
                               предприятие по секвенированию с производительностью сотни
                               геномов в месяц.
                          •    Beijing Genomic Institute заказывает сотни секвенирующих
                               машин, становясь крупнейшим секвенирующим центром в мире.
                          •    23andMe предлагает частичное чтение последовательности
                               генома за 499 долларов (1M позиций).



воскресенье, 7 октября 12 г.
Будущее
                       Секвенирование человеческого генома за 1000 долларов
                       может стать реальностью уже в 2013-14 году.

                       Cеквенирование индивидуального генома вскоре станет
                       таким же рутинным делом, как рентгеновский снимок.




воскресенье, 7 октября 12 г.
Объемы данных
                       Beijing Genomics Institute, based in China, is the
                       world’s largest genomics research institute, with 167
                       DNA sequencers producing the equivalent of 2,000
                       human genomes a day.
                       BGI churns out so much data that it often cannot
                       transmit its results to clients or collaborators over the
                       Internet or other communications lines because that
                       would take weeks. Instead, it sends computer disks
                       containing the data, via FedEx.
                                            The New York Times, 30 Nov 2011

воскресенье, 7 октября 12 г.
Объемы данных
                       2124 секвенирующих машин в
                       764 центрах (omicsmaps.com):
                          •    621, Illumina HiSeq 2000
                          •    532, Illumina Genome Analyser 2x
                          •    348, ABI SOLiD
                          •    320, Roche 454
                          •    167, Ion Torrent
                          •    76, Illumina MiSeq
                          •    39, Pacific Biosciences




воскресенье, 7 октября 12 г.
Illumina

                       HiSeq 2000/2500:
                               600Gb / 11 days
                       HiSeq 2500:
                               120Gb / 27 h




воскресенье, 7 октября 12 г.
Объемы данных

                       621 Illumina HiSeq 2000
                                = 33.8 Tb / day = 12 Pb / year


                       Лучшее хранилище ДНК — холодильник.




воскресенье, 7 октября 12 г.
BGI




воскресенье, 7 октября 12 г.
1000genomes.org
                       > 2500 геномов людей было прочитано
                       249 TB сжатых данных (FASTQs, BAMs,VCFs)
                       ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes
                       29 Oct 2009 (pilot):
                               •   24581 CPU-days = 67 CPU-years
                               •   Full production project is >10 times
                                   more data than the pilot.


воскресенье, 7 октября 12 г.
Genome10K.org




воскресенье, 7 октября 12 г.
Секвенирование
                       Чтение фрагментов
                       (лабораторная):
                               Считать множество
                               фрагментов из многих копий
                               одного генома.
                       Сборка фрагментов
                       (вычислительная):
                               Собрать геном из этих ридов
                               с помощью алгоритмов.

воскресенье, 7 октября 12 г.
Next Gen Sequencing




воскресенье, 7 октября 12 г.
Исправление ошибок




воскресенье, 7 октября 12 г.
Исправление ошибок




воскресенье, 7 октября 12 г.
Исправление ошибок




воскресенье, 7 октября 12 г.
Сборка




воскресенье, 7 октября 12 г.
Сборка
                       By reference (Индивидуум)


                       De novo (Новые виды)


                       Assisted assembly (Похожие виды)



воскресенье, 7 октября 12 г.
SNP



                       SNP — Single Nucleotide Polymorphism.
                       Indel — insertion или deletion.
                       dbSNP — база данных известных SNP.


воскресенье, 7 октября 12 г.
По референсу




воскресенье, 7 октября 12 г.
Де ново

                       Overlap Graphs


                       de Bruijn Graphs




воскресенье, 7 октября 12 г.
TSP

                       overlap(s1, s2) — длина максимального
                       суффикса s1 равного префиксу s2.




воскресенье, 7 октября 12 г.
TSP

                       overlap(s1, s2) — длина максимального
                       суффикса s1 равного префиксу s2.


                       Вершины — строки.
                       Рёбра — перекрытия.



воскресенье, 7 октября 12 г.
TSP

                       overlap(s1, s2) — длина максимального
                       суффикса s1 равного префиксу s2.


                       Вершины — строки.
                       Рёбра — перекрытия.


                               Travelling salesman problem (NP-hard)!
воскресенье, 7 октября 12 г.
Спектр
                       Спектр: мультимножество К-меров из строки.


                                 Spectrum(TATGGTGC, 3) =
                               {TAT, ATG, TGG, GGT, GTG, TGC}


                         Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2)
                                   = {AT, CT, GT, TA, TC}


воскресенье, 7 октября 12 г.
Задача
                       Дано:
                               Spectrum(Genome, K)


                       Найти:
                               Genome



воскресенье, 7 октября 12 г.
Overlap Graph

                       Вершины: K-меры
                       Рёбра: (K-1)-меры




воскресенье, 7 октября 12 г.
Overlap Graph

                       Вершины: K-меры
                       Рёбра: (K-1)-меры


                       { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}




воскресенье, 7 октября 12 г.
Overlap Graph

                       Вершины: K-меры
                       Рёбра: (K-1)-меры


                       { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}



                               Hamiltonian path problem (NP-complete)!
воскресенье, 7 октября 12 г.
de Bruijn Graph




воскресенье, 7 октября 12 г.
de Bruijn Graph

                       Вершины: (K-1)-меры
                       Рёбра: K-меры




воскресенье, 7 октября 12 г.
de Bruijn Graph

                       Вершины: (K-1)-меры
                       Рёбра: K-меры


                       { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}




воскресенье, 7 октября 12 г.
de Bruijn Graph

                       Вершины: (K-1)-меры
                       Рёбра: K-меры


                       { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}



                               Eulerian path problem (linear)!
воскресенье, 7 октября 12 г.
Снова ошибки

                       К = ???
                       Tips
                       Bulges (bubbles)
                       Химерические фрагменты




воскресенье, 7 октября 12 г.
Assisted
                               Assembly


воскресенье, 7 октября 12 г.
Exome Sequencing




воскресенье, 7 октября 12 г.
RNA-seq




воскресенье, 7 октября 12 г.
ChIP-seq




                               Chromatin ImmunoPrecipitation
воскресенье, 7 октября 12 г.
Single Cell Sequencing




воскресенье, 7 октября 12 г.
Покрытие                      Много клеток       Одна клетка




                                              Геном
воскресенье, 7 октября 12 г.
http://www.youtube.com/watch?
                                      v=yKW4F0Nu-UY




воскресенье, 7 октября 12 г.
Масс-спектрометрия


                                      H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH
                                                   Ri-1          Ri              Ri+1
                               N-terminus                                                 C-terminus

                                            AA residuei-1   AA residuei   AA residuei+1




воскресенье, 7 октября 12 г.
Масс-спектрометрия
                               PRTEIN




воскресенье, 7 октября 12 г.
Масс-спектрометрия
                                   PRTEIN
                               P     RTEIN




воскресенье, 7 октября 12 г.
Масс-спектрометрия
                                   PRTEIN
                               P     RTEIN
                               PR     TEIN




воскресенье, 7 октября 12 г.
Масс-спектрометрия
                                   PRTEIN
                               P      RTEIN
                               PR      TEIN
                               PRT      EIN
                               PRTE      IN
                               PRTEI        N


воскресенье, 7 октября 12 г.
Масс-спектрометрия
          m(P) = 97                PRTEIN
          m(R) = 156           P      RTEIN
          m(T) = 101           PR      TEIN
          m(E) = 129           PRT      EIN
          m(I) = 113           PRTE      IN
          m(N) = 114           PRTEI        N


воскресенье, 7 октября 12 г.
Масс-спектрометрия
          m(P) = 97                PRTEIN       710
          m(R) = 156           P      RTEIN     97    613
          m(T) = 101           PR      TEIN     253   457
          m(E) = 129           PRT      EIN     354   356
          m(I) = 113           PRTE      IN     483   227
          m(N) = 114           PRTEI        N   596   114


воскресенье, 7 октября 12 г.
Спектры




воскресенье, 7 октября 12 г.
Сборка белка


                       Де ново
                       По базе данных




воскресенье, 7 октября 12 г.
Де ново




воскресенье, 7 октября 12 г.
Spectrum Graph




воскресенье, 7 октября 12 г.
Spectrum Graph




воскресенье, 7 октября 12 г.
По базе данных


                       ..., MDERHILNM, KLQWVCSDL, PTYWASDL,
                      ENQIKRSACVM, TLACHGGEM, NGALPQWRT,
                       HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
                     MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF,
                     GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...


воскресенье, 7 октября 12 г.
По базе данных


                       ..., MDERHILNM, KLQWVCSDL, PTYWASDL,
                      ENQIKRSACVM, TLACHGGEM, NGALPQWRT,
                       HLLERTKMNVV, GGPASSDA, GGLITGMQSD,
                     MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF,
                     GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...


воскресенье, 7 октября 12 г.
Похожие спектры
                       Shared peaks count (SPC) — количество
                       общих пиков.


                       S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
                       (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
                       SPC = (S1 ⊕ S2)(0)


воскресенье, 7 октября 12 г.
Spectral Convolution
                       Shared peaks count (SPC) — количество
                       общих пиков.


                       S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
                       (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
                       SPC = ?(S1 ⊕ S2)(0)


воскресенье, 7 октября 12 г.
Spectral Convolution
                       Shared peaks count (SPC) — количество
                       общих пиков.


                       S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 }
                       (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2)
                       SPC = (S1 ⊕ S2)(0)


воскресенье, 7 октября 12 г.
Сдвиги
                       S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
                       S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
                       S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
                       (S ⊕ S')(0) = (S ⊕ S'')(0) = 5
                       (S ⊕ S')(5) = (S ⊕ S'')(5) = 5



воскресенье, 7 октября 12 г.
Сдвиги
                       S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
                       S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
                       S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
                       (S ⊕ S')(0) = (S ⊕ S'')(0) = 5
                       (S ⊕ S')(5) = (S ⊕ S'')(5) = 5



воскресенье, 7 октября 12 г.
Сдвиги
                       S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100}
                       S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95}
                       S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95}
                       (S ⊕ S')(0) = (S ⊕ S'')(0) = 5
                       (S ⊕ S')(5) = (S ⊕ S'')(5) = 5

                                    Выравнивание строк!
воскресенье, 7 октября 12 г.
Книги
                       Algorithms on Strings, Trees and
                       Sequences: Computer Science and
                       Computational Biology. Dan Gusfield, 1997.
                       An Introduction to Bioinformatics
                       Algorithms. Jones & Pevzner, 2004.
                       Computational Molecular Biology, An
                       Algorithmic Approach. Pavel Pevzner, 2000.


                       http://bioinf.me/books


воскресенье, 7 октября 12 г.
Домашнее задание
                                         http://rosalind.info
                                         • LONG
                                         • DBRU
                                         • GASM
                                         • ASMQ
                                         • PRTM, SPEC
                     http://rosalind.info/classes/enroll/
              171da3d314a0b07e00883287cd2b6ddeeeba225b/
воскресенье, 7 октября 12 г.
Приезжайте к нам :)
                       Магистратура: http://mit.spbau.ru/bioinf
                       Курсы: http://bioinf.me
                       Лаборатория: http://bioinf.spbau.ru
                       Стажировка: http://bioinf.spbau.ru/int
                       Розалинд: http://rosalind.info
                                  vyahhi@bioinf.spbau.ru


воскресенье, 7 октября 12 г.

Contenu connexe

En vedette

Mysterious Itali- By Giuseppe Desideri
Mysterious Itali- By Giuseppe DesideriMysterious Itali- By Giuseppe Desideri
Mysterious Itali- By Giuseppe Desiderimaditabalnco
 
Presentació de prova
Presentació de provaPresentació de prova
Presentació de provajdiazlopez
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04Computer Science Club
 
20090315 hardnessvsrandomness itsykson_lecture03
20090315 hardnessvsrandomness itsykson_lecture0320090315 hardnessvsrandomness itsykson_lecture03
20090315 hardnessvsrandomness itsykson_lecture03Computer Science Club
 
20080413 machine learning_nikolenko_lecture08
20080413 machine learning_nikolenko_lecture0820080413 machine learning_nikolenko_lecture08
20080413 machine learning_nikolenko_lecture08Computer Science Club
 
10 07-15 presentación rdl adelanto irpf
10 07-15 presentación rdl adelanto irpf10 07-15 presentación rdl adelanto irpf
10 07-15 presentación rdl adelanto irpfDisyem
 
20081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture0520081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture05Computer Science Club
 
NFC služby pro knihovníky i neknihovníky
NFC služby pro knihovníky i neknihovníkyNFC služby pro knihovníky i neknihovníky
NFC služby pro knihovníky i neknihovníkyKISK FF MU
 
Saami russian bible matthew 3 1-4
Saami russian bible   matthew 3 1-4Saami russian bible   matthew 3 1-4
Saami russian bible matthew 3 1-4ArabBibles
 
Presentació claustre virtual 17 de gener de 2011
Presentació claustre virtual 17 de gener de 2011Presentació claustre virtual 17 de gener de 2011
Presentació claustre virtual 17 de gener de 2011emmsantboi
 
Samaritan bible deut 6 6-12
Samaritan bible   deut 6 6-12Samaritan bible   deut 6 6-12
Samaritan bible deut 6 6-12ArabBibles
 
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12Н. Иготти. Виртуализация и виртуальные машины. Лекция 12
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12Computer Science Club
 
KISK: Den otevrenych dveri 2011
KISK: Den otevrenych dveri 2011KISK: Den otevrenych dveri 2011
KISK: Den otevrenych dveri 2011KISK FF MU
 
Aprendre junts
Aprendre juntsAprendre junts
Aprendre juntsemmsantboi
 
Google adwords display network & re marketing
Google adwords   display network & re marketingGoogle adwords   display network & re marketing
Google adwords display network & re marketingNinh Tran
 
Cyberbullying zii
Cyberbullying ziiCyberbullying zii
Cyberbullying ziimikeqian11
 

En vedette (20)

Mysterious Itali- By Giuseppe Desideri
Mysterious Itali- By Giuseppe DesideriMysterious Itali- By Giuseppe Desideri
Mysterious Itali- By Giuseppe Desideri
 
Presentació de prova
Presentació de provaPresentació de prova
Presentació de prova
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04
 
20090315 hardnessvsrandomness itsykson_lecture03
20090315 hardnessvsrandomness itsykson_lecture0320090315 hardnessvsrandomness itsykson_lecture03
20090315 hardnessvsrandomness itsykson_lecture03
 
20080413 machine learning_nikolenko_lecture08
20080413 machine learning_nikolenko_lecture0820080413 machine learning_nikolenko_lecture08
20080413 machine learning_nikolenko_lecture08
 
10 07-15 presentación rdl adelanto irpf
10 07-15 presentación rdl adelanto irpf10 07-15 presentación rdl adelanto irpf
10 07-15 presentación rdl adelanto irpf
 
20081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture0520081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture05
 
NFC služby pro knihovníky i neknihovníky
NFC služby pro knihovníky i neknihovníkyNFC služby pro knihovníky i neknihovníky
NFC služby pro knihovníky i neknihovníky
 
Saami russian bible matthew 3 1-4
Saami russian bible   matthew 3 1-4Saami russian bible   matthew 3 1-4
Saami russian bible matthew 3 1-4
 
Presentació claustre virtual 17 de gener de 2011
Presentació claustre virtual 17 de gener de 2011Presentació claustre virtual 17 de gener de 2011
Presentació claustre virtual 17 de gener de 2011
 
Samaritan bible deut 6 6-12
Samaritan bible   deut 6 6-12Samaritan bible   deut 6 6-12
Samaritan bible deut 6 6-12
 
Tutorial g
Tutorial gTutorial g
Tutorial g
 
Doc1josh
Doc1joshDoc1josh
Doc1josh
 
Nwp 23
Nwp 23Nwp 23
Nwp 23
 
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12Н. Иготти. Виртуализация и виртуальные машины. Лекция 12
Н. Иготти. Виртуализация и виртуальные машины. Лекция 12
 
1. cover ppl
1. cover ppl1. cover ppl
1. cover ppl
 
KISK: Den otevrenych dveri 2011
KISK: Den otevrenych dveri 2011KISK: Den otevrenych dveri 2011
KISK: Den otevrenych dveri 2011
 
Aprendre junts
Aprendre juntsAprendre junts
Aprendre junts
 
Google adwords display network & re marketing
Google adwords   display network & re marketingGoogle adwords   display network & re marketing
Google adwords display network & re marketing
 
Cyberbullying zii
Cyberbullying ziiCyberbullying zii
Cyberbullying zii
 

Similaire à 20121007 algorithmsinbioinformatics vyahhi_lecture04_0

Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyNikolay Vyahhi
 
презентация дл ученика наука и мифы
презентация дл ученика наука и мифыпрезентация дл ученика наука и мифы
презентация дл ученика наука и мифыLguseva
 
Новости технологий за ноябрь 2008 года
Новости технологий за ноябрь 2008 годаНовости технологий за ноябрь 2008 года
Новости технологий за ноябрь 2008 годаValerija Pride (Udalova)
 
Научная визуализация. Лекция 1
Научная визуализация. Лекция 1Научная визуализация. Лекция 1
Научная визуализация. Лекция 1Ksenia Kozlovskaya
 
Нейронные сетки: покруче интернета
Нейронные сетки: покруче интернетаНейронные сетки: покруче интернета
Нейронные сетки: покруче интернетаAnatoly Levenchuk
 

Similaire à 20121007 algorithmsinbioinformatics vyahhi_lecture04_0 (9)

Genome Assembly
Genome AssemblyGenome Assembly
Genome Assembly
 
Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assembly
 
презентация дл ученика наука и мифы
презентация дл ученика наука и мифыпрезентация дл ученика наука и мифы
презентация дл ученика наука и мифы
 
News Nov 2008
News Nov 2008News Nov 2008
News Nov 2008
 
Новости технологий за ноябрь 2008 года
Новости технологий за ноябрь 2008 годаНовости технологий за ноябрь 2008 года
Новости технологий за ноябрь 2008 года
 
новости 30
новости 30новости 30
новости 30
 
Научная визуализация. Лекция 1
Научная визуализация. Лекция 1Научная визуализация. Лекция 1
Научная визуализация. Лекция 1
 
Data science
Data scienceData science
Data science
 
Нейронные сетки: покруче интернета
Нейронные сетки: покруче интернетаНейронные сетки: покруче интернета
Нейронные сетки: покруче интернета
 

Plus de Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

Plus de Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 

20121007 algorithmsinbioinformatics vyahhi_lecture04_0

  • 1. Графы Николай Вяххи vyahhi@bioinf.spbau.ru Computer Science клуб Екатеринбург, 2012 воскресенье, 7 октября 12 г.
  • 4. Что мы узнали • Редакционное расстояние • Глобальное и локальное выравнивание • Аффинная модель вставки • Всё за O(N )2 • Множественное выравнивание • Геномные перестройки воскресенье, 7 октября 12 г.
  • 5. Что мы узнали • Поиск подстроки в строке • Таблица К-меров • Суффиксное дерево, массив • BLAST воскресенье, 7 октября 12 г.
  • 6. Графы Николай Вяххи vyahhi@bioinf.spbau.ru Computer Science клуб Екатеринбург, 2012 воскресенье, 7 октября 12 г.
  • 12. Линейность генов Линейный Нелинейный воскресенье, 7 октября 12 г.
  • 15. Секвенирование Видовое секвенирование: определить «общий геном» вида. Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида. воскресенье, 7 октября 12 г.
  • 16. Зачем? Видовое cеквенирование: • Сравнить различные виды (например, человек и шимпанзе) • Понять, как функционируют гены (например, какие гены важны для развития головного мозга). • Выявить эволюционное родство между видами. • Определить генетический состав предков. воскресенье, 7 октября 12 г.
  • 17. Зачем? Индивидуальное секвенирование: • Открытие генетической основы заболеваний. • Судебные исследования. воскресенье, 7 октября 12 г.
  • 18. Краткая история Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования. 1980: Они получают Нобелевскую премию по химии. Их методы выявления последовательности слишком дороги для больших геномов. воскресенье, 7 октября 12 г.
  • 19. Краткая история 1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном. 1997: Крейг Вентер создаёт частную компанию «Celera Genomics» с той же целью. воскресенье, 7 октября 12 г.
  • 20. Краткая история 2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) компанией Celera Genomics. воскресенье, 7 октября 12 г.
  • 22. Персональная геномка 2000-е: Компании запускают проекты с целью на порядок уменьшить затраты на секвенирование. 2010: Рождается рынок приборов, секвенирующих геном: • Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч. • Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц. • Beijing Genomic Institute заказывает сотни секвенирующих машин, становясь крупнейшим секвенирующим центром в мире. • 23andMe предлагает частичное чтение последовательности генома за 499 долларов (1M позиций). воскресенье, 7 октября 12 г.
  • 23. Будущее Секвенирование человеческого генома за 1000 долларов может стать реальностью уже в 2013-14 году. Cеквенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок. воскресенье, 7 октября 12 г.
  • 24. Объемы данных Beijing Genomics Institute, based in China, is the world’s largest genomics research institute, with 167 DNA sequencers producing the equivalent of 2,000 human genomes a day. BGI churns out so much data that it often cannot transmit its results to clients or collaborators over the Internet or other communications lines because that would take weeks. Instead, it sends computer disks containing the data, via FedEx. The New York Times, 30 Nov 2011 воскресенье, 7 октября 12 г.
  • 25. Объемы данных 2124 секвенирующих машин в 764 центрах (omicsmaps.com): • 621, Illumina HiSeq 2000 • 532, Illumina Genome Analyser 2x • 348, ABI SOLiD • 320, Roche 454 • 167, Ion Torrent • 76, Illumina MiSeq • 39, Pacific Biosciences воскресенье, 7 октября 12 г.
  • 26. Illumina HiSeq 2000/2500: 600Gb / 11 days HiSeq 2500: 120Gb / 27 h воскресенье, 7 октября 12 г.
  • 27. Объемы данных 621 Illumina HiSeq 2000 = 33.8 Tb / day = 12 Pb / year Лучшее хранилище ДНК — холодильник. воскресенье, 7 октября 12 г.
  • 29. 1000genomes.org > 2500 геномов людей было прочитано 249 TB сжатых данных (FASTQs, BAMs,VCFs) ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes 29 Oct 2009 (pilot): • 24581 CPU-days = 67 CPU-years • Full production project is >10 times more data than the pilot. воскресенье, 7 октября 12 г.
  • 31. Секвенирование Чтение фрагментов (лабораторная): Считать множество фрагментов из многих копий одного генома. Сборка фрагментов (вычислительная): Собрать геном из этих ридов с помощью алгоритмов. воскресенье, 7 октября 12 г.
  • 37. Сборка By reference (Индивидуум) De novo (Новые виды) Assisted assembly (Похожие виды) воскресенье, 7 октября 12 г.
  • 38. SNP SNP — Single Nucleotide Polymorphism. Indel — insertion или deletion. dbSNP — база данных известных SNP. воскресенье, 7 октября 12 г.
  • 40. Де ново Overlap Graphs de Bruijn Graphs воскресенье, 7 октября 12 г.
  • 41. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2. воскресенье, 7 октября 12 г.
  • 42. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2. Вершины — строки. Рёбра — перекрытия. воскресенье, 7 октября 12 г.
  • 43. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2. Вершины — строки. Рёбра — перекрытия. Travelling salesman problem (NP-hard)! воскресенье, 7 октября 12 г.
  • 44. Спектр Спектр: мультимножество К-меров из строки. Spectrum(TATGGTGC, 3) = {TAT, ATG, TGG, GGT, GTG, TGC} Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2) = {AT, CT, GT, TA, TC} воскресенье, 7 октября 12 г.
  • 45. Задача Дано: Spectrum(Genome, K) Найти: Genome воскресенье, 7 октября 12 г.
  • 46. Overlap Graph Вершины: K-меры Рёбра: (K-1)-меры воскресенье, 7 октября 12 г.
  • 47. Overlap Graph Вершины: K-меры Рёбра: (K-1)-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} воскресенье, 7 октября 12 г.
  • 48. Overlap Graph Вершины: K-меры Рёбра: (K-1)-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} Hamiltonian path problem (NP-complete)! воскресенье, 7 октября 12 г.
  • 49. de Bruijn Graph воскресенье, 7 октября 12 г.
  • 50. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-меры воскресенье, 7 октября 12 г.
  • 51. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} воскресенье, 7 октября 12 г.
  • 52. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} Eulerian path problem (linear)! воскресенье, 7 октября 12 г.
  • 53. Снова ошибки К = ??? Tips Bulges (bubbles) Химерические фрагменты воскресенье, 7 октября 12 г.
  • 54. Assisted Assembly воскресенье, 7 октября 12 г.
  • 57. ChIP-seq Chromatin ImmunoPrecipitation воскресенье, 7 октября 12 г.
  • 59. Покрытие Много клеток Одна клетка Геном воскресенье, 7 октября 12 г.
  • 60. http://www.youtube.com/watch? v=yKW4F0Nu-UY воскресенье, 7 октября 12 г.
  • 61. Масс-спектрометрия H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH Ri-1 Ri Ri+1 N-terminus C-terminus AA residuei-1 AA residuei AA residuei+1 воскресенье, 7 октября 12 г.
  • 62. Масс-спектрометрия PRTEIN воскресенье, 7 октября 12 г.
  • 63. Масс-спектрометрия PRTEIN P RTEIN воскресенье, 7 октября 12 г.
  • 64. Масс-спектрометрия PRTEIN P RTEIN PR TEIN воскресенье, 7 октября 12 г.
  • 65. Масс-спектрометрия PRTEIN P RTEIN PR TEIN PRT EIN PRTE IN PRTEI N воскресенье, 7 октября 12 г.
  • 66. Масс-спектрометрия m(P) = 97 PRTEIN m(R) = 156 P RTEIN m(T) = 101 PR TEIN m(E) = 129 PRT EIN m(I) = 113 PRTE IN m(N) = 114 PRTEI N воскресенье, 7 октября 12 г.
  • 67. Масс-спектрометрия m(P) = 97 PRTEIN 710 m(R) = 156 P RTEIN 97 613 m(T) = 101 PR TEIN 253 457 m(E) = 129 PRT EIN 354 356 m(I) = 113 PRTE IN 483 227 m(N) = 114 PRTEI N 596 114 воскресенье, 7 октября 12 г.
  • 69. Сборка белка Де ново По базе данных воскресенье, 7 октября 12 г.
  • 70. Де ново воскресенье, 7 октября 12 г.
  • 73. По базе данных ..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ... воскресенье, 7 октября 12 г.
  • 74. По базе данных ..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ... воскресенье, 7 октября 12 г.
  • 75. Похожие спектры Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = (S1 ⊕ S2)(0) воскресенье, 7 октября 12 г.
  • 76. Spectral Convolution Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = ?(S1 ⊕ S2)(0) воскресенье, 7 октября 12 г.
  • 77. Spectral Convolution Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = (S1 ⊕ S2)(0) воскресенье, 7 октября 12 г.
  • 78. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S')(0) = (S ⊕ S'')(0) = 5 (S ⊕ S')(5) = (S ⊕ S'')(5) = 5 воскресенье, 7 октября 12 г.
  • 79. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S')(0) = (S ⊕ S'')(0) = 5 (S ⊕ S')(5) = (S ⊕ S'')(5) = 5 воскресенье, 7 октября 12 г.
  • 80. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S' = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S'' = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S')(0) = (S ⊕ S'')(0) = 5 (S ⊕ S')(5) = (S ⊕ S'')(5) = 5 Выравнивание строк! воскресенье, 7 октября 12 г.
  • 81. Книги Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. Dan Gusfield, 1997. An Introduction to Bioinformatics Algorithms. Jones & Pevzner, 2004. Computational Molecular Biology, An Algorithmic Approach. Pavel Pevzner, 2000. http://bioinf.me/books воскресенье, 7 октября 12 г.
  • 82. Домашнее задание http://rosalind.info • LONG • DBRU • GASM • ASMQ • PRTM, SPEC http://rosalind.info/classes/enroll/ 171da3d314a0b07e00883287cd2b6ddeeeba225b/ воскресенье, 7 октября 12 г.
  • 83. Приезжайте к нам :) Магистратура: http://mit.spbau.ru/bioinf Курсы: http://bioinf.me Лаборатория: http://bioinf.spbau.ru Стажировка: http://bioinf.spbau.ru/int Розалинд: http://rosalind.info vyahhi@bioinf.spbau.ru воскресенье, 7 октября 12 г.