Поиск уязвимостей с использованием статического анализа кода
Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома
1. Совместное применение
графов де Брѐйна, графов
перекрытий и микросборки
для de novo сборки генома
Александров А. В., Казаков С. В.,
Мельников С. В., Сергушичев А. А., Федотов
П. В., Царев Ф. Н., Шалыто А. А.
Лаборатория «Алгоритмы сборки геномных
последовательностей»
Санкт-Петербургский национальный исследовательский
университет информационных технологий, механики и оптики
Казань, 2012
2. Секвенирование генома
• Геном – строка над алфавитом {A, T, G, C}.
• Секвенаторы первого поколения читают «длинные»
фрагментами (~1000 нуклеотидов).
– Долго и дорого.
• Секвенаторы второго поколения читают «короткие» фрагменты.
– Намного быстрее и дешевле.
• Необходимо покрыть геном чтениями несколько десятков раз.
ДНК
Фрагмент (~500 нуклеотидов)
Парные чтения (риды) (по ~100 нуклеотидов)
2
3. Алгоритм
Граф де Брѐйна
Исправление Сборка Начальная Микро-
Сборка
ошибок квази- сборка сборка
скэффолдов
контигов контигов контигов
Граф перекрытий
3
4. Исправление ошибок
• K-меры – подстроки длины k.
• «Надежные» и «ненадежные» k-меры.
• Исправить «ненадежные» k-меры на
«надежные».
• Все k-меры не влезают в память.
• Разделить их на корзины согласно
префиксам.
• Обрабатывать корзины отдельно.
4
8. Пример графа де Брѐйна (2)
GTC TCA CAT ATC TCC
AGT GTG CCA
CAC CAA
GAG GGA AGG CAG ACA AAC
8
9. Сборка квазиконтигов
• Построим граф де Брѐйна.
• Для каждой пары чтений (r1, r2) найдем
путь от первого k-мера r1 до последнего
k-мера r2.
• Длина пути должна укладываться в
априорные границы.
• Путь должен быть единственным.
9
13. Сборка первых версий
контигов
• Overlap
– Суффиксный массив
– Неточные перекрытия
• Layout
– Граф перекрытий
• Consensus
13
14. Микросборка
• Есть парные чтения, концы которых
расположены на разных контигах.
• Промежуток между контигами покрыт
чтениями, парными к расположенным на
обоих контигах.
14
15. Алгоритм микросборки
• Найдем позиции парных чтений в контигах
(Bowtie).
• Найдем такие пары контигов, что их
соединяет достаточно большое число чтений.
• Построим граф де Брѐйна из парных чтений,
как минимум одно из которых расположено в
одном из этих контигов.
• Воспользуемся алгоритмом сборки
квазиконтигов для заполнения промежутка.
15
16. Результаты
• Геном E. Coli – 4,5 миллионов нуклеотидов.
• Библиотека SRR001665, длина фрагмента –
200 нуклеотидов, длина чтений – 36
нуклеотидов, покрытие – 300.
• До микросборки – 525 контигов с N50 = 17804.
• После микросборки – 247 контигов с N50 =
53720.
• ABySS – 632 контига с N50 = 64280.
16
18. Благодарности
• Академик РАН Скрябин К. Г., Центр
«Биоинженерия» РАН.
• Докт. биол. наук Прохорчук Е. Б., Центр
«Биоинженерия» РАН.
• Алексеев Д. Г., НИИ ФХМ.
18