Обзор математических задач сравнительной геномики Адигеев М.Г. Ростов-на-Дону, 2010 План доклада O Основные понятия: гены, хромосомы, геном. O Выравнивание хромосом O Другие метрики O Медиана O Филогенетический анализ 2 Основные понятия O Геном = совокупность хромосом. O Каждая хромосома = последовательность нуклеотидов. Хромосома может быть линейной (linear) или кольцевой (circular). O Отдельные участки нуклеотидной последовательности образуют гены. O В математических моделях хромосомы представляются в виде цепочек либо нуклеотидов, либо сразу генов — в зависимости от стоящей задачи. 3 Выравнивание последовательностей O Рассматриваются преобразования, действующие на отдельные нуклеотиды и участки хромосомы O Надо: сопоставить последовательности друг с другом таким образом, чтобы были по максимуму сопоставлены одинаковые участки 4 Выравнивание последовательностей A C G G A A C – T – A – G G T A T C A A C C 5 Алгоритмы выравнивания O Точечная матрица (dot matrix) 6 Алгоритмы выравнивания O Алгоритм Нидлмана-Вунша (глобальное выравнивание) O Алгоритм Смита-Уотермана (локальное выравнивание) Матрица замещений: + штраф за разрыв 7 Другие метрики Хромосома – последовательность генов. Можно представить перестановкой: Или в виде графа: Но есть несколько важных «но»… 8 Но № 1 У хромосомы нет различия между началом и концом. 9 Но № 2 Бывают циклические (закольцованные) хромосомы 10 Но № 3 Надо учитывать ориентацию каждого гена в последовательности Поэтому рассматривают перестановки элементов со знаками 11 Breakpoint distance Разрыв (точка разрыва, breakpoint) - ситуация, когда в одной из хромосом гены g и h расположены рядом (смежны, adjacent), а другая хромосома не содержит ни gh, ни –h–g. «Разрывная» метрика = количество таких разрывов. 12 Transposition distance Транспозиция —перенос фрагмента хромосомы в том же порядке в другое место хромосомы. Транпозиционная метрика = (минимальное) количество транспозиций, преобразующих один геном в другой. 13 Медиана геномов O A и B – два генома, для которых мы хотим найти общего предполагаемого предка O Принцип экономии (parsimony principle) O Выберем метрику. Пусть d(X,Y) – расстояние между геномами X и Y O d(A, X) + d(B,X) min O Вводим «внешний» геном (outgroup) C 14 Медиана геномов d(A, X) + d(B,X)+ d(C,X) min 15 Алгоритмы нахождения медианы O Структура алгоритма и его сложность зависит от используемой метрики и вида генома: Одна или несколько хромосом Вид хромосом: линейные, кольцевые, смешанные O Для большинства вариантов задача является NP-трудной 16 Алгоритмы нахождения медианы 17 Алгоритмы нахождения медианы Алгоритмы основаны на сведении к другим задачам: O Задача коммивояжёра При решении с помощью ДП: O(n22n) O Задача целочисленного программирования Сложность: O(2n) O Задача о максимальном паросочетании. Сложность: O(n3) 18 Пример O Метрика: разрывная (breakpoint distance) O Тип генома: мультихромосомный O Тип хромосомы: смешанная O Пусть Г — множество всех генов из заданных геномов. 19 Пример O Построим граф G, у которого вершины гены и их инверсии: g, –g. O Все вершины соединены рёбрами, и вес ребра (g, h) равен 3–u(g, h), где u(g, h) показывает, в скольких геномах (A, B, C) гены –g и h смежны. O Для каждого гена g вводим ребро (g, –g) с весом Z. 20 Задача коммивояжера 21 Пример O Решаем задачу коммивояжёра O Получаем решение вида g1, -g1, g2, -g2,…,gn,-gn. O В этом случае медиана задаётся последовательностью g1,g2,…gn. 22 Пример 23 Пример Исключение: O Разрывная метрика O Мультихромосомный геном O Смешанные или чисто линеные хромосомы Существует полиномиальный алгоритм (сведение к задаче о максимальном паросочетании) 24 Филогенетическое дерево O Обобщение задачи о медиане: ищем не одного предка, а множество предполагаемых предков (видов). O Строим дерево родственных связей – филогенетическое дерево 25 Филогенетическое дерево Математическая формулировка: O Даны геномы G1, G2,…,Gn. O Построить дерево: G1, G2,…,Gn – листья Внутренние вершины – надо найти O Минимизировать суммарный вес дерева O Можно ограничиться вариантом: у всех внутренних вершин степень = 3 26 Филогенетическое дерево 27 Филогенетическое дерево Два варианта: O Малая филогенетическая задача: Дерево известно Надо найти геномы для внутренних вершин O Большая филогенетическая задача: Дерево тоже не известно Сводится к задаче о дереве Штейнера 28 Способы решения O Перебор всех вариантов и выбор наилучшего Факт: в уже заполненном филогенетическом дереве геном, которым помечена внутренняя вершина, является медианой относительно соседних вершин Поэтому порядок решения МФЗ такой: 1. Инициализируем внутренние вершины. 2. Решаем задачи о медианах от листьев к «корню». 3. Если геномы изменились – повторяем п.2. 29 Способы решения O Сразу строить решение (дерево и геномы) Пока есть только эвристические алгоритмы… Например: построить граф разрывов (breakpoint graph) и с помощью набора преобразований построить для него дерево, близкое к оптимальному. 30 Способы решения 31 Основные источники O O O O O O O Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of Genome Rearrangements. MIT Press; 2009. Mount D.W. Bioinformatics. Sequence and genome analysis. Spring Harbor Press, May 2002. Blanchette M., Bourque G., Sankoff D. Breakpoint Phylogenies. [10.1.1.84.6956.pdf] Tannier E., Zheng C., Sankoff D. Multichromosomal median and halving problems under different genomic distances. [1471-2105-10-120.pdf] Sankoff D., El-Mabrouk N. Genome Rearrangement. [jiangbook.pdf] Niklas Eriksen Combinatorics of Genome Rearrangements and Phylogeny. [lic.pdf] Jason D. Bakos, Panormitis E. Elenis, A Special-Purpose Architecture for Solving the Breakpoint Median Problem. IEEE Trans. On Very Large Scale Integration (VLSI) SYSTEMS, Vol. 16, No. 12, December 2008. 32