Модели эволюции нуклеотидных и аминокислотных последовательностей. BLOSUM62 Matrix AAA AAA AAG AAA AGA GGA AGA Допущения при построении филогенетического дерева ветвь внутренний узел лист • Топология T : бифуркационная – Листья - 1…N – Внутренние узлы N+1 … 2N-2 • Длины t = { ti } для каждой ветви • Филогенетическое дерево = (Топология, Длины) = (T, t ) Метод максимального правдоподобия Пусть филогенетическое дерево представляет собой стохастический процесс AAA AAA AAG AAA AGA GGA AGA Ненаблюдаемые Наблюдаемые Вероятность перехода от символа a к символу b равна b|a. Вероятность найти символ a в корне равна qa. Эти параметры определяются через скорости изменения за единицу времени, умноженное на время. Имея полное дерево, вероятность данных определяются через значения b|a и qa’. Вероятностные методы • Филогенетическое дерево представляет собой обобщенную вероятностную модель для наблюдаемых последовательностей. • Корневые вероятности: q( a ) • Вероятности мутаций: P( a | b, t ) • Модели мутаций – Модель Джукса-Кантора (Jukes Cantor,1969) JC69 – Двупараpsqметрическая модель Кимуры (Kimura, 1980) K2P – Модель Хасегава-Кишино-Яно (Hasegawa, Kishino and Yano, 1985) HKY85 Накопление замен • Две последовательности, происшедшие от общего предка. D - процент сайтов, которые различаются между собой Предполагается, что замены происходят случайным образом с постоянной скоростью Число видимых замен меньше или равно числу реальных замен Отношение D и t • На малых временах D пропорционально t • На больших временах D растет медленнее, чем t • Очень большое время -> очень много замен -> получились случайные последовательности • Выравненные случайные последовательности с равновероятным распределением нуклеотидов -> 3/4 сайтов будут различными • D=3/4 при t -> бесконечности • Почему D плоха для использования? нелинейная зависимость от t неаддитивна (D12 не равно D01+D02) Что необходимо? • Определить эволюционное расстояние, которое было бы аддитивно и линейно зависило от времени • Пусть d - среднее число замен в каждом сайте между двумя последовательностями • Если замены происходят случайным образом с постоянной скоростью, то d пропорционально t • d аддитивно, так как d12=d01+d02 по определению • Но d не подлежит наблюдению, в отличие от D • Чтобы оценить d нужна эволюционная модель Оценка эволюционного расстояния d • Пусть скорость замены одного нуклеотида. • 3 скорость замены одного нуклеотида на любой другой • t - время, прошедшее после расхождения двух последовательностей • d=3t=6t Модель Джукса-Кантора (1969) • Модель для скоростей мутации • Мутации происходят с постоянной скоростью • Каждый нуклеотид РАВНОВЕРОЯТНО может перейти в любой другой со скоростью . Модель Джукса-Кантора Нужно получить формулу эволюции ДНК через вероятности Prob(y | x, t) , где x и y взяты из {A, C, G, T} и t временной интервал. Модель Джукса-Кантора подразумевает равные скорости переходов нуклеотидов: A C -3 G T A A 3 C R G T C G T 3 3 3 Модель Джукса-Кантора Пусть S(t) - матрица вероятностей переходов (транзиций): P( A1 | A1 , t ) P( A2 | A1 , t ) P( A | A , t ) P( A | A , t ) 1 2 2 2 S (t ) P( A1 | Ak , t ) P( A2 | AK , t ) P( AK | A1 , t ) rt P( AK | A2 , t ) st st P( AK | AK , t ) st st rt st st st st rt st st st st rt Мы предполагаем, что матрица мультипликативна, то есть S(t+s)=S(t)S(s) для любых интревалов времени s или t . Модель Джукса-Кантора Для короткого интервала времени : 1 3 1 3 S ( ) I R 1 3 1 3 Из свойства мультипликативности следует: S(t+ ) = S(t) S() S(t)(I+R) Отсюда: [S(t+ ) - S(t)] / S(t) R Приходим к линейному дифференциальному уравнению: S’ (t) S(t)R С дополнительным условием, что в пределе при t, стремящемся к бесконечности: 1 rt st 4 Модель Джукса-Кантора Подставляя S(t) в дифференциальное уравнение, получаем систему: rt 3 rt 3 st st st rt Система имеет единственное решение, известное под названием модели Джукса-Кантора: 1 rt 1 3e 4t 4 1 st 1 e 4t 4 Модель Джукса-Кантора вероятность мутации 1-3 вероятность отсутствия мутации Процент идентичных сайтов - i(t); процент неидентичных сайтов n(t): i(t)+n(t)=1 За период времени (t+1), каждый идентичный сайт остается без изменения с вероятностью 1-3 Вероятность, что обe последовательности не мутировали (1-3)^2=1-6^2~1-6 <<1 Вероятность,что неидентичные сайты мутируют обратно к идентичному состоянию =2n(t) i(t+1)=i(t)(1-6 2n(t)=i(t)(1-6 2(1-i(t)) i(t+1)-i(t)= 2 i(t) i(t) =1/4(1+3exp(-8 t)) n(t)=1-i(t) d=6t Зависимость D и d от t Двупараметрическая модель Кимуры • Учитывает разные скорости для транзиций и трансверсий. Модель Кимуры K2P (1980) Модель Джукса-Кантора не принимает во внимание, что скорости транзиций (между пуринами) AG и (между пиримидинами) CT отличаются от скоростей трансверсий AC, AT, CG, GT. Кимура предложил следующую матрицу скоростей: A A 2 C R G T C G T 2 2 2 Модель Кимуры K2P (1980) Матрицу скоростей S(t) можно проинтегрировать, так же как и для модели Джукса-Кантора, и получится общая, зависящая от времени форма rt s S (t ) t ut st st rt ut st st ut rt st где 1 st 1 e 4 t 4 1 ut 1 e 4 t 2e 2( )t 4 rt 1 2 st ut st ut st rt И эта модель еще далека от реальности, так как частоты нуклеотидов равны между собой: qA=qC=qG=qT=1/4 У многих организмов AT и GC сильно сдвинуто. Модель Кимуры K2P • S - процент неидентичных сайтов, получившихся в результате транзиции • V - процент неидентичных сайтов, получившихся в результате трансверсии • D=S+V • Аналогично подходу в модели Джукса-Кантора D=0.3 d(JC69)=0.383 S=0.2 d(K2P)=0.402 V=0.1 Модель Хасегава-Кишино-Яно HKY85 (Hasegawa-Kishino-Yano, 85) • Частоты встречаемости нуклеотидов неодинаковы - Модели эволюции аминокислотных последовательностей. • Аминокислотные последовательности (20 аминокислот) • Протеин-кодирующие последовательности ДНК Модели эволюции аа последовательностей 1. Эмпирические матрицы 20 x 20 – – – – – Dayhoff et al. (1978) матрица основана на наблюдениях 1572 фиксированных мутаций в 34 суперсемействах достаточно близких последовательностях JTT матрица (Jones et al. 1992; Gonnett et al. 1992): методология такая же как и у Dayhoff, но данные взяты из современных баз данных (позднее были сделаны модификации для трансмембранных белков Jones et al. 1994) mtREV (Adachi and Hasegawa 1995, 1996) matrix derived from maximum likelihood-inferred replacements in mitochondrial proteins of 20 vertebrate species WAG (Whelan and Goldman 2001) matrix derived from maximum likelihood improvement of JTT Poisson assumes equal stationary state frequencies and equal substitution rates (equivalent to JC model for DNA). Not really empirical, but it is fixed Матрица счета PAM250 Матрицы счета S = [sij] дает число выравнивания символа i с символом j для каждой пары i, j. C 12 S 0 T -2 1 3 P -3 1 0 6 A -2 1 1 1 2 C T P A STPP CTCA 2 S 0 + 3 + (-3) + 1 =1 Типы матриц • • • • • • PAM BLOSUM Gonnet JTT DNA matrices матрицы PAM, Gonnet, JTT, и DNA PAM основаны на явных эволюционных моделях; • Матрицы BLOSUM основаны на неявных эволюционных моделях Матрицы PAM основаны на простой эволюционной модели GAATC GAGTT Последовательность Два изменения GA(A/G)T(C/T) предка? • Разрешены только мутации • Сайты эволюционируют независимо Матрицы замен PAM • Point Accepted Mutation: точечные мутации, которые распространяются и фиксируются. • Единица эволюционного изменения для белковых последовательностей [Dayhoff78]. • Единица PAM - это такая единица эволюции, при которой в среднем изменяется 1% аминокислот внутри белковых последовательностей. Матрица замен PAM • Первая PAM Dayhoff et al. 1978 • 71 семейство • 15 % - расхождение аа последовательностей • 1572 замены • Дерево построено методом максимальной бережливости. Пример для 6 аа Число фиксированных точечных мутаций 1572 мутации A ij Определение PAM • Пусть P(i,j) - вероятность находиться в состоянии j во время t, при условии, что в при t=0 сайт находился в состоянии i. • Определим матрицу PAM1 как где t - время одной единицы PAM Ni - общее количество данной аминокислоты Итак • Пусть частота аминокислот =N /N i i Atot - общее число элементов в матрице A Вероятность, что данная аминокислота осталась неизмененной за единицу времени PAM1. total PAM1 Значения умножены на 100 000, для удобства. Каждый ряд суммируется в 100 000. m - способность к мутациям (вероятность мутировать >1% или <1%) Экстраполяция модели на большие растояния -- PAM1 матрица вероятностей мутаций. -- PAM2 ( 2 ) матрица вероятностей M мутаций? M (1) -- Мутации, происшедшие за эволюционное расстояние в две единицы PAM1 В два интервала PAM1: • {AR} = {AA and AR} or {AN and NR} or {AD and DR} or … or {AV and VR} Матрица вероятностей замен PAM2 Pr( A R in 2 periods) Pr(A A in 1st period) Pr(A R in 2nd period) Pr(A N in 1st period) Pr(N R in 2nd period) Pr(A D in 1st period) Pr(D R in 2nd period) ( 2) PAR PAA PAR PAN PNR PAD PDR Матрица замен PAM-k M ( 2) M (K ) M (1) M {M } (1) K (1) Матрица весов PAM-k Матрица весов PAM250 Соответствия PAM-k проценту схожести белков • PAM60—60%, PAM80—50%, • PAM120—40% • матрица PAM-250 дает лучший вес выравнивания по сравнению с более низкими версиями PAM для белков со схожестью 14-27% Построение матриц BLOSUM Blocks Substitution Matrices Матрицы BLOSUM заданной схожести • отбираются последовательности выше порогового значения. • Если схожесть равна 62%, окончательная матрица называется BLOSUM62 Пример построения матрицы BLOSUM на основе 4 последовательностей Построение матрицы BLOSUM. 1. Подсчет мутаций 2. Cуммирование частот мутаций 3. Матрица мутационных вероятностей. 4. Посчитать избыточность каждого символа (маргинальные вероятности) 5. Получаем матрицу BLOSUM Построение реальной матрицы BLOSUM62 1.2.3.Таблица частот мутаций Pij 1000 4. Расчет избыточности аминокислот pi pij j 5. Получение матрицы BLOSUM62 S ij 2 log 2 pij pi p j Оригинальная публикация матрицы BLOSUM • S. Henikoff and J. Henikoff (1992). “Amino acid substitution matrices from protein blocks”. PNAS 89: 10915-10919 • Данные для обучения: ~2000 консервативных блоков из базы данных BLOCKS. Выравненные белковые участки без пробелов. Каждый блок представляет консервативный участок семейства белка. Выбор матрицы счета Сравнение матриц счета BLOSUM • Основана на последовательностях с разными эволюционными периодами. • Консервативные блоки • Поиск консервативных доменов PAM • Основана на экстраполяции последовательностей с малым эволюционным периодом • Отслеживает эволюционное происхождение • Гомологичные последовательности