Что такое Ka, Kn, Ks, dN, dS? Екатерина Ермакова Алматы, апрель 2006 Ka, Kn, Ks, dN, dS : этимология K constant d distance S, s synonymous N, n nonsynonymous a amino acid altering Нуклеотидные замены в кодирующих областях генов распределены неравномерно. Нуклеотидные сайты испытывают различную функциональную нагрузку: • • • • • альтернативный сплайсинг вторичная структура РНК структура белков сайты связывания … Типичная задача Сравнить скорость и паттерн эволюции нескольких групп кодирующих участков генома, например: • постоянно и альтернативно сплайсируемые участки • гены, экспрессируемые в сердце и гены, экспрессируемые в пятках Точечные замены в кодирующей области синонимичные несинонимичные полезные нейтральные вредные Универсальный генетический код T T C A G C A G TTT Phe TCT Ser TAT Tyr TGT Cys T TTC Phe TCC Ser TAC Tyr TGC Cys C TTA Leu TCA Ser TAA Стоп TGA Стоп A TTG Leu TCG Ser TAG Стоп TGG Trp G CTT Leu CCT Pro CAT His CGT Arg T CTC Leu CCC Pro CAC His CGC Arg C CTA Leu CCA Pro CAA Gln CGA Arg A CTG Leu CCG Pro CAG Gln CGG Arg G ATT Ile ACT Thr AAT Asn AGT Ser T ATC Ile ACC Thr AAC Asn AGC Ser C ATA Ile ACA Thr AAA Lys AGA Arg A ATG Met ACG Thr AAG Lys AGG Arg G GTT Val GCT Ala GAT Asp GGT Gly T GTC Val GCC Ala GAC Asp GGC Gly C GTA Val GCA Ala GAA Glu GGA Gly A GTG Val GCG Ala GAG Glu GGG Gly G Что такое dN и dS? dS (dN) — это число (не)синонимичных замен, фиксировавшихся в кодирующей последовательности в процессе эволюции, поделенное на суммарный (не)синонимичный потенциал последовательности. Это функции двух моментов времени (t0,t), но существующие методы позволяют оценить эти функции только если t «сейчас», а t0 — момент расхождения двух ортологов или дупликация. А остальные? Ka = Kn = dN Ks = dS ω = dN/dS = Ka/Ks = Kn/Ks ω не зависит от времени, это отношение скоростей Нейтральные замены: на что делим? Не все нуклеотидные замены в геноме нейтральны. Чтобы извлекать информацию из количества «активных» замен, нужно нормировать их количество на «фоновый уровень» нейтральных замен. Какие замены считаются нейтральными - это параметр эволюционной модели. Нуклеотидные замены, которые на практике считают нейтральными: • замены в некодирующих участках: интронах, межгенных областях, в т.ч. псевдогенах и повторах; • синонимичные замены в кодирующих областях. dN = ωρμ dS = ρμ dN/dS = ω μ — фоновый уровень мутаций ρ — давление отбора на уровне РНК ω — давление отбора на уровне белка dN/dS критерий: отбор на уровне аминокислотной последовательности • dN/dS < 0 отрицательный отбор • dN/dS = 0 нейтральная эволюция • dN/dS > 0 положительный отбор «Жадные» (parsymony) оценки dN и dS Основанные на эволюционных путях: • Nei & Gojobori 1986 (однопараметрическая модель) • Ina 1995 (двупараметрическая модель) «Жадные» (parsymony) оценки dN и dS Основанные на учёте вырожденности позиций в кодонах: • Pamilo - Bianchi - Lee 1993 • Comeron 1995 ATT ATC ATA ATG Ile Ile Ile Met ACT ACC ACA ACG Thr Thr Thr Thr AAT AAC AAA AAG Третья позиция кодона ATG невырождена, AAA — 2-вырождена, ATA — 3-вырождена, ACA — 4-вырождена Asn Asn Lys Lys «Наиболее правдоподобные» (maximum likelyhood) оценки dN и dS Yang & Nielsen 2000 PAML (http://abacus.gene.ucl.ac.uk/software/paml.html) Единица эволюции — кодон. Метод Ины (Ina 1995) • простой, но основную «асимметрию» учитывает • быстро работает на длинных выравниваниях, позволяет делать bootstrap и оценивать точность • допускает усовершенствования Метод Ины: подготовка выравнивания • выравниваем две достаточно длинных кодирующих нуклеотидных последовательности (≥ 300 п.н.) • кодоны с делециями выбрасываем Метод Ины: допущения • рассматриваемые последовательности ортологи или паралоги из одного организма • с момента расхождения организмов (для ортологов) или с момента дупликации (для паралогов) две рассматриваемые последовательности эволюционировали с одинаковой скоростью Метод Ины: (не)синонимичный потенциал Каждая позиция нетерминального кодона обладает синонимичным потенциалом s и несинонимичным потенциалом n, s+n=1. В общем случае (не)синонимичный потенциал позиции в кодоне — это вероятность получить (не)синонимичную замену кодона мутацией нуклеотида в этой позиции. Если замена основания в одной из позиций кодона (при прочих фиксированных) приводит к несинонимичной замене кодона, эта позиция называется несинонимичной, для неё s=0, n=1. Если же любая замена основания в данной позиции приводит к синонимичной замене кодона, эта позиция называется синонимичной, для неё s=1, n=0. Метод Ины: двупараметрическая модель эволюции (Kimura) — скорость транзиций — скорость трансверсий R = / Метод Ины: s и n могут быть выражены через R Метод Ины: число нуклеотидных различий между кодонами Метод Ины: оценивание dN, dS и ω S* — среднее арифметическое суммарных синонимичных потенциалов выравненных последовательностей STs* — количество транзиций, наблюдаемых в выравнивании STv* — количество наблюдаемых трансверсий Наблюдаемые частоты синонимичных различий — транзиций и трансверсий — в синонимичных позициях: PS* = STs*/S* QS* = STv*/S* Оценка dS* для dS получается применением к PS* и QS* поправки Кимуры на множественные замены: dS* = –1/2 ln(1 – 2 PS* – QS*) – 1/4 ln(1 –2 QS*) Оценка dN* для dN строится аналогично. Параметр ω оценивается как dN*/dS*. Метод Ины: оценивание R = / R = 2 ln(1 – 2 P3* – Q3*) / ln(1 –2 Q3*) – 1 P3* и Q3* — наблюдаемые частоты транзиций и трансверсий в третьих позициях кодонов выравнивания Нуклеотидные замены в постоянных и альтернативных участках альтернативно сплайсируемых генов человека и мыши dN Участки кодирующей области: C — постоянные A — альтернативные AN — N-концевые альтернативные AI — внутренние альтернативные AC — С-концевые альтернативные Слева — гены разделены на 3 равные группы по скорости Справа — все альтернативно сплайсируемые гены (3029 штук) Нуклеотидные замены в постоянных и альтернативных участках альтернативно сплайсируемых генов человека и мыши dS Нуклеотидные замены в постоянных и альтернативных участках альтернативно сплайсируемых генов человека и мыши ω