Cравнение аминокислотных последовательностей белков и нуклеотидных последовательностей соответствующих генов Создание двух выборок — выборки белков и выборки их генов с помощью BLAST-сервера EBI. Белок (AC) p1 (P09373_ECOLI) p2 (Q83LP6_SHIFL) p3 (Q57R28_SALCH) p4 (Q7N6E2_PHOLL) p5 (Q9S4V8_AERHY) p6 (Q89YJ3_BACTN) p7 (Q92A91_LISIN) Ген (AC) g1 (AAC73989) g2 (AAN42528) g3 (AAX64833) g4 (CAE13906) g5 (AAD52103) g6 (AAO79843) g7 (CAC97261) Наблюдение элементарных эволюционных событий в ближайших гомологах 1. При выравнивании белка PFLB_ECOLI и его ближайшего гомолога Q83LP6_SHIFL (~97% совпадений) программой needle обнаружено пять аминокислотных замен: в 93-ой позиции – Q/A, в 97-ой позиции – I/V, в 198-ой позиции – L/Y, в 470-ой позиции – V/L, в 472-ой позиции – N/S. Так выглядит содержащая замены: часть выравнивания белковых последовательностей, * 100 * 120 * 140 * 160 * 1 p1 : INKQLEKIVGLQTEAPLKRALIPFGGIKMIEGSCKAYNRELDPMIKKIFTEYRKTHNQGVFDVYTPDILRCRKSGVLTGLPDAYGRGRI : 177 p2 : INKALEKVVGLQTEAPLKRALIPFGGIKMIEGSCKAYNRELDPMIKKIFTEYRKTHNQGVFDVYTPDILRCRKSGVLTGLPDAYGRGRI : 178 80 * 200 * 220 * 240 * 260 p1 : IGDYRRVALYGIDYLMKDKLAQFTSLQADLENGVNLEQTIRLREEIAEQHRALGQMKEMAAKYGYDISGPATNAQEAIQWTYFGYLAAV : 266 p2 : IGDYRRVALYGIDYLMKDKYAQFTSLQADLENGVNLEQTIRLREEIAEQHRALGQMKEMAAKYGYDISGPATNAQEAIQWTYFGYLAAV : 267 * 280 * 300 * 320 * 340 * p1 : KSQNGAAMSFGRTSTFLDVYIERDLKAGKITEQEAQEMVDHLVMKLRMVRFLRTPEYDELFSGDPIWATESIGGMGLDGRTLVTKNSFR : 355 p2 : KSQNGAAMSFGRTSTFLDVYIERDLKAGKITEQEAQEMVDHLVMKLRMVRFLRTPEYDELFSGDPIWATESIGGMGLDGRTLVTKNSFR : 356 360 * 380 * 400 * 420 * 440 p1 : FLNTLYTMGPSPEPNMTILWSEKLPLNFKKFAAKVSIDTSSLQYENDDLMRPDFNNDDYAIACCVSPMIVGKQMQFFGARANLAKTMLY : 444 p2 : FLNTLYTMGPSPEPNMTILWSEKLPLNFKKFAAKVSIDTSSLQYENDDLMRPDFNNDDYAIACCVSPMIVGKQMQFFGARANLAKTMLY : 445 * 460 * 480 * 500 * 520 * p1 : AINGGVDEKLKMQVGPKSEPIKGDVLNYDEVMERMDHFMDWLAKQYITALNIIHYMHDKYSYEASLMALHDRDVIRTMACGIAGLSVAA : 533 p2 : AINGGVDEKLKMQVGPKSEPIKGDLLSYDEVMERMDHFMDWLAKQYITALNIIHYMHDKYSYEASLMALHDRDVIRTMACGIAGLSVAA : 534 Лиловым выделены замены. 2. Какие элементарные эволюционные события повлекли за собой аминокислотные замены? Так выглядит часть выравнивания нуклеотидных последовательностей, содержащая нуклеотидные замены: * 160 * 180 * 200 * g1 : ctgaagcgaccaccaccctgtgggacaaagtaatggaaggcgttaaactggaaaaccgcactcacgcgcca : g2 : ctgaagcgaccaccaccctgtgggacaaagtaatggaaggtgttaaactggaaaaccgcactcacgcgcca : 213 213 220 * 240 * 260 * 280 g1 : gttgactttgacaccgctgttgcttccaccatcacctctcacgacgctggctacatcaacaagcagc-ttg : g2 : gttgattttgacaccgctgttgcttccaccatcacctctcacgacgctggctacatcaataa--agcgttg : 283 282 * 300 * 320 * 340 * g1 : agaaaa--tcgttggtctgcagactgaagctccgctgaaacgtgctcttatcccgttcggtggtatcaaaa : g2 : -gaaaaagttgttggtctgcagactgaagctccgctgaaacgtgctcttatcccgttcggtggtatcaaaa : 352 352 360 * 380 * 400 * 420 g1 : tgatcgaaggttcctgcaaagcgtacaaccgcgaactggatccgatgatcaaaaaaatcttcactgaatac : g2 : tgatcgaaggttcctgcaaagcgtacaaccgcgaactggacccgatgatcaaaaaaatcttcactgaatac : 423 423 * 440 * 460 * 480 * g1 : cgtaaaactcacaaccagggcgtgttcgacgtttacactccggacatcctgcgttgccgtaaatctggtgt : g2 : cgtaaaactcacaaccagggcgtgttcgacgtttacactccggacatcctgcgttgccgtaaatccggtgt : 494 494 500 * 520 * 540 * 560 g1 : tctgaccggtctgccagatgcatatggccgtggccgtatcatcggtgactaccgtcgcgttgcgctgtacg : g2 : tctgaccggtctgccagatgcttatggccgtggccgtatcatcggtgactaccgtcgcgttgcgctgtacg : 565 565 * 580 * 600 * 620 * 64 g1 : gtatcgactacctgatgaaagacaaactggcacagttcacttctctgcaggctgatctggaaaacggcgta : g2 : gtatcgactacctgatgaaagacaaatacgctcagttcacctctctacaggctgatctggaaaacggcgta : 636 636 0 * 660 * 680 * 700 * g1 : aacctggaacagactatccgtctgcgcgaagaaatcgctgaacagcaccgcgctctgggtcagatgaaaga : g2 : aacctggaacagactatccgtctgcgcgaagaaatcgctgaacagcaccgcgctctgggtcagatgaaaga : 707 707 720 * 740 * 760 * 780 g1 : aatggctgcgaaatacggctacgacatctctggtccggctaccaacgctcaggaagctatccagtggactt : g2 : aatggctgcgaaatacggctacgacatctctggtccggctaccaacgctcaggaagctatccagtggactt : 778 778 * 800 * 820 * 840 * g1 : acttcggctacctggctgctgttaagtctcagaacggtgctgcaatgtccttcggtcgtacctccaccttc : g2 : acttcggctacctggctgctgttaagtctcagaacggtgctgcaatgtccttcggtcgtacctccaccttc : 849 849 860 * 880 * 900 * 920 g1 : ctggatgtgtacatcgaacgtgacctgaaagctggcaagatcaccgaacaagaagcgcaggaaatggttga : g2 : ctggatgtgtacatcgaacgtgacctgaaagctggcaagatcaccgaacaagaagcgcaggaaatggttga : 920 920 * 940 * 960 * 980 * g1 : ccacctggtcatgaaactgcgtatggttcgcttcctgcgtactccggaatacgatgaactgttctctggcg : g2 : ccacctggtcatgaaactgcgtatggttcgcttcctgcgtactccggaatacgatgaactgttctctggcg : 991 991 1000 * 1020 * 1040 * 1060 g1 : acccgatctgggcaaccgaatctatcggtggtatgggcctcgacggtcgtaccctggttaccaaaaacagc : 1062 g2 : acccaatctgggcaaccgaatctatcggtggtatgggcctcgatggtcgtaccctggttaccaaaaacagc : 1062 * 1080 * 1100 * 1120 * g1 : ttccgtttcctgaacaccctgtacaccatgggtccgtctccggaaccgaacatgaccattctgtggtctga : 1133 g2 : ttccgtttcctgaacaccctgtacactatggggccgtctccggaaccgaacatgaccattctgtggtctga : 1133 1140 * 1160 * 1180 * 1200 g1 : aaaactgccgctgaacttcaagaaattcgccgctaaagtgtccatcgacacctcttctctgcagtatgaga : 1204 g2 : aaaactgccgctgaacttcaagaaattcgccgctaaagtgtccatcgacacctcttctctgcagtatgaga : 1204 * 1220 * 1240 * 1260 * 12 g1 : acgatgacctgatgcgtccggacttcaacaacgatgactacgctattgcttgctgcgtaagcccgatgatc : 1275 g2 : acgatgacctgatgcgtccggacttcaacaacgatgactacgctatcgcttgctgcgtaagcccgatgatc : 1275 80 * 1300 * 1320 * 1340 g1 : gttggtaaacaaatgcagttcttcggtgcgcgtgcaaacctggcgaaaaccatgctgtacgcaatcaacgg : 1346 g2 : gttggtaaacaaatgcagttcttcggtgcgcgtgcaaacctggcgaaaaccatgctgtacgcaatcaacgg : 1346 * 1360 * 1380 * 1400 * 1420 g1 : cggcgttgacgaaaaactgaaaatgcaggttggtccgaagtctgaaccgatcaaaggcgatgtcctgaact : 1417 g2 : cggcgttgacgaaaaactgaaaatgcaggttggtccgaagtctgaaccgatcaaaggcgatctcctgagct : 1417 * 1440 * 1460 * 1480 * g1 : atgatgaagtgatggagcgcatggatcacttcatggactggctggctaaacagtacatcactgcactgaac : 1488 g2 : acgatgaagtgatggagcgcatggatcacttcatggactggctggctaaacagtacatcactgcactgaac : 1488 1500 * 1520 * 1540 * 1560 g1 : atcatccactacatgcacgacaagtacagctacgaagcctctctgatggcgctgcacgaccgtgacgttat : 1559 g2 : atcatccactacatgcacgacaagtacagctacgaagcctctctgatggcgctgcacgaccgtgacgttat : 1559 * 1580 * 1600 * 1620 * g1 : ccgcaccatggcgtgtggtatcgctggtctgtccgttgctgctgactccctgtctgcaatcaaatatgcga : 1630 g2 : ccgcaccatggcgtgtggtatcgctggtctgtccgttgctgctgactccctgtctgcaatcaaatatgcga : 1630 1640 * 1660 * 1680 * 1700 g1 : aagttaaaccgattcgtgacgaagacggtctggctatcgacttcgaaatcgaaggcgaatacccgcagttt : 1701 g2 : aagttaaaccgattcgtgacgaagacggtctggctatcgacttcgaaatcgaaggcgaatacccgcagttt : 1701 * 1720 * 1740 * 1760 * g1 : ggtaacaatgatccgcgtgtagatgacctggctgttgacctggtagaacgtttcatgaagaaaattcagaa : 1772 g2 : ggtaacaatgatccgcgtgtagatgacctggctgttgacctggtagaacgtttcatgaagaaaattcagaa : 1772 1780 * 1800 * 1820 * 1840 g1 : actgcacacctaccgtgacgctatcccgactcagtctgttctgaccatcacttctaacgttgtgtatggta : 1843 g2 : actgcacacctaccgtgacgctatcccgactcagtctgttctgaccatcacttctaacgttgtgtatggta : 1843 * 1860 * 1880 * 1900 * 1 g1 : agaaaacgggtaacaccccagacggtcgtcgtgctggcgcgccgttcggaccgggtgctaacccgatgcac : 1914 g2 : agaaaactggtaacaccccagacggtcgtcgtgctggcgcgccgttcggaccgggtgctaacccgatgcac : 1914 920 * 1940 * 1960 * 1980 g1 : ggtcgtgaccagaaaggtgcagtagcctctctgacttccgttgctaaactgccgtttgcttacgctaaaga : 1985 g2 : ggtcgtgaccagaaaggtgctgtagcgtctctgacttccgttgctaaactgccgtttgcttacgctaaaga : 1985 Голубым выделены делеции. Лиловым выделены замены в третьей позиции. Серым выделены замены в первой и второй позициях. В рамочку обведены замены в нуклеотидной последовательности, повлекшие изменения в аминокислотной последовательности: 1) Q – A (276-281 позиции): две несинонимичные замены - по первой позиции С G, и по второй позиции А - С. GCAGC--AGCG 2) L – Y (595-597 позиции): две несинонимичные замены - по первой позиции С T, и по второй позиции Т - А. CTG TAC 3) N – S (1417-1419 позиции): одна несинонимичная замена по второй позиции А G. AAC AGC 4) I – V (289-291 позиции): одна несинонимичная замена по первой позиции А - G. A--TC AAGTT 5) V – L (1408-1410 позиции): одна несинонимичная замена по первой позиции G – C. GTC CTC Отметим следующую особенность выравнивания: нуклеотидная последовательность, соответствующая первой и второй аминокислотным заменам, была выровнена следующим образом: gcagc-ttgagaaaa--tc --agcgttg-gaaaaagtt Как видно, появляются делеции. Но возможен другой вариант выравнивания: gcagcttgagaaaatc agcgttggaaaaagtt Такое выравнивание полностью верно, но предполагается наличие большего числа замен в последовательностях. Заметим, что имеющаяся замена пятого нуклеотида данного выравнивания C/T, хотя и произошла по «первой позиции», является синонимичной. Случаев синонимичных замен по первоначальному выравниванию: 20. Из них в третьих позициях кодонов: 20. Случаев синонимичных замен по выравниванию без делеций: 24. Из них в третьих позициях кодонов: 23. Соотношение между синонимичными и несинонимичными заменами по выравниванию, не содержащему делеции: 24/7 ~ 3,4 Чем чаще происходит синонимичная замена по сравнению с несинонимичной, тем более консервативная последовательность. Довольно высокое значение отношения свидетельствует о консервативности. «Матрица замен» нуклеотидов: a c g t a 0 c g 0 3 t 4 3 4 1 2 2 3 3 1 2 2 Известна закономерность: транзиции более вероятны, чем трансверсии. То есть, вероятнее замена пуринового основания на пуриновое, чем на пиримидиновое. Из этого следует, что замены A/G и C/T встречаются чаще. По получившейся матрице замен эта закономерность хорошо выявляется для пары C/T, а неочевидность преобладания замены A/G можно списать на недостаточность данных. Исследование зависимости процента совпадений последовательностей белков от процента совпадений последовательностей их генов Haem agglutinin 100 Gene % identity 80 60 40 20 0 0 20 40 60 80 100 Protein % identity График 1. Пунктирная линия (ось С) показывает зависимость процента совпадений в белковых последовательностях от совпадений в нуклеотидной последовательности. Ось С получена следующим образом: прямой соединены точки, отвечающие за выравнивание, с одной стороны, последовательности некоторого белка с самим собой (100, 100), с другой стороны, последовательностей двух несвязанных белков (5, 25). Синяя ломаная – аналогичная зависимость для выборки гомологов белка гемагглютинина. Formate acetyltransferase 1 100% Gene % identity 80% 60% 40% 20% 0% 0% 20% 40% 60% 80% 100% Protein % identity График 2. Розовая линия (ось С) показывает зависимость процента совпадений в белковых последовательностях от совпадений в нуклеотидной последовательности. Ось С получена следующим образом: прямой соединены точки, отвечающие за выравнивание, с одной стороны, последовательности некоторого белка с самим собой (100, 100), с другой стороны, последовательностей двух несвязанных белков (5, 25). Синяя ломаная – аналогичная зависимость для выборки гомологов белка форматацетилтрансферазы 1. На первый взгляд графики похожи, но стоит отметить отклонение графика форматацетилтрансферазы 1 от оси С по сравнению с графиком гемагглютинина. Известно, что вирус гриппа распространяется среди людей, присоединяясь к человеческим клеткам с помощью белка гемагглютинина, находящегося на оболочке вируса. Поскольку конфигурация аминокислот, определяющих разновидность белка гемагглютинина, часто изменяется, ежегодно появляется новый тип вируса гриппа. Из этих данных можно сделать вывод, что первый график соответствует набору мало консервативных последовательностей. В то же время было получено, что гомологи белка форматацетилтрансферазы 1 являются довольно консервативными. Этот факт подтверждается соответствующим графиком. Графий, (по крайней мере, для двух ближайших гомологов, для которых вычислено отношение синонимичных и несинонимичных замен) форматацетилтрансферазы 1 сильнее отклоняется от оси С, в то время как для гемагглютинина этого не наблюдается.