Сравнение аминокислотных последовательностей белков и

advertisement
Сравнение аминокислотных последовательностей белков и
нуклеотидных последовательностей соответствующих генов.
Автор: Тихонов М.В. 201гр. Факультет биоинженерии и биоинформатики. МГУ им.
Ломоносова.
Результаты:
1) Создание выборки. Была получена выборка белков из банков SwissProt и UniProt. Затем
по этим данным найдены соответствующие записи из банка EMBL (Coding Sequences).
Полученные результаты приведены в таблице.
1
2
3
4
5
6
7
ID белка
HMP_ECOLI
Q3YZ03_SHISO
HMP_SALCH
HMP_ERWCT
HMP_VIBCH
HMP_DEIRA
HMP_BACSH
AC белка
P24232
Q3YZ03
Q57LF5
Q6D245
Q9KMY3
Q9RYR5
P49852
BAA16460
AAZ89259
AAX66457
CAG76149
AAF96096
AAF12394
CAA05584
2) Наблюдение элементарных эволюционных событий в ближайших гомологах. В
связи с отсутствием гомологов в диапазоне 97%, был выбран гомолог с идентичностью
99% (другой близкий гомолог был только с идентичностью 93%). Создано попарное
выравнивание гомологичных аминокислотных и нуклеотидных последоваьельностей.
* * 9 * * 18 * * 27 * * 36 * * 45 *
g1 : atgcttgacgctcaaaccatcgctacagtaaaagccaccatccctttact :
g2 : atgcttgacgctcaaaccatcgctacagtaaaagccaccatccctttact :
50
50
* 54 * * 63 * * 72 * * 81 * * 90 * * 99
g1 : ggtggaaacggggccaaagttaaccgcccatttctacgaccgtatgttta :
g2 : ggtggaaacggggccaaagttaaccgcccatttctacgaccgtatgttta :
100
100
* *108 * *117 * *126 * *135 * *144 * *
g1 : ctcataacccagaactcaaagaaatttttaacatgagtaaccagcgtaat :
g2 : ctcataacccagaactcaaagaaatttttaacatgagtaaccagcgtaat :
150
150
153 * *162 * *171 * *180 * *189 * *198
g1 : ggcgatcaacgtgaagccctgtttaacgctattgccgcctacgccagtaa :
g2 : ggcgatcaacgtgaagccctgtttaacgctattgccgcctacgccagtaa :
200
200
* *207 * *216 * *225 * *234 * *243 * *2
g1 : tattgaaaacctgcctgcgctgctgccagcggtagaaaaaatcgcgcaga :
g2 : tattgaaaacctgcctgcgctgctgccagcggtagaaaaaatcgcgcaga :
250
250
52 * *261 * *270 * *279 * *288 * *297 *
g1 : agcacaccagcttccagatcaaaccggaacagtacaacatcgtcggtgaa :
g2 : agcacaccagcttccagatcaaaccggaacagtacaacatcgtcggtgaa :
300
300
*306 * *315 * *324 * *333 * *342 * *35
g1 : cacctgttggcaacgctggacgaaatgttcagcccggggcaggaagtgct :
g2 : cacctgttggcaacgctggacgaaatgttcagcccggggcaggaagtgct :
350
350
1 * *360 * *369 * *378 * *387 * *396 *
g1 : ggacgcgtggggtaaagcctatggtgtactggctaatgtatttatcaatc :
400
g2 : ggacgcgtggggtaaagcctatggtgtactggctaatgtatttatcaatc :
400
*405 * *414 * *423 * *432 * *441 * *450
g1 : gcgaggcggaaatctataacgaaaacgccagcaaagccggtggttgggaa :
g2 : gcgaggcggaaatctataacgaaaacgccagcaaagccggtggttgggaa :
450
450
* *459 * *468 * *477 * *486 * *495 *
g1 : ggtactcgcgatttccgcattgtggctaaaacaccgcgcagcgcgcttat :
g2 : ggtactcgcgatttccgcattgtggctaaaacaccgcgcagcgcgcttat :
500
500
*504 * *513 * *522 * *531 * *540 * *549
g1 : caccagcttcgaactggagccggtcgacggtggcgcagtggcagaatacc :
g2 : caccagcttcgaactggagccggtcgacggtggcgcagtggcagaatacc :
550
550
* *558 * *567 * *576 * *585 * *594 * *
g1 : gtccggggcaatatctcggcgtctggctgaagccggaaggtttcccacat :
g2 : gtccggggcaatatctcggcgtctggctgaagccggaaggtttcccgcat :
600
600
603 * *612 * *621 * *630 * *639 * *648
g1 : caggaaattcgtcagtactctttgactcgcaaaccggatggcaaaggcta :
g2 : caggaaattcgtcagtactctttgactcgcaaaccggatggcaaaggcta :
650
650
* *657 * *666 * *675 * *684 * *693 * *7
g1 : tcgtattgcggtgaaacgcgaagagggtgggcaggtatccaactggttgc :
g2 : tcgtattgcggtgaaacgcgaagagggtgggcaggtatccaactggttgc :
700
700
02 * *711 * *720 * *729 * *738 * *747 *
g1 : acaatcacgccaatgttggcgatgtcgtgaaactggtcgctccggcaggt :
g2 : acaatcacgccaatgttggcgatgtcgtgaaactggtcgctccggcaggt :
750
750
*756 * *765 * *774 * *783 * *792 * *80
g1 : gatttctttatggctgtcgcagatgacacaccagtgacgttaatctctgc :
g2 : gatttctttatggctgtcgcagatgacacaccagtgacgttaatctctgc :
800
800
1 * *810 * *819 * *828 * *837 * *846 *
g1 : cggtgttggtcaaacgccaatgctggcaatgctcgacacgctggcaaaag :
g2 : cggtgttggtcaaacgccaatgctggcaatgctcgacacgctggcaaaag :
850
850
*855 * *864 * *873 * *882 * *891 * *900
g1 : caggccacacagcacaagtgaactggttccatgcggcagaaaatggcgat :
g2 : caggccacacagcacaagtgaactggttccatgcggcagaaaatggcgat :
900
900
* *909 * *918 * *927 * *936 * *945 *
g1 : gttcacgcctttgccgatgaagttaaggaactggggcagtcactgccgcg :
g2 : gttcacgcctttgccgatgaagttaaggaactggggcagtcactgccgcg :
950
950
*954 * *963 * *972 * *981 * *990 * *999
g1 : ctttaccgcgcacacctggtatcgtcagccgagcgaagccgatcgcgcta : 1000
g2 : ctttaccgcgcacacctggcatcgtcagccgagcgaagccgatcgcgcta : 1000
* 1008 * 1017 * 1026 * 1035 * 1044 * 1
g1 : aaggtcagtttgatagcgaaggtctgatggatttgagcaaactggaaggt : 1050
g2 : aaggtcagtttgatagcgaaggtctgatggatttgagcaaactggaaggt : 1050
053 * 1062 * 1071 * 1080 * 1089 * 1098
g1 : gcgttcagcgatccgacaatgcagttctatctctgcggcccggttggctt : 1100
g2 : gcgttcagcgatccgacaatgcagttctatctatgcggcccggttggctt : 1100
* 1107 * 1116 * 1125 * 1134 * 1143 * 11
g1 : catgcagtttaccgcgaaacagttagtggatctgggcgtgaagcaggaaa : 1150
g2 : catgcagtttaccgcgaaacagttagtggatctgggcgtgaagcaggaaa : 1150
52
*
1161
*
1170
*
1179
*
1188
*
g1 : acattcattacgaatgctttggcccgcataaggtgctgtaa : 1191
g2 : acattcattacgaatgctttggcccgcataaggtgctgtaa : 1191
___________________
*
10
*
20
*
30
*
40
*
50
p1 : MLDAQTIATVKATIPLLVETGPKLTAHFYDRMFTHNPELKEIFNMSNQRN :
p2 : MLDAQTIATVKATIPLLVETGPKLTAHFYDRMFTHNPELKEIFNMSNQRN :
50
50
*
60
*
70
*
80
*
90
* 100
p1 : GDQREALFNAIAAYASNIENLPALLPAVEKIAQKHTSFQIKPEQYNIVGE : 100
p2 : GDQREALFNAIAAYASNIENLPALLPAVEKIAQKHTSFQIKPEQYNIVGE : 100
* 110
* 120
* 130
* 140
* 150
p1 : HLLATLDEMFSPGQEVLDAWGKAYGVLANVFINREAEIYNENASKAGGWE : 150
p2 : HLLATLDEMFSPGQEVLDAWGKAYGVLANVFINREAEIYNENASKAGGWE : 150
* 160
* 170
* 180
* 190
* 200
p1 : GTRDFRIVAKTPRSALITSFELEPVDGGAVAEYRPGQYLGVWLKPEGFPH : 200
p2 : GTRDFRIVAKTPRSALITSFELEPVDGGAVAEYRPGQYLGVWLKPEGFPH : 200
* 210
* 220
* 230
* 240
* 250
p1 : QEIRQYSLTRKPDGKGYRIAVKREEGGQVSNWLHNHANVGDVVKLVAPAG : 250
p2 : QEIRQYSLTRKPDGKGYRIAVKREEGGQVSNWLHNHANVGDVVKLVAPAG : 250
* 260
* 270
* 280
* 290
* 300
p1 : DFFMAVADDTPVTLISAGVGQTPMLAMLDTLAKAGHTAQVNWFHAAENGD : 300
p2 : DFFMAVADDTPVTLISAGVGQTPMLAMLDTLAKAGHTAQVNWFHAAENGD : 300
* 310
* 320
* 330
* 340
* 350
p1 : VHAFADEVKELGQSLPRFTAHTWYRQPSEADRAKGQFDSEGLMDLSKLEG : 350
p2 : VHAFADEVKELGQSLPRFTAHTWHRQPSEADRAKGQFDSEGLMDLSKLEG : 350
* 360
* 370
* 380
* 390
*
p1 : AFSDPTMQFYLCGPVGFMQFTAKQLVDLGVKQENIHYECFGPHKVL : 396
p2 : AFSDPTMQFYLCGPVGFMQFTAKQLVDLGVKQENIHYECFGPHKVL : 396
В аминокислотной последовательности найдена только одна замена по 324 позиции. Это
соответствует замене по 970 позиции в нуклеотидной последовательности. Получается,
что произошло одно из следующих событий событие:
В исходном кодоне (неизвестно в каком именно TAT, CAT или может даже в другом)
произошла мутация по первому из триплета нуклеотиду, что привело к изменению в
аминокислотной последовательности.
Кроме приведенной выше замены в ДНК есть еще две по 597 и 1083 позициям. Обе они
произошли по третьей позиции кодона. В мутации по 597 позиции любая замена по
третьей позиции будет синонимичной, так как любой кодон вида ССХ кодирует пролин.
CCA
↕
CCG
Р
↕
Р
Во случае замены по 1083 позиции ситуация аналогична; любой триплет вида CTX
кодирует лейцин.
CTC
↕
CTA
L
↕
L
В данном случае соотношение синонимичных и несинонимичных замен нуклеотидов
равно 2:1. Но это частный случай, и его нельзя считать общим для всех замен. Даже в
таком случае видна основная закономерность стабилизирующего отбора – количество
синонимичных (значит молчащих мутаций) больше, чем несинонимичных. Можно
предположить, что если бы отличия в генах были бы более значительны, то отношение
бы увеличилось в пользу синонимичных замен. Это легко объяснить тем, что белоки,
как молекулы, выполняющая определенную функцию, имеет определенное строение,
проверенное эволюцией и оптимальное для существования организма. Любая, не
молчащая, мутация приводит к изменению структуры, и практически всегда нарушает
функцию. Мутации же происходят и каждый раз они приводят к изменению или не
изменения в белковой молекуле. Если мутация проявляется, как неблагоприятная то
организм погибает, не оставив потомства. Если мутация не проявляется, то она может
сохранится, что чаще всего и происходит. В другом случае, когда действует отбор на
появление новых форм, отношение изменяется в противоположную сторону
(соотношение синонимичных и несинонимичных замен нуклеотидов меньше 1). В
данном типе отбора наоборот приветствуются несинонимичных мутации. Например, в
вирусном антигене. Если антиген не накопит определенное количество несинонимичных
мутаций, то его узнает иммунная система и уничтожит, в отличии от вирусов с
измененным белком.
Матрица замен нуклеотидов в таком виде практически не о чем не говорит – слишком
мало данных. Можно предположить, что из-за равновероятности мутаций по каждому
основанию, количество в каждой клетке должно быть приблизительно одинаковым. С
другой стороны замена пурина на пурин или пиримидина на пиримидин (такие замены
называются транзиции) более вероятна, чем замена пурин ↔ пиримидин (трансверсии).
Даже в этой таблице с небольшим количеством данных видно, что более вероятны
транзиции. Это можно объяснить объемным эффектом – пары, которые не только не
комплиментарны, но и не подходят по размеру легко находятся репаративными
ферментами.
A
A
C
G
T
C
G
1
T
1
0
0
1
0
Какие данные можно получить из построенных графиков? (Графики находятся в файле
excel graf.xls) Центральная линия тренда, соединяющая точки (100,100) и (5, 25)
показывает идеализированную линейную модель замен, такую, где 100%-ое совпадение
белков соответствует 100%-му соответствию генов, а если в белки идентичны на 5%, то
ген – на 25% (это легко получить из вероятностных соображений). На самом деле такой
расклад встречается довольно редко. Рассматривая графики зависимости процента
идентичности гена от процента идентичности белка нужно, в первую очередь, обратить
внимание на отклонение от линии тренда. Если график лежит значительно ниже линии
тренда, что означает преобладание различий в гене от теоретического, то, скорей всего,
в гене остаются молчащие мутации, не влияющие на структуру белка (например по 3-ей
позиции). Это означает, что большинство проявляющихся мутаций негативно
сказываются на белке и приводит к гибели. Значит, чем сильнее отклонился график вниз
от линии тренда, тем сильнее давление отбора.
Рассмотрим другой случай, когда график лежит выше линии тренда. Это означает, что
белок поддается большему изменению, чем теоретический при одинаковом изменении
ДНК. (По-моему, вполне вероятно, что сложится такая ситуация, когда любая замена
нуклеотида приведет к замене в белке. В этом случае график будет лежать выше линии
тренда.). Тогда график может лежать выше линии тренда.) Такое возможно, например,
при дивергентной эволюции, смене функции, или преобладанием в белке аминокислот,
для которых немного кодонов.
Рассмотрим теперь конкретные графики. Видно, что оба графика, на большом
протяжении лежат ниже, чем линия тренда. Это говорит о том, что белки
консервативны, и замена аминокислоты ни к чему хорошему не приводит. В генах же
мутации сохраняются, но опять же они – молчащие. В примере с вирусными белками
материал богаче, поэтому график более вариабелен. Видно, в небольшой окрестности
90% есть локальный максимум. По всей вероятности, в этом диапазоне изменение белка
не особенно влияет на его функции (например, меняется периферия белковой
структуры). Что касается диапазона 82-98%, наблюдается локальный минимум. В этой
позиции много молчащих мутаций гена. Далее при убывании id белка идет стабильное
отклонение от линии тренда. Что касается графика гомологов hmp_ecoli, видно
стабильное отклонение от линии тренда. Это говорит о стабильном давлении отбора.
Сопроводительные материалы: файл graf.xls содержит графики. Файлы script_gen и
script_pr содержат скрипт для попарного выравнивания соответственно белков и их
генов.
Download