Cравнение аминокислотных последовательностей

реклама
Cравнение аминокислотных последовательностей белков и
нуклеотидных последовательностей соответствующих генов
(Занятие 10)

Составление выборки аминокислотных и нуклеотидных последовательностей гомологов белка
AQPZ_ECOLI:
ID белковых (БД UniProt) и нуклеотидных (БД EMBL (Coding Sequences)) последовательностей
найденных с помощью BLAST-сервера EBI гомологов белка AQPZ_ECOLI и значения их идентичности
последнему:
AQPZ_ECO57
Q65R38_MANSM
AQPZ_PHOLL
Q4KGG6_PSEF5
Q89YL3_BACTN
Q81L86_BACAN
Q6LYM7_METMP

AE005174_2007
AE016827_4064
BX571865_504
CP000076_3079
AE016946_105
AE017038_236
BX957221_354
99
79
76
70
46
43
34
Наблюдение элементарных эволюционных событий в ближайших гомологах:
Для сравнения был выбран ближайший найденный гомолог белка AQPZ_ECOLI – AQPZ_ECO57 (99%
Identity). Соответствующие нуклеотидные последовательности имеют идентификаторы EC38664 и
AE005174_2007. Выравнивания были построены с помощью инструмента needle из пакета EMBOSS с
параметрами взятыми по умолчанию.
Полное парное выравнивание аминокислотных последовательностей выбранных белков:
*
20
*
40
*
AQPZ_ECOLI : MFRKLAAECFGTFWLVFGGCGSAVLAAGFPELGIGFAGVALAFGLTVLTMAFAVGHIS :
AQPZ_ECO57 : MFRKLAAECFGTFWLVFGGCGSAVLAAGFPELGIGFAGVALAFGLTVLTMAFAVGHIS :
58
58
60
*
80
*
100
*
AQPZ_ECOLI : GGHFNPAVTIGLWAGGRFPAKEVVGYVIAQVVGGIVAAALLYLIASGKTGFDAAASGF : 116
AQPZ_ECO57 : GGHFNPAVTIGLWAGGRFPAKEVVGYVIAQVVGGIVAAALLYLIASGKTGFDAAASGF : 116
120
*
140
*
160
*
AQPZ_ECOLI : ASNGYGEHSPGGYSMLSALVVELVLSAGFLLVIHGATDKFAPAGFAPIAIGLALTLIH : 174
AQPZ_ECO57 : ASNGYGEHSPGGYSMLSALVVELVLSAGFLLVIHGATDKFAPAGFAPIAIGLALTLIH : 174
180
*
200
*
220
*
AQPZ_ECOLI : LISIPVTNTSVNPARSTAVAIFQGGWALEQLWFFWVVPIVGGIIGGLIYRTLLEKRD : 231
AQPZ_ECO57 : LISIPVTNTSVNPARSTAVAIFQGGWALEQLWFFWVVPIVGGIIGGLIYRTLLEKRN : 231



Голубая заливка – позиции с несинонимичными нуклеотидными заменами
(= позиции с аминокислотными заменами);
Желтая заливка – позиции с синонимичными нуклеотидными заменами;
Зеленая заливка – см. примечание.
Полное парное выравнивание нуклеотидных последовательностей выбранных белков:
*
20
*
40
*
EC38664
: atgttcagaaaattagcagctgaatgttttggtactttctggcttgtttttggtggct :
AE005174_2 : atgttcagaaaattagcagctgaatgttttggtactttctggcttgtttttggtggct :
58
58
60
*
80
*
100
*
EC38664
: gtggtagtgctgtactggccgcaggcttcccggaattaggcattggttttgccggcgt : 116
AE005174_2 : gtggtagtgctgtactggccgcaggcttcccggaattaggcattggttttgccggcgt : 116
120
*
140
*
160
*
EC38664
: ggcgttggcgttcggtctgaccgttctgacgatggcctttgctgttggtcatatttct : 174
AE005174_2 : ggcgttggcgttcggtctgaccgttctgacgatggcctttgctgttggtcatatttct : 174
180
*
200
*
220
*
EC38664
: ggtggtcattttaacccggcggtcactattggtttatgggctggcggacgttttccgg : 232
AE005174_2 : ggtggtcattttaacccggcggtcactattggtttatgggctggcggacgttttccgg : 232
240
*
260
*
280
*
EC38664
: caaaagaagtcgttggctacgtaattgcccaggttgtcggcggtattgttgcagcggc : 290
AE005174_2 : caaaagaagtcgttggctacgtaattgcccaggttgtcggcggtattgttgcggcagc : 290
300
*
320
*
340
EC38664
: gctcgtgtatttaattgccagtggtaaaacgggttttgacgcggcagccagcggtttt : 348
AE005174_2 : gctgctgtatttaattgccagtggtaaaacgggttttgacgcggcagccagcggtttt : 348
*
360
*
380
*
400
EC38664
: gcttctaacggttatggcgagcattcaccaggcggttattccatgctttccgcgctgg : 406
AE005174_2 : gcttctaacggttatggcgagcattcaccaggcggttattccatgctttccgcgctgg : 406
*
420
*
440
*
460
EC38664
: tagttgaactggtattgagtgcaggtttcctgttggtgatccacggcgcaaccgacaa : 464
AE005174_2 : tagttgaactggtattgagtgcgggcttcctgttagtgatccacggtgcaaccgacaa : 464
*
480
*
500
*
520
EC38664
: attcgcgccggcaggttttgcgccgatcgctattggtctggccttaaccctgattcac : 522
AE005174_2 : attcgctccggcaggttttgcgccgatcgctattggtctggccttaaccctgattcac : 522
*
540
*
560
*
580
EC38664
: ttaattagtattccggtgactaacacttctgttaacccggcgcgcagcaccgcggttg : 580
AE005174_2 : ttaatcagtattccggtgactaacacttctgttaacccggcgcgcagcaccgcggttg : 580
*
600
*
620
*
6
EC38664
: ctatcttccagggcggctgggcattagaacaactgtggttcttctgggtggtgccaat : 638
AE005174_2 : ccatcttccagggcggctgggcattagaacaactgtggttcttctgggtggtgccaat : 638
40
*
660
*
680
*
EC38664
: tgtcggcggcattatcggtggtctgatttaccggaccctgctggaaaagcgtgattaa : 696
AE005174_2 : tgtcggtggcattatcggtggtctgatttaccggactctgctggaaaagcgtaattaa : 696




Голубая заливка – кодоны с несинонимичными нуклеотидными заменами;
Желтая заливка – кодоны с синонимичными нуклеотидными заменами;
Зеленая заливка – см. примечание;
Красный шрифт – непосредственно позиция с заменой.
Примечание: позиция 295 в нуклеотидном выравнивании имеет ряд особенностей. Так, при
расшифровке кодонов с использованием таблицы стандартного генетического кода выясняется, что в
аминокислотном выравнивании на соответствующем месте (позиция 99) должны стоять валин для
белка AQPZ_ECOLI и лейцин – для AQPZ_ECO57, в то время как на самом деле там стоят лейцины в
обоих случаях. Поскольку выравнивания не содержат гэпов (и следовательно номера позиций в них
совпадают с номерами позиций в самих последовательностях), а генетический код E.coli не
отличается от стандартного можно сделать вывод, что эти различия являются результатами ошибки в
базе данных. Так как Swiss-Prot в отличие от EMBL(CDS) является курируемой БД, позиции 295/99 я
посчитал содержащими синонимичную нуклеотидную замену.
Сравнение двух полных парных выравниваний:
аминокислотных последовательностей:
Белки (ID):
AQPZ_ECOLI
AQPZ_ECO57
Identity:
Число
замен:
99%
1 из
231
Замены:
Позиция: Значение:
D (Asp)
231
N (Asn)
нуклеотидных последовательностей:
Гены (AC):
Identity:
Число
замен:
Позиция:
Значение:
A
G
286
Позиция:
295
Позиция:
429
Позиция:
EC38664
97%
AE005174_2007
14 из
696
441
Позиция:
471
Позиция:
582
Позиция:
675



Замены:
Кодон: Позиция:
3
289
Значение:
C
G
Кодон:
Позиция:
3
296
Значение:
A
G
Кодон:
Позиция:
3
432
Значение:
G
A
Кодон:
Позиция:
3
453
Значение:
G
T
Кодон:
Позиция:
3
528
Значение:
T
C
Значение:
C
T
Кодон:
Позиция:
3
645
Кодон:
Позиция:
3
691
Значение:
G
A
Кодон:
Значение:
G
C
Кодон:
Значение:
T
C
Кодон:
Значение:
C
T
Кодон:
Значение:
T
C
Кодон:
Значение:
C
T
Значение:
G
A
Кодон:
3
1
3
3
3
3
Кодон:
1
В пункте “Кодон” указана позиция замены в кодоне;
Красным шрифтом выделены позиции с заменой в третьем нуклеотиде кодона;
Синим шрифтом выделены позиции с транзитивной заменой.
Матрица замен нуклеотидного выравнивания:
A
A
T
G
C
0
5
0
T
1
6
G
2
Как можно заметить в большинстве случаев (6 к 1) нуклеотидные замены происходили в третьей
позиции кодона. Это можно обьяснить особенностями вырожденности генетического кода: для
большинства аминокислот она наблюдается именно в третьей позиции, что создает наибольшую
вероятность заменам в этой позиции стать синонимичными и, следовательно, не быть
элиминированными в процессе эволюции стабилизирующим отбором.
Так же велика (11 к 3) доля транзитивных мутаций, т.е. замен пурина на пурин (A=>G, G=>A) или
пиримидина на пиримидин (T=>C, C=>T), по сравнению с трансверсионными, эта зависимость, как
известно, носит общий для всего живого характер и связана со структурной схожестью пуринов и
пиримидинов между собой.
Соотношение числа несинонимичных и синонимичных замен нуклеотидов равно 1/13 ≈ 0,08.
Известно, что чем меньше это отношение, тем выше было давление стабилизирующего отбора в
процессе эволюции исследуемых белков. Можно предположить, что высокая степень
консервативности аминокислотной последовательности (следствие повышенного давления стаб.
отбора), свойственная моему белку, связана с выполняемой им функцией в качестве
трансмембранного транспортера и существующей необходимостью поддержания структурной
консервативности.

Исследование зависимости процента совпадений последовательностей генов от процента совпадений
последовательностей соответствующих белков:
Текст скрипта для определения попарной идентичности последовательностей:
gsn1=0
gsn2=0
echo "1st column - gene identity, 2nd column - protein" > scriptresult
while [ $gsn1 -le "7" ]
do
let gsn2=$gsn1+1
while [ $gsn2 -le "7" ]
do
geneident=`needle GS"$gsn1" GS"$gsn2" -gapopen 10 -gapextend 0.5 -auto stdout | grep "#
Identity:" | fold -w 25| grep "%" | fold -w 4 | grep -v "%" | tr "." ","`
protident=`needle PS"$gsn1" PS"$gsn2" -gapopen 10 -gapextend 0.5 -auto stdout | grep "#
Identity:" | fold -w 25| grep "%" | fold -w 4 | grep -v "%" | tr "." ","`
echo "$gsn1" and "$gsn2" $geneident $protident >> scriptresult
let gsn2=$gsn2+1
done
let gsn1=$gsn1+1
done
Имена файлам последовательностей были даны по их номерам в порядке уменьшения идентичности
белку AQPZ_ECOLI (последнему был присвоен номер “0”) c добавлением указателя GS или PS –
Protein/Gene Sequence.
На момент написания данного скрипта я имел довольно смутное представление о использовании
регулярных выражений, поэтому вытаскивание из стандартной выдачи needle непосредственно
значений Identity пришлось производить подручными средствами – последовательным разбиением
строки на две, используя команду fold, и отбором необходимой строки из получившихся командой
grep.
Результаты выполнения скрипта:
1st column - gene alignment
0 and 1
0 and 2
0 and 3
0 and 4
0 and 5
0 and 6
0 and 7
1 and 2
1 and 3
1 and 4
1 and 5
1 and 6
1 and 7
2 and 3
2 and 4
2 and 5
2 and 6
2 and 7
3 and 4
3 and 5
3 and 6
3 and 7
4 and 5
4 and 6
4 and 7
5 and 6
5 and 7
6 and 7
identity, 2nd column - protein
98,0 99,6
70,3 78,4
69,8 76,2
64,5 68,8
50,7 45,2
51,1 43,6
47,8 33,2
72,1 77,9
69,9 76,2
62,5 68,2
49,5 45,2
51,4 43,6
49,1 33,5
67,4 73,2
61,4 66,8
54,6 44,6
53,5 44,0
52,5 32,8
57,5 60,9
52,0 45,6
53,3 41,6
50,1 35,6
51,2 43,9
45,6 42,5
42,2 34,1
52,6 49,4
49,3 32,9
49,1 34,7
По данным, полученным выше, был построен график зависимости Identity генов от Identity
соответствующих им белков.
Ниже приводится сравнение данного графика с графиком, предложенным в задании и отображающим
связь процентов совпадений последовательностей для белка-предшественника гемагглютинина у
разных штаммов вируса гриппа.
Особые точки, отмеченные на нижеприведенных графиках, представляют два случая: (100,100) –
полной (как генной, так и аминокислотной) идентичности, и (5,25) – математическое ожидание
(среднее значение) идентичностей двух случайных последовательностей. Таким образом, прямая, их
соединяющая представляет собой некую “диагональ” или среднюю линию – усредненную
зависимость идентичностей последовательностей (при этом хочется отметить, что с точки зрения
биологии, эта линия имеет хоть какой-либо смысл только когда по оси X находится идентичность
генов, а по оси Y – белков, так как из полного совпадения нуклеотидной последовательности следует
полное совпадение аминокислотной, но не наоборот!).
Графики связи процента совпадений последовательностей генов с процентом совпадений
последовательностей соответствующих им белков:
для гомологов белка AQPZ_ECOLI:
100
для белков-предшественников гемагглютинина
разных штаммов вируса гриппа:
100
G
e
n
e
90
80
90
80
I
d
e
n
t
i
t
y
70
60
50
40
G
e
n
e
I
d
e
n
t
i
t
y
70
60
50
40
30
30
20
20
10
10
Protein Identity:
Protein Identity:
0
0
0
10
20
30



40
50
60
70
80
90
100
0
10
20
30
40
50
60
70
80
Темно-синие линии – графики зависимостей;
Красные линии – линии тренда (экспоненциальная зависимость);
Розовые линии – прямые, соединяющие точки (5,25) и (100,100) (“средние” линии).
Сравнение вышеприведенных графиков (отображены только линии тренда):
100
90
80
70
60
50
40
30
20
G
e
n
e
I
d
e
n
t
i
t
y
90
100



Синяя линия – тренд графика зависимости для гомологов белка AQPZ_ECOLI;
Оранжевая линия – тренд графика зависимости для белков-предшественников
гемагглютинина;
Розовая линия – прямая, соединяющая точки (5,25) и (100,100) (“средняя” линия).
Как можно заметить оба графика имеют как сходства, так и различия. Общим для них является то, что
аппроксимирующая кривая (линия тренда) на отрезке от 30 до 100 лежит ниже средней линии, а при
ее продолжении к X=5 начиная с X≈30 лежит выше. Конечно данное наблюдение довольно условно, и
реальная зависимость идентичностей в области от 0 до 30 может вести себя как угодно, но данный
предполагаемый факт имеет довольно логичное объяснение. При высокой схожести белковых
последовательностей, нуклеотидные имеют меньшую идентичность за счет скрытых синонимичных
мутаций, но при уменьшении Identity белков, на фоне увеличения числа несинонимичных мутаций
значение этих “резервов” снижается, и доминирующим становится влияние фактора длины – чем
длиннее последовательность, тем менее равное число мутаций влияет на идентичность (что вполне
логично следует из формулы Identity=[число совпадений]/[общая длина выравнивания]), а так как
любая нуклеотидная последовательность в три раза длиннее соответствующей аминокислотной,
схожесть генов становится выше схожести белков.
Различия графиков хорошо видны на общей таблице – аппроксимация (будем учитывать лишь
интервал от X=100 до пересечения двух трендов, т.к. как было сказано выше, в дальнейшем сложно с
уверенностью предсказать поведение зависимости) графика для гомологов белка AQPZ_ECOLI лежит
ниже чем линия тренда предшественников агглютинина. Из этого наблюдения можно сделать вывод о
большей консервативности на белков моей выборки, так как меньшее сходство генов по сравнению с
белками говорит о большом числе накопленных синонимических мутаций, что является косвенным
свидетельством повышенного давления стабилизирующего отбора. Большая консервативность
гомологов белка AQPZ_ECOLI вполне предсказуема, ведь, как известно, скорость мутирования
вирусных геномов наиболее высока среди всех форм жизни.
Скачать