Пространственное выравнивание

advertisement
3. Сравнение
пространственных структур
белков
Пример 1: гомеодомены
Выравнивание последовательностей
гомеодоменов
Совмещение полипептидных цепей
гомеодоменов
Какая программа выравнивания
не выдала бы такой результат!
В структурном
выравнивании три остатка
сдвинуты к левому краю
разрыва
Пример 2: РНК-зависимые РНК-полимеразы вирусов
Выравнивание мотивов A, B, C РНКзависимых РНК-полимераз вирусов
Мотив A
Консервативные остатки: 2 из 39 (5%!)
Мотив B
Функционально консервативные остатки: 4 из 37 (10%)
Мотив С
Консервативные остатки: 3 из 22 (14%)
Совмещение в пространстве мотивов A,
B, C из полимераз 9 разных вирусов
Мотив B
Здесь расположен
активный центр
полимеразы
Мотив A
Мотив C
Геометрическое ядро этого семейства
полимераз состоит из 58 C атомов в
каждой из 9-и структур
Критерий сходства –
расстояния между
любыми
соответственными
C отличаются
не более чем на
2 ангстрема
Геометрическое ядро семейства структур
(Gerstein, 1995; I.Gelfand&Kister, 1998)
Англ.: geometrical core, structure core
Совокупность участков полипептидной
цепи родственных белков (или комплексов
макромолекул), с высокой точностью
одинаково расположенных во всех
представителях семейства структур
Сходство всех этих полимераз продолжается
на большую часть глобулы, хотя и без
совпадения остовов цепей в пространстве
Product RNA
Fingers
Template RNA
Thumb
NTP
Palm
“Дополнительные” фрагменты цепи некоторых полимераз
не показаны
Метод сравнения формы белков, структуры
которых удалось совместить
RASMOL:
Select *B and not within(5.0, *A)
Save selected file_B
#
Select *A and not within(5.0, *B)
Save selected file_A
Потом
(1) Найти какие остатки цепи A
(соотв. B) “дополнительные”
(2) Охарактеризовать объемы
дополнительных частей
(например, в числе атомов)
В родстве со всем, что есть, уверясь
И знаясь с будущим в быту,
Нельзя не впасть к концу, как в ересь,
В неслыханную простоту.
Но мы пощажены не будем,
Когда ее не утаим.
Она всего нужнее людям,
Но сложное понятней им.
Б. Пастернак
Фрагмент выравнивания (по Xu et al., 2003)
Функционально консервативные остатки: 13 из 150 (8%)
Продолжение
Функционально консервативные остатки: 5 из 140 (4%)
Выводы
• Консервативные по последовательности
участки полипептидной цепи сохраняют
взаимное расположение в структурах
белков
• Даже слабая, но правильная,
консервативность свидетельствует в
пользу сходства структур
Пространственная структура
остова полипептидной цепи
консервативнее
последовательности!
Почему в эволюции с точностью в 1-2 ангстрема
поддерживается пространственное расположение остова
полипептидной цепи при том, что аминокислотные остатки в
тех же самых участках заменяются???
Токарный станок – это фермент, катализирующий реакцию
превращения заготовки в деталь, имеющую цилиндрическую,
коническую или любую форму тела вращения
3м
3 см
Станина остается неизменной!
Рост числа расшифрованных
структур белков (PDB)
Сравнение 3D структур необходимо
для
- моделирования,
- предсказания функции,
- изучения эволюции белков
Главный (и почти единственный широко распространенный)
метод сравнения структур – выравнивание
полипептидных цепей в пространстве
Постановки задачи пространственного
выравнивания
Алгоритмы
Пространственное выравнивание
структур белков по Cα атомам:
белки рассматриваются как
“твердое тело”
1. Парное выравнивание:
Даны две структуры. Найти их наилучшее
пространственной выравнивание
2. Поиск в БД:
Дана структура. В банке данных (например, PDB)
найти все похожие.
3. Множественное выравнивание:
Даны n структур родственных (или не очень)
белков (доменов). Найти наилучшее
пространственное выравнивание всех вместе
В задачах пространственного
выравнивания есть варианты постановки
A. При заданном (частичном!) выравнивании
последовательностей.
B. Без заданного выравнивания
последовательностей
Задача 1A (парное выравнивание) Дано:
– n точек в пространстве A1 , …, An - центры C
атомов из выровненных остатков 1-й структуры
– n точек в пространстве B1 , …, Bn - центры C
атомов из выровненных остатков 2-й структуры
B1
B3
A3
A1
A4
B2
A2
B1
Структура B
Структура A
B4
A5
B5
Найти:
• Наилучшее относительно некоторого
параметра (A,B) совмещение
• Минимальное значение min(A,B)
B3
A1
B1
A3
A2
A4
B2
B4
A5 B5
Параметр сходства (A,B)
• Среднее квадратичное расстояние:
– Обе структуры помещены в одно
пространство (можно воображать, что в
один PDB файл)
– 2(A,B)=sqrt(Σi расст.(Ai ,Bi)2)
Английская аббревиатура:
rmsd – root mean square deviation
– Чем меньше 2(A,B), тем лучше
структуры совмещены в пространстве
Другие меры сходства (A,B)
• Максимальное расстояние:
– Обе структуры помещены в одно
пространство
∞(A,B)=max(расст.(Ai ,Bi ))
Сравнение двух мер сходства
Пара
точек
Расстоян Расстоян Расстоян
ие между ие между ие между
ними
ними
ними
A1,B1
1
0
0
A2,B2
1
0
0
A3,B3
1
0
0
A4,B4
1
0
0
A5,B5
1
0
0
A6,B6
1
0
0
A7,B7
1
1
0
A8,B8
1
1
0
A9,B9
1
1
0
A10,B10
1
1
10
2
∞
1
0.6
3.2
1
1
10
Выравнивание без совмещения: сравнение
матриц расстояний между Cα атомами
Матрица расстояний между
Cα атомами в структуре A
Полипептидная цепь
A
1
2
3
4
5
6
7
1
0
3
4
6
7
4
3
2
3
0
2
3
5
4
3
3
4
2
0
2
6
4
3
4
6
3
2
0
3
3
3
5
7
5
6
3
0
3
4
6
4
4
4
3
3
0
2
7
3
3
3
3
4
2
0
• Если две матрицы расстояний совпадают,
то соответствующие им конфигурации
атомов могут быть совмещены движением
пространства ( сохраняющим или не
сохраняющим ориентацию)
• Если элементы двух матриц различаются
не на много, то конфигурации хорошо
совмещаются в пространстве
Задача 1A для rmsd эффективно решается
итеративными процедурами (функция “Fit
by selection” в SwissPDBviewer'е)
• Sippl&Stegbuchner, 1991:
(1) Переместить “центры тяжести” и A, и B в начало
координат
(2) Подобрать поворот B вокруг оси X,
минимизирующий 2(A,B) (угол вращения φn
вычисляется - выводится формула)
(3) -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- Y -- '' -- ψn
(4) -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- '' -- Z -- '' -- ωn
(5) Если φn , ψn, ωn < заданного порога δ, то остановка;
иначе повторить (2) – (4)
1B. Пространственное выравнивание 2х
структур без заданного выравнивания
последовательностей
• Для данного порога d найти подмножество A={A1 , …,
An } Cα атомов первой структуры и подмножество B={B1
, …, Bn } Cα атомов такие, что
(1) (A,B)< d ( - какая-либо из мер сходства)
(2) A1 , …, An соблюдают порядок вдоль
полипептидной цепи, возможно, с разрывами любой
длины
(3) B1 , …, Bn соблюдают порядок вдоль
полипептидной цепи, возможно, с разрывами любой
длины
(4) число n выбранных атомов максимально возможное
Не существует эффективных
алгоритмов, гарантирующих точное
решение задачи.
Задача вычислительно сложная!
Все предложенные эффективные алгоритмы
основаны на эвристиках. В “простых”
случаях дают правильный ответ, в более
сложных – могут ошибаться.
Несколько работоспособных сервисов
• DALI server (алгоритм DALI, Holm, Sander, 1993)
http://www.ebi.ac.uk/dali/index.html
• MultiProt –( алгоритм MUSTA, Leibowits, Nussinov,
Wolfson, 2001)
http://bioinfo3d.cs.tau.ac.il/
• VAST (NCBI)
• MSD
http://www.ebi.ac.uk/msd-srv/ssm
• CE (Shindyanov&Bourne, 1998)
http://cl.sdsc.edu/ce.html.
• SARF (Spatial ARangement of backbone
Fragments, Alexandrov, 1996)
http://123d.ncifcrf.gov/
Алгоритм DALI
(L.Holm&C.Sander)
1. Мера сходства двух сопоставленных
наборов атомов A=(A1 , …, An ) и
B=(B1 , …, Bn):
1) Обозначения:
dAi,j - расстояние между атомами Ai и Aj из
структуры A
dBi,j - расстояние между атомами Bi и Bj из
структуры B
2) Модуль разности | dAi,j - dBi,j | определяет
вес сходства для данной пары пар атомов:
i,j = F(| dAi,j - dBi,j |) где F(x) – функция,
определенная ниже
3) Чего хотим от i,j :
1. Чем больше i,j , тем более похожи структуры
(по аналогии с весом – score – выравнивания
последовательностей)
2. Разность расстояний измеряется в процентах, а
не в абсолютных величинах
3. Значимость различий быстро убывает с
расстоянием
4) Реализация – elastic similarity score:
E
f (i,j)
=
A – dB |
|
d
ij
ij
* )
qEw(d
ij
d*ij
qE
q E=0.2 (по умолчанию)
d*ij = среднее арифметическое dAij и dBij
w(r) = exp(-r2/2) где =20
2. Алгоритм. Шаг 1 – отбор сходных пар
гексапептидов – начальных данных для
пространственного выравнивания
Пара гексапептидов (A’,A’’) в структуре A
и сходная пара гексапептидов (B’,B’’) в
структуре B
A’
i+3
i+1
i
i+5
Структура A
i+4
j A’’ j+1
i+2
j+4
j+5
j+3
j+2
Структура B
i’+5
i’+3
i’+1
B’
i’+4
B’’ j’+1
j’
j+4
i’+2
j’+5
i’
j’+3
j’+2
Матрица для пары гексапептидов извлекается из полной матрицы
расстояний
.
1 2 3 4 5 6 .
.
.
1 1 1 1 1 1 .
.
.
.
1
2
3
4
5
6
.
.
.
11
12
13
14
15
16
.
.
.
1
2
3
4
5
6
0
0
+
+
+
+
+
X
X
X
X
X
X
0
+
+
+
+
X
X
X
X
X
X
0
+
+
+
X
X
X
X
X
X
0
+
+
X
X
X
X
X
X
0
+
X
X
X
X
X
X
0
X
X
X
X
X
X
0
+
+
+
+
+
0
+
+
+
+
0
+
+
+
0
+
+
0
+
0
0
0
0
0
0
0
1) Перебор гексапептидов в каждой
структуре:
1. Пары гексапептидов, принадлежащих одной и той
же паре элементов вторичной структуры,
объединяются. Из них выбирается одна пара – та,
для которой среднее расстояние между
гексапептидами минимально.
2. Пары со средним расстоянием между
гексапептидами более 25 ангстрем не
рассматриваются
3. Пары упорядочиваются по среднему расстоянию
между гексапептидами
2) Отбор пар сходных пар гексапептидов
При сравнении пар гексапептидов из разных структур
используются методы быстрой фильтрации
непохожих пар:
– по различию средних расстояний между
гексапептидами;
– по различию сумм матричных элементов по
строкам (столбцам)
3) Завершение списка пар сходных пар
1. Порядок рассмотрения пар гексапептидов – по среднему
расстоянию между ними, от пар с меньшим расстоянием
к парам с большим.
2. Список сходных пар гексапептидов закрывается если
либо
(1) среднее расстояние между парами гексапептидов
превышает 25 ангстрем либо
(2) список достигает 80 000 пар сходных гексапептидов
Не более 40 000 пар пар с лучшим весом S отправляются
на следующий шаг – построение выравнивания
3.
1)
Отбор зародышей выравнивания – троек
гексапептидов
Если
– (A’, A’’) сходна с (B’,B’’)
– (A’’, A’’’) сходна с (B’’,B’’’)
– (A’’’, A’) сходна с (B’’’,B’)
и гексапептиды A’, A’’, A’’’ (соотв., B’, B’’, B’’’) не
пересекаются, то вычисляется сходство S наборов
(A’,A’’, A’’’) с (B’, B’’, B’’’)
2)
При достаточном сходстве эти наборы считаются
зародышем пространственного выравнивания
3)
Список зародышей ограничен числом 100
Каждый зародыш дает начало траектории
наращивания выравнивания (Ai, Bi), i=1,2,…
4.
1) Обозначим зародыш (A’, A’’, A’’’; B’, B’’, B’’’) через
(A0, B0 )
2) (Ai+1, Bi+1) строится из (Ai, Bi) добавлением одной из
пар гексапептидов (ПГ), пересекающейся с (Ai+1, Bi+1)
–
ПГ выбирается случайно, с вероятностью p, зависящей от того,
насколько сходство S’ нового выравнивания больше сходства S
выравнивания (Ai, Bi). Есть ненулевая вероятность выбрать
худшее сходство!
3) На 1м и каждом 5м шагу происходит ревизия
выравнивания (Ai, Bi) – удаляются тетрапептиды,
дающие отрицательный вклад в сходство
4) Траектория останавливается после того, как сходство
перестает растит за 20 последних шагов
5.
Фильтр траекторий
Все траектории продолжаются параллельно.
Траектория отбрасывается, если
• Сходство выравнивания существенно отстает от
сходства для лидирующей траектории
• Выравнивание пересекается более, чем на 80% с
выравниванием с лучшим сходство на другой
траектории
6.
Оптимизация лучшей траектории
после завершения всех траекторий
1)
10 раз удаляются из выравнивания случайно
выбранные 30% тетрапептидов
2)
Получившиеся 10 выравниваний наращиваются по
тому же алгоритму
3)
Выравнивание с лучшим сходством оставляется
7. Результат
1) Лучшее структурное выравнивание, число
структурно сопоставленных остатков, Z-score
2) Альтернативные структурные выравнивания
Для каждого выравнивания можно
-
совместить полипептидные цепи при данном
выравнивании
-
визуально убедиться в его правильности
-
рассчитать rmsd по сопоставленным C
Download