Выравнивание полипептидных цепей в пространстве С.А. Спирин 20 ноября 2012 Пример 1: гомеодомены Выравнивание последовательностей гомеодоменов Совмещение полипептидных цепей гомеодоменов Пример 2: РНК-зависимые РНК полимеразы Фрагмент выравнивания (по Xu et al., 2003) Функционально консервативные остатки: 13 из 150 (8%) Продолжение Функционально консервативные остатки: 5 из 140 (4%) Выравнивание мотивов A, B, C РНКзависимых РНК-полимераз вирусов Мотив A Консервативные остатки: 2 из 39 (5%!) Мотив B Функционально консервативные остатки: 4 из 37 (10%) Мотив С Консервативные остатки: 3 из 22 (14%) Совмещение в пространстве мотивов A, B, C из полимераз 9 разных вирусов Мотив B Здесь расположен активный центр полимеразы Мотив A Мотив C Геометрическое ядро этого семейства полимераз состоит из 58 C атомов в каждой из 9-и структур Критерий сходства – расстояния между любыми соответственными C отличаются не более чем на 2 ангстрема Сходство всех этих полимераз продолжается на большую часть глобулы, хотя и без совпадения остовов цепей в пространстве “Дополнительные” фрагменты цепи некоторых полимераз не показаны Пространственная структура остова полипептидной цепи консервативнее последовательности! Почему в ходе эволюции многих белков сохраняется геометрическое ядро (с точностью в 1–2 ангстрема) в то время, как аминокислотные остатки в тех же самых участках заменяются? Алгоритмы пространственного выравнивания 3D структур Парное выравнивание: • совмещение в пространстве при заданном частичном выравнивании последовательностей • собственно выравнивание по пространственным данным без заранее заданного выравнивания последовательностей Задача: совместить структуры по фрагментам цепей, последовательности которых хорошо выравниваются * 20 * 40 * 1osm_C : aeiYnkdgnkLDLYGKIDGLHYFS-DDkd---vDGDqTY----MRLGVKGE : 1e54_D : -------esSVTLFGIVDTNVAYVnKDaagdsrYGLgTSgastSRLGLRGT : 43 44 1. Совмещение в пространстве Дано: – n точек в пространстве A1 , …, An – центры C атомов из выровненных остатков первой структуры – n точек в пространстве B1 , …, Bn – центры C атомов из выровненных остатков второй структуры B1 B3 A3 A1 A4 B2 A2 B1 B4 Структура B Структура A A5 B5 1. Совмещение в пространстве Найти: Совмещение ломаных A и B в пространстве, при котором среднее квадратичное расстояние (“Root mean square deviation”) rmsd= [расст.(A ,B ) +расст.(A ,B ) +…+расст.(A ,B ) ]/n 1 1 2 2 2 2 n будет минимальным B3 A1 B1 A3 A2 A4 B2 B4 A5 B5 n 2 Задача пространственного совмещения при заданном выравнивании последовательностей для критерия rmsd эффективно решается итеративными процедурами В PyMol – команда pair_fit sel_1, sel_2 Алгоритм Sippl&Stegbuchner, 1991 (1) Переместить "центры тяжести" и A, и B в начало координат (2) Подобрать поворот структуры B вокруг оси X, минимизирующий rmsd (угол поворота φ вычисляется — существует формула) (3) – '' – '' – '' – '' – '' – '' – '' – '' – '' – оси Y – '' – получим угол ψ (4) – '' – '' – '' – '' – '' – '' – '' – '' – '' – оси Z – '' – получим угол ω (5) Если φ , ψ, ω оказались меньше заданного порога δ, то остановка; иначе повторить (2) – (4) Пространственное выравнивание двух структур – общая постановка задачи Выбрать набор атомов из одной структуры и сопоставить каждому выбранному атому по атому другой структуры. Каждую сопоставленную пару будем называть позицией выравнивания Обычно выбираются Сα-атомы (тем самым выравнивание последовательностей белков становится частным случаем этой задачи) Критерии качества выравнивания Могут быть основаны: 1. На совмещении выровненных наборов атомов и вычислении RMSD 2. На сравнении расстояний между атомами в каждой их структур Пространственное выравнивание двух структур без заданного выравнивания последовательностей Не существует эффективных алгоритмов, гарантирующих точное решение задачи (при любой её разумной формализации). Все предложенные алгоритмы основаны на эвристиках. В “простых” случаях дают правильный ответ, в более сложных – могут ошибаться. Алгоритм DALI (Holm&Sander, 1993) • Основан на сравнении расстояний между Cα-атомами в каждой из структур • Может сопоставлять части структур, по-разному расположенные по последовательности • Работает в два этапа: • • сначала находятся пары «гексапептидов» (в каждой паре по шестизвенному участку из каждой структуры) близкой конфигурации; затем из таких пар «сшивается» выравнивание • Может использовать две разные целевые функции: «жёсткую» (“rigid”) и «эластичную» (“elastic”) Целевая функция алгоритма DALI (вес выравнивания, «жёсткий» вариант) Если выравнивание содержит L позиций, то его «качество» оценивается величиной S (“rigid similarity score): i i dAij j A dBij j B Здесь каждое i и каждое j означает позицию выравнивания, то есть пару сопоставленных атомов; dAij и dBij – расстояния между атомами i и j в структурах A и B Целевая функция алгоритма DALI (вес выравнивания, «эластичный» вариант) Величина S (“elastic similarity score”) вычисляется по той же формуле, но вклад каждой пары позиций вычисляется по формуле: Смысл такого варианта: смягчить требования на удалённые в пространстве атомы DaliLite и FSSP Ускоренный вариант алгоритма DALI, названный DaliLite, используется для поиска по банку белков, хорошо совмещающихся с данным. Имеется также база данных Dali Database (старое название FSSP – families of structurally similar proteins), в которой хранятся наборы хорошо совмещающихся белков. См. http://ekhidna.biocenter.helsinki.fi/dali/start Алгоритм SSM (secondary structure matching) Krissinel&Henrick, 2004 (1) Пространственное выравнивание двух структур; (2) Множественное пространственное выравнивание; (3) Поиск схожих структур по PDB. (4) Совмещение, визуализация etc. Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п.2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, показатели, оценивающие результат (Lalign, rmsd, Q, Zscore) Целевая функция алгоритма SSM – «качество» Q Чтобы вычислить Q, сопоставленные Cα-атомы совмещаются в пространстве и вычисляется rmsd для них. Далее применяется формула: Здесь Lalign – количество позиций выравнивания, L1 и L2 – длины цепей двух белков, R0 = 3Å Первый этап алгоритма: матрица SSE Элемент матрицы: характеристика взаимного расположения двух SSE SSE 1: H 2: S1 3: S2 4: S3 (начальный (начальный (начальный (начальный SSE остаток 7A, остаток 20A, остаток 31A, остаток 45A, Каждому SSE приписывается - его порядковый № - тип (H или S) - длина (в числе остатков) - ID первого остатка всего 10 остатков) всего 7 остатков) всего 8 остатков) всего 5 остатков) 1: H 0 D12 D13 D14 2: S1 D12 0 D23 D24 3: S2 D13 D23 0 D34 4: S3 D14 D24 D34 0 Параметры взаимного расположение направленных отрезков i и j , идущих из начала в конец SSEi и SSEj : - расстояние ij между центрами SSEi и SSEj - углы 1ij, 2ij между i и j и линией, соединяющей эти центры - угол 3ij между i и j - торсионный угол 4ij Dij={ij, 1ij, 2ij, 3ij, 4ij} Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п.2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, параметры, оценивающие результат (Lalign, rmsd, Q, Z-score) 2. Даны две структуры (см. рис.) В них надо найти наборы сходно расположенных в пространстве [и идущих в одном и том же порядке вдоль полипептидной цепи] элементов вторичной структуры (SSE) Сходные наборы SSE: H—S2 H—S2 H—S3 H—S3 S1—S2 S1—S2 S1—S2 S3—S2 S1—S3 S1—S3 Можно и не учитывать порядок SSE! В таком случае H-S1-S2-S3 H-S1-S2-S3 Сравнение матриц SSE двух структур Сходство расположения пар SSE из двух структур определяется близостью значений матричных элементов Матричные элементы сходно расположенных пар SSE изображены одинаковыми цветами 1: H 2: S1 3: S2 4: S3 1: S1 2: H 1: H 0 D12 D13 D14 1: S1 0 2: S1 D12 0 D23 D24 2: H 3: S2 D13 D23 0 D34 4: S3 D14 D24 D34 0 3: S3 4: S2 D12 D13 D14 D12 0 D23 D24 3: S3 D13 D23 0 D34 4: S2 D14 D24 D34 0 Сходство расположения пар SSE из двух структур определяется близостью значений матричных элементов Структура 1я: SSE i-й и j-й Пары (SSEi, SSEj) из 1-ой и Структура 2я: (SSEk, SSEl) из 2-ой структуры SSE k-й и l-й считаются сходно расположенными, если - типы первых SSE пары совпадают - типы вторых SSE пары совпадают - длины SSE примерно равны - Dij Dkl т.е. ij kl , 1ij 1kl, 2ij 2kl, 3ij 3kl, 4ij 4kl Допустимые погрешности при сравнении двух значений установлены эмпирически Граф сходства SSE (для двух структур) • Вершина – пара (SSEi, SSEk) одного типа (H или S) и примерно одинаковой длины; SSEi из 1-ой структуры, SSEk – из 2-ой • Две вершины V′=(SSEi, SSEk) и V′′=(SSEj, SSEl) соединены ребром, если пары (SSEi, SSEj) и (SSEk, SSEl) сходно расположены Список вершин графа сходства структур 1 и 2 1 2 Примеры ребер (H, H)––––(S3,S3) Так как (H,S3) (H,S3) (H,H) (S1,S1) (S2,S1) (S3,S1) (S1,S2) (S2,S2) (S3,S2) (S1,S3) (S2,S3) (S3,S3) (S1,S3)––––(S2,S2) Так как (S1,S2) (S3,S2) Максимальная клика в графе соответствует максимальным наборам сходно расположенных SSE (один набор SSE из 1-ой структуры, другой – из 2-ой структуры) Клика – это подграф, в котором каждая вершина соединена с каждой Забудем в этом примере о порядке следования SSE (H, H) (H,S1) из 1й структуры Расположены так же, как (H,S1) из 2й структуры. (S2, S2) Поэтому вершины (H,H) И (S1, S1) соединены ребром Аналогично – все остальные ребра (S1, S1) (S3, S3) Упражнение. Постройте весь граф сходства. Порядок SSE не учитывать Задача поиска максимальных клик в графе сложна для компьютера! • Алгоритм точного решения, годный для любого графа, требует невообразимого времени • Пользуясь особенностями графов сходства, можно предложить эффективные эмпирические алгоритмы. • Один из них работает в SSM-алгоритме Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п. 2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, параметры, оценивающие результат (Lalign, rmsd, Q, Z-score) 3. Совмещение двух структур по наборам сходно расположенных SSE • Набор SSE в каждой структуре представляется началами Bi и концами Ei направленных отрезков i , идущих от начала к концу SSEi. Таким образом, в каждой структуре имеем одинаковое число последовательно идущих точек пространства (B1, E1, B2, E2, …) • Эти точки совмещаются одним из алгоритмов совмещения при заданном сопоставлении точек. Результат: черновое совмещение структур. Совмещение по сходно расположенным SSE Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п.2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, параметры, оценивающие результат (Lalign, rmsd, Q, Z-score) 4. Совмещение позволяет сопоставить C атомы, т.е. построить структурное выравнивание 1) В сопоставленных SSE находятся четверки (для спиралей) или тройки (для тяжей) идущих подряд наиболее близких C атомов (черные кружки на рис.) 2) Сопоставление четверок (троек) продолжается на все SSE без разрывов и вставок в последовательности Продолжение 3) Находятся близкие в пространстве пары SSE из разных структур, которые не были сопоставлены, но и не противоречат прежним сопоставлениям 4) Для таких пар повторяются п.п.1–2 Пример противоречивого сопоставления “Серые” SSE сопоставлены правильно. Сопоставление “белых” SSE запрещено т.к. нарушает порядок SSE вдоль цепи Продолжение 5) 6) Для оставшихся неспаренными C атомов находятся “контакты” – наиболее сближенные пары (A,B), A=C из 1й; B= C из второй структуры; точный критерий: 1. B ближайший к A C атом из второй структуры 2. A ближайший к B C атом из первой структуры 3. Расст.(A,B) < Rc=3Å Сопоставление от наиболее близких контактирующих пар продолжается на соседей по последовательности (см. рис.) Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п.2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, параметры, оценивающие результат (Lalign, rmsd, Q, Z-score) 5. Вычисление качества Q пространственного выравнивания 1) Улучшение пространственного совмещения. Для этого используется построенное (структурное) выравнивание. 2) Вычисление rmsd по сопоставленным C атомам 3) Вычисление Q Качество Q • 0<Q1; Q = 1 rmsd=0 и L1=L2=Lalign • Увеличение rmsd при той же длине выравнивания Lalign приводит к уменьшению Q • Увеличение длины выравнивания Lalign при неизменном rmsd приводит к увеличению Q • Одно и то же значение Q может быть получено при разной длине Lalign . Чем больше Lalign , тем слабее требования к rmsd Этапы алгоритма SSM 1. 2. 3. 4. 5. 6. 7. Построение матрицы элементов вторичной структуры (SSE, secondary structure elements) для каждой из структур Нахождение максимальных наборов SSE, сходно расположенных в двух структурах Грубое совмещение структур по наборам SSE, найденным в п.2. Сопоставление C атомов двух структур (структурное выравнивание) Совмещение по сопоставленным C; вычисление rmsd и “качества” Q Удаление “слабых звеньев” из структурного выравнивания для максимизации Q Выход: структурное выравнивание, совмещение, параметры, оценивающие результат (Lalign, rmsd, Q, Z-score) 6. Удаление “слабых звеньев” для получения лучшего качества Q. При выкидывании пары C из списка сопоставленных остатков Lalign уменьшается (что плохо), но и rmsd уменьшается (что хорошо). Q может уменьшиться, а может и увеличиться! • Из списка сопоставленных атомов выкидывается наиболее разошедшаяся пара • Пересчитывается качество Q • Эта процедура повторяется до тех пор, пока не будет достигнут максимум Q • Оставляются только не менее трёх идущих подряд сопоставленных C; изолированные или пары идущих подряд C выкидываются 7. Результат • Полученное выравнивание с максимальным Q и считается результатом • Кроме того, процедура повторяется со всеми другими сходными наборами SSE, включающими столько же SSE, что и первый, или на один или два SSE меньше • Все полученные выравнивания сортируются по Q и первым выдается то, у которого Q наибольшее Обсуждение алгоритма SSM • Работоспособен. На уровне нескольких других алгоритмов. • Не гарантирует правильного ответа в достаточно сложной ситуации; бывают ошибки. • Плюс: использование элементов вторичной структуры. • Минус: не все “знания” о структурных элементах использует (бета-листы; геометрическое ядро семейства доменов при поиске по банку; гидрофобное ядро; …) • Ещё минус: много параметров, значения которых взяты произвольно • Имеется web-сервер: http://www.ebi.ac.uk/msd-srv/ssm/ (“PDBeFOLD”) Всё, что было изложено – «жёсткое выравнивание» Критерии качества основывались на предположении, что белки совмещаются как твёрдые тела. Вообще говоря, выравниванием следует считать любое обоснованное сопоставление остатков одного белка остаткам другого. В частности, сопоставляемые части могут двигаться относительно друг друга. Про то, как быть в такой ситуации – в следующей лекции.