Алгоритмы обработки пространственных структур макромолекул Поверхность макромолекул Гидрофобное ядро Выделение доменов С.А.Спирин, 13.11.2012 I. Поверхность белковой молекулы Миоглобин свиньи (1MNO) Поверхность РНК-зависимой РНК-полимеразы полиовируса Product RNA Fingers Template RNA Thumb Palm NTP Зачем нужна поверхность как отдельный объект? • Для вычисления площади поверхности. Площадь поверхности контакта двух молекул позволяет оценить их взаимодействие и, следовательно, стабильность комплекса. • Для визуализации на поверхности электростатического потенциала, гидрофобных областей и других характеристик. Помогает предсказывать области белка, взаимодействующие с другими молекулами, проверять корректность моделей. • Для выявления полостей, каналов в белке, карманов и т.п. Зачем нужна поверхность как отдельный объект? (продолжение) • Для выявления остатков, экспонированных на поверхности белка. Следовательно, доступных для воды, ионов, лигандов. • Для поиска сходных областей поверхности. Если в одном белке область важна для взаимодействия с другой молекулой, то для похожей области в другом белке можно предсказать подобное же взаимодействие. • Для много другого (расчет энергии сольватации, симуляция молекулярной динамики, докинг, …) Три поверхности макромолекулы • ван-дер-ваальсова поверхность (VdW) • поверхность, доступная для растворителя (SAS) • поверхность Конноли Что такое “поверхность”? Ван-дерваальсова поверхность (схема) Ван-дер-Ваальсовы радиусы (Å) для атомов некоторых элементов (по Ли и Ричардсу) S 1,80 P 1,80 O 1,52 N 1,55 C 1,70 H 1,20 (в литературе можно найти и другие значения) 1MNO: миоглобин свиньи, натуральная модель (spacefill); видны сквозные просветы В геометрии поверхность тела – это граница между ним и внешней средой В микромире “твердых тел” не бывает! Нужно указывать для каких частиц непроницаема молекула – нейтрино? фотонов? электронов? протонов? других молекул (каких)? Поверхность фонтана (!?) Концепция поверхности белка (Lee, Richards, JMB 1971) 1. Ван-дер-Ваальсова поверхность 2. Поверхность, доступная для растворителя (воды) (SAS, solvent accessible surface) SAS — это поверхность области допустимых положений центров молекул воды VdW поверхность и поверхность, доступная для воды Поверхность, доступная для воды, определяется аналогично VdW поверхности, но для условных радиусов (вместо ван-дерваальсовых): усл. радиус = VdW радиус + радиус молекулы воды (1,4 Å) Поэтому “для математика” поверхности VdW и SAS одинаковы (строятся по одному правилу) Поверхность, доступная для воды, используется, например, для того, чтобы показать, какие аминокислотные остатки чаще экспонированы – доступны для воды. SAS не всегда применима, так как «раздувает» молекулу. Например, при контакте двух белков их SAS пересекаются: SAS 1 SAS 2 Белок 2 Белок 1 3. Молекулярная поверхность (MS, moleculare surface или Connolly surface) (Richards, 1977; Connolly, 1983) Поверхность контакта (contact surface) – зеленая Дополнительная поверхность (reentrant surface) – синяя Три поверхности молекулы: - ван-дер-Ваальсова (vdWS) - доступная для воды (SAS) - поверхность молекулы (MS) или поверхность Конолли (Conolly surface) Поверхность молекулы (Connolly surface) • Делится на две части: – поверхность контакта с водой; – дополнительная поверхность. • Поверхность контакта образована точками ван-дерваальсовых сфер атомов белка, которых может коснуться ван-дер-ваальсова сфера молекулы воды • Дополнительная поверхность образована поверхностью молекул воды, касающихся белка в двух или трех точках Молекулярная поверхность состоит из кусков трёх видов: • • • кусок “выпуклой” сферы (жёлтая) кусок “вогнутой” сферы (синяя) тороидальная часть (зеленая) Все куски соединяются гладким образом – без углов Тороидальная поверхность заметается подвижным шариком (H2O), который вращается между двумя фиксированными шарами (CH3), все время касаясь обоих H2O CH3 CH3 H2O Вогнутая сфера получается в том случае, когда шар H2O касается одновременно трёх атомов белка Точки касания CH3 CH3 H2O CH3 Основные алгоритмы построения поверхности и вычисления её площади • Приближённые аналитические методы (Richards&Lee, 1971; Wodak and Janin, 1980) • Представление поверхности точками (Shrake&Rupley, 1973; Connolly, 1983) • Точные аналитические методы (Gibson&Scheraga, 1987; Richmond, 1984) Метод срезов Ли – Ричардса для вычисления площади SAS • Структура режется на «ломтики» фиксированной толщины • Для каждого «ломтика» находятся круги от «срезов» атомов • Вычисляется длина границы • Умножается на толщину дольки • Берется сумма по всем срезам Молекулярная поверхность: “Connolly dot surface algorithm” • Контактная поверхность – на поверхности каждой VdW сферы атома белка строится равномерная сеть точек; – для каждой точки проверяется, что молекула воды, касающаяся этой точки, не пересекается с белком; – если пересекается, то точка удаляется. Продолжение • Дополнительная поверхность – тороидальная – Каждая пара соседних атомов определяет тороидальную поверхность между ними – На этой поверхности строится равномерная сеть точек – Далее – как для контактной поверхности • Дополнительная поверхность – сферическая – Каждая тройка соседних атомов определяет сферическую дополнительную поверхность – ван-дер-ваальсову поверхность молекулы воды, касающейся этих атомов – Если эта молекула воды не пересекается с белком, то на подходящей части этой поверхности строится равномерная сеть точек Продолжение • Оставшиеся точки представляют поверхность молекулы белка • Их число пропорционально площади поверхности. На этих точках может быть построена триангуляция поверхности для визуализации (или более точного подсчета площади) Аналитический метод определения площади поверхности S (Kratky, 1981) • Площадь SA ван-дер-ваальсовой сферы атома A равна 4πr2 • Нужно найти площадь (SA)0 области, не попадающей внутрь сфер других атомов; тогда S=∑A(SA)0 • Для двух пересекающихся сфер площадь области на первой сфере, попадающей внутрь второй, вычисляется (в зависимости от радиусов и расстояния между центрами) • Примерно так же может быть вычислена площадь более сложных пересечений и, следовательно, (SA)0 Поверхность контакта двух молекул AиB • Scont = (S(A) + S(B) – S(AB))/2 S – площадь молекулярной поверхности или же SAS белка Вклад взаимодействия макромолекул (или частей макромолекул) в энергию системы примерно пропорционален площади, «скрывающейся» при взаимодействии. Экспонированность аминокислотного остатка белка • Для каждого остатка считается площадь, выходящая на молекулярную поверхность (дополнительная площадь делится между соседями) • Эта площадь сравнивается с максимально возможной – при полностью раскрытой боковой цепи остатка того же типа в составе трипептида Gly – X – Gly • Вычисляется процент экспонированности Экспонированность боковой цепи Leu (похожие графики у Val, Ile, Met) Accessibility of Leu side chain (square A) 80,% Frequency(%) 70,% Integral (%) Frequency 60,% 50,% 40,% 30,% 20,% 10,% 0,% 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 90% Leu экспонированы на 38% или менее Max=48Å2 Экспонированность боковой цепи Lys (похожие графики у Arg, Gln, Glu, Asn, Asp) 100,% Max=55Å2 90,% 80,% Frequency(%) Integral (%) Frequency 70,% 60,% 50,% 40,% 30,% 20,% 10,% 0,% 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 Accessibility of Lys side chain (square A) 90% Lys экспонированы на 76% или менее Экспонированность боковой цепи Trp (похожие графики у Tyr, His, Phe, Pro) 100,% Max=72Å2 90,% 80,% Frequency(%) Integral (%) Frequency 70,% 60,% 50,% 40,% 30,% 20,% 10,% 0,% 0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 Accessibility of Trp side chain (square A) 90% Trp экспонированы на 36% или менее 72 Экспонированность боковой цепи Cys 100,% Max=37Å2 90,% Frequency(%) 80,% Integral (%) Frequency 70,% 60,% 50,% 40,% 30,% 20,% 10,% 0,% 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 Accessibility of Cys side chain (square A) 90% Cys экспонированы на 22% или менее 38 Ссылки “Molecular Surfaces: A Review”, by Michael L. Connolly http://www.netsci.org/Science/Compchem/feature14.html II. Гидрофобные кластеры в структурах белков Гидрофобный эффект Межмолекулярный уровень Неполярные молекулы в полярном растворителе (воде) стремятся агрегировать так, чтобы минимизировать поверхность контакта с растворителем Неполярные молекулы (зелёные) в полярном растворителе (оранжевый) Гидрофобный эффект (наивное объяснение) «Поверхностное натяжение» вытягивает воду из области между двумя гидрофобными поверхностями вакуум Вот что случается с гидрофобными субъектами, которые не пожелали объединиться в гидрофильном окружении Пабло Пикассо Гидрофобный эффект в белках (и других макромолекулах) Внутримолекулярный уровень Неполярные атомные группы (CH3 и др.) белка стремятся собраться внутри молекулы, чтобы минимизировать контакт с полярными группами и полярным растворителем (водой) 4Ǻ срез структуры белка Зелёные шарики = неполярные группы Красные = атомы кислорода Синие = атомы азота Белые = углерод, связанный с полярным атомом Атомы водорода не показаны Гидрофобный эффект в белках • Т.н. гидрофобное ядро дает существенный вклад в стабильность глобулы большинства белков • Гидрофобные “ядрышки” могут служить зародышами в процессе правильной укладки полипептидной цепи • Гидрофобный эффект важен для белокбелкового взаимодействия, взаимодействия белок-ДНК и других межмолекулярных взаимодействий Как измерять гидрофобный эффект in silico? Для межмолекулярного взаимодействия Расчет площади поверхности (SAS), скрытой при взаимодействии, отражает вклад гидрофобного эффекта – это только число ( Å2), нет описания деталей! Симуляция молекулярной динамики, конечно, отражает гидрофобный эффект… … но не локализует его. Кроме того, это вычислительно дорогая процедура. Подходы к локализации гидрофобного эффекта в белках и макромолекулярных комплексах • • • • • • • Kannan & Vishveshwara, 1999 Tsai & Nussinov, 1997 Swindells, 1995 Zehfus, 1995 Heringa & Argos, 1991 Plochocka et al., 1988 Наша группа: Alexeevski et al,. 2003 Swindells: группировка гидрофобно взаимодействующих неэкспонированных остатков • Отбираются остатки, которые – Слабо экспонированы (<7%) – Принадлежат спиралям или тяжам – Более 75% контактов их атомов с другими атомами классифицируются как гидрофобные Контактом считается сближение “тяжелых” атомов на сумму ван-дер-ваальсовых радиусов + 1Å Гидрофобным контактом считается контакт атомов углерода Два остатка из отобранных считаются взаимодействующими гидрофобно, если число гидрофобных межатомных контактов превосходит число иных межатомных контактов. Строится граф: • Вершина – отобранный остаток • Ребро соединяет вершины, если соответствующие остатки гидрофобно взаимодействуют • Связные компоненты графа, содержащие 5 или более остатков, называются гидрофобными ядрами Граф гидрофобных контактов (пример) Zehfus: компактные группы боковых цепей остатков • Вводится мера Z компактности набора остатков (отношение SAS к минимальной возможной поверхности) • Выращиваются группы путем наращивания остаток за остатком (жадным алгоритмом) • С помощью Z-score (который здесь назван ζ) по статистике кластеров из данного числа остатков выбираются наиболее компактные группы. • Часто они состоят, в основном, из гидрофобных остатков Кластеры неполярных атомных групп Alexeevski et al • Элементарной единицей служат неполярные атомные группы (CH3 и т.п.) вместо аминокислотных остатков • Алгоритм основан на делении целого, а не на наращивании из элементов В чем задача: • Для данной структуры найти области пространства, заполненные только или преимущественно неполярными группами Неполярные группы в белках: • • • • —CH3 —CH2— —CH< —SH, —S — не связанные ковалентно с полярными (N и O) атомами Назовем такие группы ‘NP-атомами’ “Гидрофобная область” в структуре (NP-область): • NP-область заполнена преимущественно NP-атомами • Каждый NP-атом в области имеет несколько гидрофобных контактов с другими NP-атомами из той же области • Гидрофобное взаимодействие между разными NP-областями слабое Конфигурация HF-атомов на плоскости и что хотим в ней найти Шаги алгоритма (k,l)-разрезов • • • • Создание графа NP-атомов Нахождение всех (k,l)-разрезов графа Удаление всех (k,l)-разрезов из графа Нахождение кластеров, т.е. связных компонент полученного графа Граф контактов NP-атомов • Вершина – один NP-атом • Ребро соединяет два атома, если они контактируют Два типа ребер • Ковалентные связи и, более обще, пары атомов на фиксированном расстоянии в силу форсмажора – стереохимических ограничений • Гидрофобные контакты C C C Критерии контакта m d d d0 , (d0 – порог, 4,5–5,4Ǻ) m m0 (m0=d0/2) Что такое (k,l)-разрез графа? • Определение: (k,l)-разрез графа – это k ребер, образующих связный подграф G такой , что l-реберная окрестность подграфа G после удаления его ребер распадается на две или более связных компоненты Подграф G1 (красные ребра) является (2,1)-разрезом G1 Подграф G2 (красные ребра) не является (2,1)-разрезом G2 Clusters Graph (1,1)-cuts (2,1)-cut Nonpolar ofafter nonpolar (red (red (1,1)-cutting (2,1)-cutting atoms edges) edges) atoms Cluster 4 Cluster 11’ Cluster Cluster 3 Cluster 2 Cluster 1’’ Программа ‘ClusterDetector’ (CluD) http://mouse.belozersky.msu.ru/npidb/cgi-bin/hftri.pl (реализованы k=l=1) Пример результата программы CluD Each HF cluster is also presented as a list of atoms (.xls), rasmol script and whole cluster parameters (center of gravity, ellipsoid half-axis, etc.) III. Домены белков Что такое “домен”? Три определения: • По функции (функциональный домен) • По сравнению последовательностей (эволюционный домен) • По структуре (структурный домен) Функциональный домен (биохимия/биоинженерия) Минимальная часть полипептидной цепи, которая: • • может автономно свернуться в правильную, нативную структуру сохраняет (in vitro) как минимум одну из активностей полного белка Derbyshire et al., PNAS, 94, 11466-11471(1997)“Genetic definition of a protein-splicing domain: Functional mini-inteins support structure predictions and a model for intein evolution” (http://www.pnas.org/cgi/content/full/94/21/11466) Рекомбиназа A из Mycobacterium tuberculosis (790 а.о.) содержит интеин (440 а.о.), белок, обладающий способностью автономно вырезаться из полипептидной цепи белка-предшественника (явление белкового сплайсинга). Это – первая активность интеина. экстеин 1 интеин экстеин 1 экстеин 2 экстеин 2 интеин Этот интеин обладает также эндонуклеазной активностью (вторая активность). По сходству последовательности этого белка с последовательностями других, более изученных интеинов, в т.ч. интеина с расшифрованной РСА структурой (1VDE), была высказана гипотеза о том, что за две разные активности отвечают разные домены. При этом за белковый сплайсинг отвечает домен, который составлен из N-концевого и C-концевого участков полипептидной цепи Для проверки гипотезы авторы создали 21 конструкт генов интеина, в которых удалены разные внутренние участки полипептидной цепи. Конструкты были встроены в ген другого белка (тимидилатсинтазы, TS) и экспрессировались в E.coli Активность проверялась по наличию нативного белка TS (без вставки интеина) Результат: белковый сплайсинг сохранялся в тех случаях, когда удаленный участок не затрагивал первые 96 и последние 35 а.о. Вывод авторов: функциональный домен автономного белкового сплайсинга состоит из остатков 1–96 и 406–440 (всего 131 из полных 440) Структура гомологичного белка PI-SceI – хоминг эндонуклеазы из дрожжей (PDB код 1VDE) Интеин 1–181, 416–454 Эндонуклеаза 186–405 Гидрофобные ядра доменов Последовательность интеина консервативна. Об этом свидетельствуют доменные архитектуры трех белков из разных грибов, описанные в Pfam Доменная структура полноразмерного белка PI-SceI Фрагмент, для которого решена структура Доменная структура белка VMA1 Доменная структура белка TFP1 (аннотирован по сходству) Эволюционный домен (биоинформатика: последовательности) Достаточно длинный участок полипептидной цепи, который: • • эволюционно консервативен — существуют достоверно сходные участки в других белках замечен в перемешивании доменов (domain shuffling), то есть имеются примеры белков, где есть достоверно сходные с ним участки, но есть также несходные между собой (но эволюционно консервативные) участки Белки, содержащие два эволюционных домена: гомеодомен и OAR домен (N-концевые участки не показаны) Гомеодомены активно перемешивались в эволюции. Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam Гомеодомен Парный домен и гомеодомен Lim домены и гомеодомен Гомеодомен, продолженный лейциновой молнией POU домен и гомеодомен Два гомеодомена PBX-домен и гомеодомен Структурный домен (биоинформатика 3D структур) Обособленная в пространстве часть молекулы белка Пример Транскрипционный фактор – пуриновый репрессор из E.coli (PDB код 1WET) Пуриновый репрессор димеризуется …. гуанин … связывает две молекулы гуанина, после чего связывается с ДНК. Сайт связывания – палиндром. Весь комплекс обладает симметрией 2-го порядка. ACGAAAACGT TTTCGT Регуляторный домен Очевидно выделяется домен, связанный с остальным белком гибким линкером. ДНК-связывающий домен То, что обычно называется регуляторным доменом – это один структурный домен или два? Если судить по гидрофобным ядрам, то два… Но обособлены они гораздо слабее. Структурный домен (биоинформатика: 3D структуры) Обособленная в пространстве часть белка, его структурная единица, имеющая: • • сравнительно мало контактов с другими частями белка собственное гидрофобное ядро Домен белка XXX (жизнь) Часть белка, названная доменом: • Субъективизм • Образность • Традиция В полимеразах обычно выделяют три домена: fingers, palm, thumb Product RNA Fingers Template RNA Thumb NTP Palm Три определения доменов часто дают похожие результаты! Но не всегда… «Парный» (“Paired”) домен из транскрипционного фактора PAX5 человека (PDB 1K78) – очевидно, два структурных домена 19–81 91–142 82–90 Эволюционный домен (PAX в Pfam) включает оба структурных домена (126 а.о.) Последовательности PAX/prd доменов консервативны по всей длине Забавно, что полипептидные цепи обоих структурных доменов имеют общую топологию (- одинаковое число спиралей, - одинаковые межспиральные взаимодействия, - одинаковый порядок следования спиралей вдоль цепи; * минорные элементы вторичной структуры не в счет!) N-концевой структурный домен парного домена хорошо совмещается с C-концевым Синий – N-концевой Зеленый – C-концевой Совмещение – по двум спиралям, всего по 14 C атомам Rmsd = 0.5 Å Но достоверного сходства последовательностей не наблюдается Два структурных домена парного домена одинаково расположены на ДНК Структурные домены Алгоритмы детектирования На чем основаны методы • Домен имеет собственное гидрофобное ядро (пример: алгоритм DETECTIVE Swindells, 1995) • Домен – это часть белка, внутри которой много контактов аминокислотных остатков, а между доменами – мало контактов (пример: алгоритм DOMAK, Siddiqui&Barton, 1995) Siddiqui&Barton, 1995: DOMAK Сверху – вниз, от целого – к части! • Предпосылки: домен состоит из одного или двух непрерывных участков полипептидной цепи • Число контактов между остатками внутри домена больше, чем число междоменных контактов Формализация • Два остатка контактируют, если расстояние между ними меньше 5Å • Если белок разбит на две части, A и B, то определяется индекс разделенности: SplitValue=(intA/extAB)∙(intB/extAB) intA – число пар контактирующих остатков из A; intB – число пар контактирующих остатков из B; extAB – число пар контактирующих остатков, один из A, а другой – из B Пример. Структура 1CD4. Часть A: N-конец полипептидной цепи до остатка i; часть B – от (i+1) до C-конца График зависимости индекса разделенности от номера граничного остатка Деление по остатку 97 (пик на графике) В алгоритме DOMAK проверяются следующие разделения на части A и B (1) (2) (3) Алгоритм • К полной цепи применяются методы 1 и 2. Выбирается разделение с лучшим индексом • К полученным двум доменам применяется та же процедура. В случае, когда домен состоит из двух сегментов, применяется также метод 3. • Алгоритм останавливается в зависимости от пороговых значений: – MDS – минимальный размер домена (в числе остатков) – MSS – минимальный размер сегмента • Отдельная процедура предусмотрена для сегментов, длина которых между MDS и MSS • Найденные домены проверяются на “компактность”; некомпактные – сливаются в один Swindells, 1995 DETECTIVE Снизу – вверх, наращивание частей! Предпосылка: каждый домен имеет свое гидрофобное ядро. Этапы: 1. выявление гидрофобных ядер в структуре 2. «натягивание» доменов на гидрофобные ядра Гидрофобные ядра – еще не домены! Для получения доменов применяется многоходовая процедура чистки-слияния Алгоритм демонстрируется на примере (см. рис.) (1) найдено 3 кластера – 1-й, 2-й и 3-й (2) остатки, окруженные “чужими” вычищаются (3) кластеры, включающие меньше пяти остатков, вычищаются (4) заливка некластеризованных остатков (5–6) оставшиеся некластеризованные остатки присоединяются по контактам к кластерам предыдущего шага (7–8) опять прочистка, заливка и присоединение хвостов Методы выделения доменов (из обзора Veretnik & Shindyalov, 2005) Большинство методов основано на принципах, близких к DOMAK Сравнение методов Нужен “benchmark” (стандарт, мерило) Есть специально посвящённые этому работы. В качестве правильных доменов принимаются домены, независимо и одинаково выделенные несколькими экспертами. Критерии сравнения: • процент белковых цепей, для которых все домены выделены правильно Эта величина зависит от критерия правильности (при каком проценте совпадения выделенного и правильного домена они считаются одинаковыми?); • средний процент совпадения выделенного домена с ближайшим правильным; •… Сравнение методов (по книге “Structural bioinformatics”, 2009) Сравнение методов (по обзору Veretnik & Shindyalov) Figure 3. Benchmarking of automatic domain assignment methods. (A) Performance of DomainParser, PDP and PUU on consensus-based benchmark of 374 structures, (B) evaluating tendency to partition domains into non-contiguous fragments. Классификации структурных доменов • SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) – ручная детекция доменов – 4 основных уровня классификации (класс, укладка, суперсемейство, семейство) • CATH (http://www.cathdb.info/) – полуавтоматическая детекция доменов – 4 основных уровня классификации (класс, архитектура, топология, суперсемейство) Об этом будет отдельная лекция