Факультет биоинженерии и биоинформатики Московского государственного университета имени М.В.Ломоносова Разбор статьи Chen B.Y, Honig B. (2010) «VASP: A Volumetric Analysis of Surface Properties Yields Insights into Protein-Ligand Binding Specificity». PLoS Comput Biol 6(8): e1000881. doi:10.1371/journal.pcbi.1000881 Работу выполнила студентка 4-ого курса Евсютина Дарья Москва, 2012 Введение Сравнительный анализ структур белков широко используется для предсказания их функций. Геометрическое выравнивание полных структур или отдельных доменов может показать, что белки родственны, даже если их аминокислотные последовательности не схожи. Разработано множество методик для достижения этой цели. Большинство из них основано на наложении полипептидного остова, сравнении геометрических графов или выравнивании матриц расстояний между отдельными аминокислотами. Другой класс методов функциональных сайтов, таких как базируется на геометрическое прямом расположение сравнении остатков, осуществляющих каталитическую реакцию, или сравнении форм впадин (полостей) на поверхности белка. В частности, изображение поверхности белков широко используется, так как именно особенности формы лежат в основе специфичности связывания с лигандом. Большое число подходов, опубликованных на сегодняшний день, сфокусировано на определении отдаленной гомологии с целью идентификации подобия между двумя или более белками, что может прояснить их биологические функции. Однако существуют феномены, зависящие от способности близкородственных белков связывать схожие, но не идентичные лиганды. В таких случаях, функция белка хорошо известна, но знания о предпочтении к связыванию определенных лигандов нет (т.е. из набора схожих лигандов один белок может проявлять большую аффинность к одному лиганду, а другой - близкородственный белок к другому, но фактически оба белка способны связывать оба лиганда). Эта проблема остро встает тогда, когда есть структурное выравнивание двух или более белков и целью является определение консервативных и вариабельных регионов в полостях связывания лиганда. Например, консервативные регионы могут связывать фрагмент молекулы, который является общим для субстратов, на которые действует все семейство белков. В то время как различия в специфичности внутри семейства могут быть обеспечены вариабельными участки полостей связывания. Предложенный в статье подход основан на объемном изображении полостей связывания, которые создаются с помощью программы VASP. VASP использует конструктивную блочную геометрию (Constructive Solid Geometry - CSG) для сравнивания регионов в пространстве, определенном многогранной границей. Методы VASP представляет трехмерные участки как скалярное поле, математическая «модель», которая описывает (определяет) каждую точку пространства как внутреннюю, внешнюю или лежащую на границе поверхности заданного участка. Поверхность этих участков аппроксимируется с помощью алгоритма Marching Cubes («шагающие кубики»). Marching Cubes используется для сравнения структур белков и полостей (впадин) белков из-за сочетаемости с операциями CSG. Объем исследуемых полостей (впадин) был оценен с применением процедуры Surveyor’s Formula. Выходные данные работы алгоритма Marching Cubes, должны иметь требуемое разрешение. Это разрешение должно говорить о том, насколько точно аппроксимирован участок, полученный в результате выполнения CSG операции – объедение, пересечение или разность двух близких участков А и В, определенных границами поверхностей SA и SB, соответственно. Выходными данными Marching Cubes является участок, имеющий границу поверхности, которая аппроксимирована трехмерной решеткой. Основные операции CSG представлены на рис. 1. Рис. 1 CSG анализ полостей белков. a)Примеры CSG операций. b), (с) Многоугольники, изображающие белки Х и У (голубой и розовый, соответсвенно) с границей поверхности (черная линия). d), e) Полости х и у (бледно голубой и розовый) белков Х и У. f) Суперпозиция границ полостей х и у (черная линия), основанная на структурном выравнивании Х и У. Участок, где х и у перекрываются – бледно фиолетовый. g) Часть х, которая не перекрывается с у (бледно голубой). h) Часть у, которая не перекрывается с х (бледно розовый). i) Общий участок для х и у (бледно фиолетовый). Рассмотрим процедуру аппроксимации формы участка, на примере участка, полученного в результате пересечения фигур А и В (рис. 2). Сначала строятся оси кубической решетки так, чтобы вдоль любого измерения, каждый треугольник А и В находился внутри границ решетки (рис. 2b). Решетка интерпретируется как сетка точек решетки с определенным шагом вдоль первичных осей, соответствующему требуемому разрешению выходных данных. Затем для каждого узла (р) решетки определяется, лежит он внутри или снаружи перекрывающегося участка, для этого сначала определяют принадлежность узла к каждой из фигур А и В отдельно. Из каждой точки р проводят луч в произвольном направлении. Так как фигуры не бесконечны, то если этот луч пересечет границу фигуры четное число раз, значит узел р располагается вне фигуры, а если нечетное – то внутри фигуры (рис. 2с1, 2с2). Если в результате этой процедуры, было выяснено, что определенный узел р принадлежит фигуре А и фигуре В одновременно, тогда этот узел должен принадлежать области перекрытия этих фигур (рис. 2d). Третий шаг начинается с отбора сегментов решетки, которые объединяют точки решетки, лежащие внутри области перекрывания фигур и точки вне этой области. Для этого вводятся дополнительные точки. Эти точки являются точками пересечения ребер решетки и границы фигуры (рис. 2e, 2f1, 2f2, 2g). И наконец, анализируется каждый куб решетки. Для каждого куба, существует 28=256 возможных комбинаций состояний точек в статусе внутренняя и внешняя точка. Каждое состояние соответствует уникальному способу одной или нескольких частей «выходной» поверхности пройти через решетку куба, оставляя некоторые комбинации перекрывающейся области (рис. 2h). точек решетки снаружи или внутри В результате этой процедуры, получаем аппрокимацию нужного участка (рис. 2i) Рис. 2 Вычисление области пересечения с использованием алгоритма Marching Cubes. Розовые точки – внутренние, желтые – внешние, белые – граничные. Затем для каждой области был вычислен объем. Участки были разбиты на тетраэдры, чьи площади были подсчитаны с помощью формулы Tartaglia для произвольного тетраэдра. Для определения полостей (впадин) использовалась программа SCREEN. SCREEN создает списки аминокислот, лежащих около полости, которые преобразовывались в объемное изображение. Использовалась GRASP2 для вычисления треугольных поверхностей, аппроксимирующих поверхность молекулы на уровне 1,4 Ǻ и «огибающей» поверхности на уровне 5,0 Ǻ. Затем выбираются участки поверхности молекулы, которые лежат дальше 2 Ǻ от «огибающей» поверхности. Эта поверхность, считается, образует полость. Атомы аминокислот, которые лежат ближе всего к выбранной поверхности выделяются. Затем программа qhull используется для вычисления Ван-дер-Ваальсоых сфер атомов аминокислот, принадлежащих выбранной поверхности. Полости, полученные из анализа конкретного семейства белков, были сгруппированы по «объемным» расстояниям, V(x,y), V(x,y)= где х и у – полости, К, Ǻ3. - объемное пересечение х и у, и V(K) - объем участка Для всех пар полостей были вычислены расстояния V(x,y). Затем, используя алгоритм UPGMA области были сгруппированы. Результаты Программа VASP была применена для START доменов и для сериновых протеиназ. Из всего набора найденных в pdb банке структур, были удалены функционально недокументированные структуры, структуры мутантов, а также структуры с идентичностью 90% и более. В результате анализу подверглись 11 START домена и 14 сериновых протеиназ. Атомы водорода были определены в четырех структурах, но для сохранения чистоты эксперимента они были удалены. START домены START домены (StAR-related lipid-transfer) – это домены, способные связывать липиды и участвовать в их транспорте. Все белки, которые включают в себя START домены, разделены на различные подгруппы. Для каждой подгруппы известен набор специфичных лигандов с которыми связываются участники подгруппы. Для трех белков из исследуемого набора было показано специфичное связывание холестеролов: MLN64 (pdb: 1em2), StarD5 (pdb: 2r55) и StarD4 (pdb: 1jss). Другие пять белков способны связывать широкий класс липидов, включая жирные кислоты, цитокины и флавонойды. Эти белки относятся к аллегрен-подобным белкам березы (pdb: 1bv1), вишни (pdb: 1e09), сельдерея (pdb: 2bk0), желтого люпина (pdb: 1xdf) и маш (pdb: 2flh). Оставшиеся белки это представители разных функциональных классов: переносчик фосфотидилхолина у человека (pdb: 1ln1), который связывает только фосфотидилхолин; переносчик церамидов у человека (CERT) (pdb: 2e3m) – высокоспецифичный переносчик церамидов определенной длины и дрожжевой оксиcтерол-связывающий белок Osh4 (pdb: 1zht) – предпочитает оксистеролы холистеролу. Дерево, построенное согласно рассчитанной матрице расстояний (“volumetric distance), определенных с помощью VASP, показывает разделение структур исследованных белков, в соответствии с их предпочтением к связыванию близких лигандов. То есть топология полученного дерева говорит о том, что с помощью VASP можно успешно определить различия и сходства формы полостей белков, которые связывают близкий набор предпочитаемых лигандов (рис. 5). Рис. 5 Изображение объемного сходства и различий в полости START доменов. Топология построенного дерева основана на расстояниях в пространстве. Единственное исключение – это белок 1xdf, который не группируется с остальными белками, имеющими широкую специфичность к связыванию липидов. Однако 1xdf имеет перегиб С-концевой альфа-спирали, которая заполняет сайт связывания лиганда и в этой конформации белок не может связывать лиганд. Белок 1xdf на дереве группируется вместе с белком 1ln1. Если сравнить структуры С-концевой альфаспирали этих белков, то можно заметить, что альфа-спираль 1ln1 имеет легкий изгиб (рис. 6). Рис. 6 Ключевое различие С-концевых альфа сприралей. В центре – изображение вторичной структуры одной цепи белка 1xdf. Слева – белок 1bv1 – типичный представитель белков с широкой специфичностью к связыванию липидов, справа – белок 1ln1. Если сделать выравнивание по аминокислотным последовательностям или структурное выравнивание полных последовательностей, а затем с использованием алгоритма UPGMA построить дерево, то белок 1xdf не будет отделен от белков своей подгруппы (рис. 7). Рис. 7 Деревья, построенные с использованием различной информации об исследуемых белках. a) Дубликат рис. 5 b) Топология дерева, построенного на основе идентичности аминокислотных последовательностей белков c) Топология дерева, построенного на основе Ǻ RMSD для атомов остова. VASP был использован для идентификации участков белка 1xdf, обеспечивающих необычные связывающие свойства. На рис.8 изображена степень пересечения объемов отдельных аминокислот с полостями других START доменов с широкой специфичностью (1bv1, 1e09, 2bk0, и 2flh). Для большинства аминокислот, средний объем перекрывания составил 8 Ǻ3 (стандартное отклонение 16 Ǻ3) по всем полостям. Можно выделить участок с координатами 137-144 последовательности белка 1xdf. Для а.о. этого участка характерна высокая степень перекрывания с полостями рассматриваемых белков (объем перекрывающихся областей составляет от 60 до 100 Ǻ3) . Эти остатки находятся в центре перекрученной С-концевой α-спирали (рис. 9). Рис. 8 Объемное пересечение аминокислот белка из желтого люпина и других START доменов. Каждая линия отражает значение объема пересечения (Ǻ3) поверхностей аминокислот 1xdf и полости одного из четырех START домена с широкой специфичностью. Остатки 137-144 объединены красной скобкой. Сверху - структурное выравнивание 1xdf (зеленый) и 1bv1 (синий). Участок последовательности 137-144 выделен красным. Рис. 9 Изображение остатков 1xdf для которых обнаружена обширная область перекрывания с полостями рассматриваемых белков (желтый). Таким образом, VASP можно использовать для определения расположения в остатков, ответственных за специфичность. Структурное выравнивание и определение полости связывания лигандов. С помощью Ska все START домены были выровнены с аллегрен-подобным белком березы (pdb: 1bv1) (выбран случайно). Сериновые протеиназы были выровнены с бычьим гамма-хемотрипсином (pdb: 8gch), так как для этого белка показано связывание триптофана в S1 положении кармана специфичности. S1 положение кармана специфичности было найдено с помощью алгоритма построения двух поверхностей – на уровне 1,4 Ǻ и 5,0 Ǻ. Структурное выравнивание всех анализируемых белков с отдельной структурой не смещает полученные результаты. В дополнительных материалах, продемонстрировано, что использование выравнивания с другими всевозможными участниками набора данных, не оказывает существенного влияния на конечный результат. Сериновые протеиназы У сериновых протеиназ аффинность к специфичной последовательности аминокислот связана с отдельными карманами специфичности, S4, S3 .. S1, S1’, S2’.. S4’, которые, соответственно, распознают остатки субстрата Р4, Р3, .. Р1, Р1’, Р2’.. Р4’ (гидролизу будет подвергаться пептидная связь между остатками Р1 и Р1’). У трипсина, положение S1 проявляет узкую специфичность для положительно заряженных а.о.; у хемотрипсинов наибольшая аффинность для больших гидрофобных а.о.; у эстеразы - для маленьких гидрофобных боковых цепей. Все трипсины (кроме (pdb: 1eq9) хемотрипсина муравья) группируются довольно близко на дереве и отдельно от других сериновых протеиназ. Бычий хемотрипсин (pdb: 8gch) отделен от трипсинов и эластаз, но также он отделен и от муравьиного хемотрипсина (pdb: 1eq9) (рис. 7). Рис. 10 Изображение объемного сходства и различий в S1 карманах специфичности сериновых протеиназ. Топология построенного дерева основана на расстояниях в пространстве. Сравним структуры сериновых протеиназ 1eq9, 1a0j и 8gch. Выполнив структурное выравнивание одной из цепи 1a0j с 1eq9 и 1a0j с 8gch, можно заметить, что даже «полные» структуры (а не полости) имеют видимые различия вторичных структур (рис. 10). Для 8gch характерно существенное удлинение β-листов по сравнению со структурой 1a0j. Структура 1eq9 более близка к структуре 1a0j, хотя в структуре 1eq9 есть не идентифицированная α-спираль (самая нижняя), которая определена у 1a0j и 8gch, а также артефакты в виде одного остатка Lys422, образующего «β-лист». Для всех рассматриваемых структур характерно высокое содержание неструктурированных участков. Рис 10 Пространственное выравнивание белков. Синий -1a0j, 1eq9 – зеленый, красный – 8gch. (Соответствующие значения RMS = 0,722, для 908 атомов; RMS = 0,583 для 984 атомов) Степень перекрывания объемов отдельных аминокислот сериновых протеиназ и S1 полости бычьего хемотрипсина изображена на рис. 8. Пересечение объемов было почти всегда 0 или около 0, за исключением нескольких случаев: у эстераз Val216 и Thr226 занимает 43 Ǻ3 и 31 Ǻ3, соответственно, в полости 8gch. Эти аминокислоты «усекают» S1 карман, создавая специфичные условия для маленьких гидрофобных а.о. В трипсинах, Asp189 занимает 25 Ǻ3 в полости 8gch. Эта аминокислота играет важную роль в трипсинах, взаимодействуя с кислыми а.о. На рисунке 8b, показано, что Asp189 занимает нижнюю часть полости хемотрипсина, что ориентирует отрицательно заряженные карбоксильные группы Asp189 к субстрату. Такая ориентация аспартата стерически препятствует связыванию ароматических остатков. VASP также идентифицировал Glu192 – консервативный остаток трипсинов, который занимает 12 Ǻ3. У хемотрипсина муравья 1eq9, VASP определил Asp226, чей объем перекрывается с объемом полости бычего хемотрипсина 8gch, объем области перекрытия составляет - 32 Ǻ3. Обычно, положение 226 у хемотрирпсинов млекопитающих занимает глицин, однако сообщалось, что Asp226 поворачивается в сторону, для того, чтобы ароматические остатки, предпочтительны для хемотрипсинов смогли занять нужное положение. которые Рис. 8 Среднее значение объема области пересечения аминокислот сериновых протеиназ с полостью бычьего хемотрипсина. a) График среднего объема пересечения (Ǻ3) поверхностей аминокислот эластазы и полости белка 8gch. В рамке - изображение S1 полости 8gch (желтый) и заполнение этого пространства остатками Val126 и Thr226 эстеразы свиньи (pdb: 1b0e). (b) График среднего объема пересечения (Ǻ3) поверхностей аминокислот трипсина и полости белка 8gch. В рамке - изображение S1 полости 8gch (желтый) и заполнение этого пространства остатками Asp189 и Gln192 трипсина лосося (pdb: 1a0j). С помощью VASP, были определены участки полости S1 сериновых протеиназ, которые являются консервативными или вариабельными с точки зрения расположения в пространстве (занимаемого объема) (рис. 9). Первый участок – это участок, где S1 полости всех выбранных для анализа сериновых протеиназ перекрываются (рис. 9а). Объем «области перекрытия» составляет 107 Ǻ3 и располагается на «входе» к S1. Эта огромная область включает в себя участок, который тянется к центру оксианионной дыры – узкая щель, необходимая для стабилизации интермедиата реакции гидролиза. Только центральная часть оксианионной дыры является консервативной у всех протеиназ. Вероятнее всего, что для любых сериновых протеиназ, изменение этого региона приведет либо к затруднению подхода Р1 к S1, либо к нарушению стабилизации промежуточного продукта в оксианионной дыре. Определяя область пересечения S1 полости всех сериновых протеиназ, VASP, таким образом, может установить функционально значимые субрегионы. Второй участок (рис. 9b и 9c) показывает наличие выступа полости, который присутствует у всех трипсинов и не найден у эластаз. Этот консервативный выступ полости вмещает большие боковые цепи, которые связываются в S1 кармане трипсина. На рис. 9d показано, что боковая группа аргинина, входящего в состав субстрата Gly-Ala-Arg трипсина гриба Fusarium oxysporum располагается в выступе полости. Рис. 9 Разбиение S1полости сериновых протеиназ. a) Полное пересечение участка S1полости у всех рассматриваемых сериновых протеиназ. b) Перекрывание полостей всех трипсинов (бирюзовый) с объединенной полостью всех эластаз (желтый). c) Различие между областями перекрывания полостей трипсинов и эластаз (бирюзовый) от полостей эластаз (желтый). d) Различие между областями перекрывания полостей трипсинов и эластаз (желтый) и субстрата Gly-Ala-Arg, связанного с трипсином гриба Fusarium oxysporum (черный). Заключение В итоге VASP – первая программа, способная сравнивать полости (впадины на поверхности белков) с помощью конструктивной блочной геометрии (CSG). В этой программе реализован новый подход, позволяющий охарактеризовать сайты связывания белков. Возможности VASP позволяют идентифицировать отдельные аминокислоты, которые обеспечивают различия в форме полости. Подобные различия могут быть вызваны вариациями конформаций остова или боковых цепей. Удалось определить несколько таких а.о. среди START доменов и сериновых протеиназ, в обоих случаях, программа воспроизводила известные детерминанты связывания лигандов. Также программа VASP может быть использована для определения консервативных и вариабельных областей в белковых полостях.