Отчёт о качестве расшифровки структуры белка цитидиндезаминазы Bacillus subtilis (PDB код 1UWZ) методом рентгеноструктурного анализа студента четвёртого курса Факультета биоинженерии и биоинформатики МГУ им. М. В. Ломоносова Бредихина Данилы Москва, 2014 Аннотация В отчёте рассмотрены некоторые индикаторы качества модели структуры 1UWZ, а также проведён анализ индикаторов локального качества структуры для ряда аминокислотных остатков. В ходе работы над отчётом удалось познакомиться с возможностями, которые предоставляют серверы для оценки качества структур белковых молекул. Введение Цитидиндезаминаза (EC 3.5.4.5) – фермент, катализирующий реакцию дезаминирования цитидина или 2'-дезоксиуридина, в которой образуется уридин или 2'-дезоксиуридин, соответственно. Различают два класса цитидиндезаминаз: гомодимерные (D-CDA) и гомотетрамерные (T-CDA). Первые характерные для грамотрицательных бактерий и растений, в то время как вторые – для грамположительных бактерий и млекопитающих. Как гомодимерная, так и гомотетрамерная форма цитидиндезаминазы включает один ион цинка на каждую субъединицу. Роль иона цинка в структуре цитидиндезаминазы состоит в депротонировании молекулы воды, что приводит к образованию гидроксиданиона, который может реагировать с субстратом. Ион цинка является необходимым для каталитической активности фермента. Одна из ключевых отличительных особенностей T-CDA по сравнению с D-CDA состоит в том, что ион цинка в структуре T-CDA связан тремя остатками цистеина, в то время как в D-CDA – одним остатком гистидина и двумя остатками цистеина. Можно ожидать, что дополнительный 2 отрицательный заряд в активном центре T-CDA будет снижать способность цинка активировать молекулу воды для нуклеофильной атаки. Однако димерная и тетрамерная формы цитидиндезаминазы демонстрируют схожую каталитическую активность. Возможное объяснение этому было предложено на основе структуры для T-CDA из Bacillus subtilis (1JTK): остаток аргинина (Arg56) в этой структуре образует водородные связи с двумя остатками цистеина активного центра, что вносит вклад в нейтрализацию негативного заряда. В статье [1] авторы описывают эксперимент по замене остатка Arg56 в структуре T-CDA Bacillus subtilis на аланин (R56A), аспарагиновую кислоту (R56D) или глутамин (R56Q). Замена R56A интересна тем, что аланин – незаряженный остаток, который не образует водородную связь с остатком цистеина, участвующим в координации иона цинка. Замена R56D позволяет проследить эффект привнесения дополнительного отрицательного заряда. Соответствием остатку аргинина Arg56 в T-CDA остатка глутамина в D-CDA объясняется выбор замены R56Q. Eva Johansson и коллеги расшифровали пространственные структуры белков с описанными заменами. В частности, координаты атомов модели T-CDA Bacillus subtilis с заменой R56A были размещены в Protein Data Bank (PDB) под идентификатором 1UWZ (рисунок 1). Исследование нескольких мутантных белков цитидиндезаминазы позволило изучить их свойства и сделать ряд заключений о важности Arg56 для ферментативной активности T-CDA. Так, белок с заменой R56A 3 Рисунок 1. Изображение модели структуры 1UWZ [5]. Разными цветами обозначены разные цепи белка. Тёмно-серым цветом показано положение молекулы ингибитора в структуре. демонстрирует заметное снижение значения Vmax по сравнению с T-CDA дикого типа, при этом значительных изменений Km не наблюдается. Следовательно, замена R56A негативно влияет на эффективность катализа, но не на связывание субстрата. Снижение эффективности катализа для этого мутантного белка авторы интерпретируют как следствие отсутствия нейтрализации заряда аргинином. В пользу этого объяснения говорит значение pKa, которые выше для белка с заменой R56A, чем для белка дикого типа. 4 Результаты и обсуждение Общая информация о модели и индикаторы её качества в целом Модель 1UWZ представляет собой димер из двух цепей (A и B), каждая массой ~15кДа и длиной 130 аминокислотных остатков. Биологическая единица являет собой тетрамер. 1UWZ содержит также ингибитор цитидиндезаминазы тетрагидродезоксиуридин (THU). Модель структуры 1UWZ была получена в 2004 году (Eva Johansson, Jan Neuhard, Martin Willemoës и Sine Larsen) [1]. Разрешение структуры – 1.99 Å. В эксперименте был измерен 15661 рефлекс, и все они были использованы для создания модели. Из них, однако, лишь 11490 превышает стандартное отклонение более чем в 3 раза. (Наименьшее же значение соотношения F/σ среди значений, приведённых в файле структурных факторов для модели 1UWZ, равно 1.4.) Общая информация о модели 1UWZ систематизирована в таблице 1. При решении структуры 1UWZ авторы использовали в качестве модели для оптимизации (rigid body refinement) определённую ранее структуру цитидиндезаминазы Bacillus subtilis дикого типа (1JTK) [2]. Перед оптимизацией из 1JTK были удалены молекулы воды и ингибитора, а остаток Arg56 был заменён на остаток глицина. Модель 1JTK была получена в 2001 году Eva Johansson et al. При этом для решения фазовой проблемы методом молекулярного замещения авторы использовали каталитический домен D-CDA Escherichia coli. 5 Таблица 1. Общая информация о модели 1UWZ Разрешение Минимальное и максимальное разрешение Число измеренных рефлексов Число рефлексов с силой сигнала > 3σ 1.99 Å 19.96 Å – 1.99 Å 15661 11490 (73.4%) Число использованных рефлексов 15661 Полнота набора рефлексов 94.2% Значения R-фактора и Rfree для модели 1UWZ равны 0.188 и 0.211, соответственно. Значение Rfree – R ≈ 2.3% соответствует хорошему качеству кристаллографической модели белка [3]. RMSD длин связей от идеальных для модели 1UWZ равно 0.006, что, вероятно, свидетельствует о слишком сильных ограничениях на длины связей при оптимизации геометрии модели [3]. Среднее значение real-space R-фактора (RSR-фактора) [4] равно 0.098 (со стандартным отклонением 0.039), что говорит о хорошем соответствии атомов модели определённой в эксперименте электронной плотности. На карте Рамачандрана, показывающей положение пар торсионных углов φ/ψ полипептидной цепи, все остатки лежат в допустимой области (рисунок 2). 6 MolProbity Ramachandran analysis 1uwzH.pdb, model 1 General case Isoleucine and valine 180 180 Psi Psi 0 0 -180 -180 -180 0 Phi 180 -180 Pre-proline 180 Psi 0 0 -180 Phi 180 Phi 180 Phi 180 Glycine 180 Psi 0 -180 -180 0 Phi 180 -180 Trans proline 180 Cis proline 180 Psi Psi 0 0 -180 0 -180 -180 0 Phi 180 -180 0 Рисунок 2. Карты Рамачандрана, полученные средствами сервиса MolProbity [6], для разных типов остатков модели 1UWZ (слева направо, сверху вниз): всех остатков, кроме перечисленных далее; изолейцина и валина; остатков перед пролином; глицина; транс-пролина; цис-пролина. http://kinemage.biochem.duke.edu 7 Lovell, Davis, et al. Proteins 50:437 (2003) Таблица 2. Величины некоторых индикаторов качества структуры в целом для модели 1UWZ R-фактор 0.188 Rfree 0.211 Rfree – R 0.023 RSR-фактор (среднее значение и стандартное отклонение) [8] Число маргиналов по карте Рамачандрана [6] Число остатков в предпочитаемой области карты Рамачандрана [6] MolProbity score [6] 0.098 (0.039) 0 254 (99.22%) 1.04 Отклонения Cβ > 0.25 Å [6] 0 Ковалентные связи, существенно отклоняющиеся от теории [6] 0 Валентные углы, существенно отклоняющиеся от теории [6] 0 На основе MolProbity score – интегральной оценки структуры по данным сервиса MolProbity [6] – можно утверждать, что модель структуры 1UWZ входит в число лучших для сравнимого разрешения (1.99 Å ± 0.25 Å). Значения ряда других параметров, оцениваемых сервисом MolProbity, также соответствует таковым для структур высокого качества (таблица 2: отклонения Cβ; существенно отклоняющиеся от теории ковалентный связи и валентные углы). 8 Отчёт в базе данных PDBREPORT для модели 1UWZ [7] содержит информацию об аномалиях, найденных в структуре. В частности, в нём отмечены необычно низкие значения RMSD длин связей, углов связей, и торсионных углов ω (все эти критерии, вероятно, говорят о слишком сильных ограничениях на геометрию модели при оптимизации), а также наличие конформаций остова, не типичных для белковых структур в базе данных, которое наблюдается для 90 остатков 1UWZ (это, должно быть, непосредственно связано с сильными ограничениями на геометрию модели). Анализ маргинальных остатков Хотя по карте Рамачандрана, построенной с помощью сервиса MolProbity (рисунок 2), маргинальные остатки отсутствуют, на карте, построенной средствами Electron Density Server (EDS) (рисунок 3), по два остатка в каждой цепи (Asn107 и Leu121) отмечены вне разрешённой области, у самой её границы. Asn107 в цепях A и B – именно те два остатка, углы φ/ψ которых находятся вне предпочитаемой области карты Рамачандрана [6]. Нахождение значений углов φ/ψ этих остатков у самой границы области на карте EDS (рисунок 3) и в пределах области на карте MolProbity (рисунок 2), а также тот факт, что другие параметры (например, RSR-фактор, температурный фактор) не свидетельствуют о маргинальности Asn107, позволяют считать, что эти остатки не являются маргинальными. Leu121 расположен в последовательности перед Pro122. Для углов φ/ψ остатков перед пролином сервис MolProbity позволяет построить карту Рамачандрана с особыми для таких остатков областями (рисунок 2). На ней 9 Рисунок 3. Карта Рамачандрана, полученная средствами EDS [8], для модели 1UWZ. Квадратами отмечены остатки глицина. Остатки вне разрешённой области отмечены звёздочками. значения углов φ/ψ для Leu121 цепей A и B расположены в предпочитаемой области. Остатки Leu121, таким образом, считать маргинальными не следует. На рисунке 4 представлены графики значений RSR-фактора для остатков в цепях A и B белка. Максимальные значения наблюдаются для остатков Lys33 и Glu128. Средние значения температурных факторов для атомов этих 10 Рисунок 4. Значения RSR-фактора для аминокислотных остатков цепи A (слева) и цепи B (справа) в модели 1UWZ [8]. остатков (40.50 и 38.89, соответственно; здесь и далее значения приведены для остатков цепи A белка; значения для цепи B сходные) входят в число самых высоких для данной структуры. Z-score для RSR-фактора позволяет сравнить электронную плотность со средним значением функции электронной плотности для остатков того же типа в структурах с разрешением 1.80 Å – 2.00 Å [8]. Значения этого параметра для Lys33 и Glu128 (в цепи A) равны 1.38 и 1.91, соответственно. Если же обратиться к изображениям электронной плотности вокруг этих остатков (рисунки 5 и 6), то видно неточное соответствие расположения атомов и электронной плотности вокруг них. Как видно, Z-score для RSR-фактора для рассматриваемых остатков находится в пределах двух стандартных отклонений. Поэтому, пожалуй, нет формальных оснований считать остатки Lys33 и Glu128 маргинальными. Сервис MolProbity позволяет детектировать инверсии боковых цепей некоторых остатков. Так, для структуры 1UWZ была зафиксирована инверсия боковых групп Gln4 и Gln71 обоих цепей белка. Сравнение изображений остатков приведено на рисунке 8. На основании предположения о необходимости инверсии боковой цепи остатков Gln4 и Gln71 их можно 11 Рисунок 5. Остаток Lys33 в модели 1UWZ и изображение электронной плотности на уровнях подрезки 1.5σ (слева) и 0.5σ (справа). При уровне 1.5σ электронная плотность вокруг атомов боковой группы Lys33 не различима, однако видна для уровня 0.5σ; при этом положение атомов боковой группы Lys33 плохо соответствует электронной плотности. Рисунок 6. Остаток Glu128 в модели 1UWZ и изображение электронной плотности (уровнень подрезки 1σ). Рисунок 7. Остатки Asn107 (слева) и Leu121 (справа) в модели 1UWZ и изображение электронной плотности (уровень подрезки 1.5σ). 12 Рисунок 8. Вверху: остатки Gln4 (слева) и Gln71 (справа) в модели 1UWZ и изображение электронной плотности (уровень подрезки 1σ). Внизу: остатки Gln4 (слева) и Gln71 (справа) в модели 1UWZ, для которых произведена инверсия боковых цепей по сравнению с исходной моделью структуры 1UWZ [6], и изображение электронной плотности (уровень подрезки 1σ). считать маргинальными. (Это предположение согласуется также с отчётом в базе данных PDBREPORT [7].) Изображение остатков остатков Gln4 и Gln71 и электронной плотности вокруг них (рисунок 8) позволяет сделать вывод о том, что их маргинальность связана с ошибкой расшифровки (с указанием неверного положения в структуре атомов азота NE2 и кислорода OE1 этих остатков). 13 Таблица 3. Анализ остатков в структуре 1UWZ, которые могут являться маргинальными Остаток Asn107 Leu121 Lys33 Glu128 Gln4 Gln71 Критерий Комментарии Отмечены вне разрешённой области на карте Рамачандрана, построенной средствами EDS (рисунок 3) В допустимой области на карте, построенной средствами MolProbity (рисунок 2) Наиболее высокие значения RSR-фактора (среди остатков данной структуры) [8] Z-score для RSR-фактора в пределах двух стандартных отклонений Предположение о необходимости инверсии боковой цепи [6, 7] – Рисунок Вывод Не маргинальный 7 Перед пролином (см. рисунок 2) Не маргинальный 5 Не маргинальный 6 Не маргинальный Маргинальный 8 Маргинальный Можно также отметить, что молекула воды HOH2031 цепи A в модели 1UWZ не зафиксирована водородными связями (в т. ч. с молекулами соседних ячеек). В файле для этой молекулы указан коэффициент заполнения 1.00, что, по-видимому, не соответствует действительности. На этом основании можно считать HOH2031 маргинальной молекулой. Маргинальность в данном случае связана, вероятно, с ошибкой расшифровки. 14 Анализ остатков, рассматриваемых в статье Так как 1UWZ представляет собой модель структуры цитидиндезаминазы с заменой R56A, интересен анализ остатка Ala56. Значения различных параметров для этого остатка приведены в таблице 4. Изображение остатка и электронной плотности вокруг него приведено на рисунке 9. Как видно, нет оснований считать Ala56 маргинальным остатком. Таблица 4. Анализ остатка Ala56 в структуре 1UWZ RSR-фактор 0.047 Z-score RSR-фактора -1.10 Температурный фактор (среднее значение для атомов остатка / среднее значение для всех атомов структуры) Углы φ/ψ на карте Рамачандрана 18.87 / 23.81 В предпочитаемой области Рисунок 9. Остатки Ala56 в модели 1UWZ (слева) и Arg56 в модели 1JTK (справа) и изображение электронной плотности (уровень подрезки 1.5σ). 15 Как отмечают авторы статьи [1], основные различия между структурами цитидиндезаминазы дикого типа и с мутацией R56A обнаруживаются в районе активного сайта (рисунок 10). Существенная разница заключается в том, что остаток анализа Ala56, в отличие от остатка аргинина Arg56, не может образовывать водородные связи с остатками цистеина Cys53 и Cys89. Это действительно прослеживается при сравнении структур 1UWZ и 1JTK, как отображено на рисунке 10. Рисунок 10. Активный сайт в моделях структур цитидиндезаминазы Bacillus subtilis дикого типа (1JTK, сверху) и с заменой R56A (1UWZ, снизу). 16 Сравнение модели из PDB с моделью из PDB_REDO Интересно сравнить модель 1UWZ из PDB с оптимизированной моделью из PDB_REDO [9]. На рисунке 11 приведено изображение совмещения моделей 1UWZ из PDB и PDB_REDO. Значения некоторых параметров для оценки качества двух моделей систематизированы в таблице 5. Таблица 5. Параметры модели 1UWZ из PDB и из PDB_REDO Параметр PDB PDB_REDO R-фактор 0.188 0.163 Rfree 0.211 0.198 Rfree – R 0.023 0.035 Число остатков с подозрением на необходимость инверсии боковой группы 2 0 Число маргиналов по карте Рамачандрана [6] 0 0 254 (99.22%) 254 (99.22%) 1.04 0.80 Число остатков в предпочитаемой области карты Рамачандрана [6] MolProbity score [6] На основании приведённых данных можно сказать, что оптимизация структуры средствами PDB_REDO позволила устранить часть аномалий в модели 1UWZ (например, инверсию боковых групп остатков Gln4 и Gln71), а также улучшить общее качество структуры. (Последнее, однако, несколько противоречиво, так как вместе с уменьшением Rfree значительно возросла разность Rfree – R.) 17 Рисунок 11. Совмещение элементов вторичной структуры моделей 1UWZ из PDB (красным цветом) и PDB_REDO (светлоголубым цветом). 18 Заключение 1UWZ представляет собой модель высокого разрешения. Качество её также можно оценить как «высокое», о чём свидетельствуют индикаторы оценки качества этой структуры. Из наблюдаемых в 1UWZ аномалий можно отметить слишком сильные ограничения на длины связей при оптимизации геометрии модели [7]. В модели структуры удалось также обнаружить остатки, для которых предполагается инверсия боковых цепей (рисунок 8) вследствие ошибки расшифровки. Стоит отметить, что эта аномалия, вероятно, не влияет на обсуждаемый в статье [1] остаток, несущий функциональную значимость в исследовании. 19 Список литературы 1. Johansson, Eva, et al. "Structural, kinetic, and mutational studies of the zinc ion environment in tetrameric cytidine deaminase." Biochemistry 43.20 (2004): 6020-6029. 2. Johansson, Eva, et al. "Crystal structure of the tetrameric cytidine deaminase from Bacillus subtilis at 2.0 Å resolution." Biochemistry 41.8 (2002): 2563-2570. 3. Wlodawer, Alexander, et al. "Protein crystallography for non-crystallographers, or how to get the best (but not more) from published macromolecular structures." Febs Journal 275.1 (2008): 1-21. 4. Jones, T. Alwyn, et al. "Improved methods for building protein models in electron density maps and the location of errors in these models." Acta Crystallographica Section A: Foundations of Crystallography 47.2 (1991): 110-119. 5. http://www.rcsb.org/pdb/explore.do?structureId=1uwz 6. http://molprobity.biochem.duke.edu/ 7. http://www.cmbi.ru.nl/pdbreport/cgi-bin/nonotes?1UWZ 8. http://eds.bmc.uu.se/cgi-bin/eds/uusfs?pdbCode=1UWZ 9. http://www.cmbi.ru.nl/pdb_redo/uw/1uwz/ 20