Тернистый путь создания модели Ян Вермеер Дельфтский Аллегория живописи 1666 Оценка качества модели пространственной структуры белка Поиск “маргиналов” в структуре Структура белка - это созданная человеком на основании экспериментальных данных модель (а не фотография…) The structures in the PDB are based on a subjective interpretation of experimental data, which may itself be of variable quality, a process that can lead to errors with varying degrees of impact (Bra¨nde´n & Jones, 1990; Morris et al., 1992; Kleywegt & Jones, 1995, 1996, 1997, 2002; Hooft et al., 1996; Kleywegt, 2000, 2007, 2009; Chen et al., 2010). For this reason, it is crucial to assess the quality and reliability of the resulting models, a process known as validation (Kleywegt, 2000, 2009). Gore, Velankar and Kleywegt, Implementing an X-ray validation pipeline for the Protein Data Bank, 2012 При высоком разрешении (<1.5 Å) и хороших фазах модель на 95% и более основана на экспериментальных данных (Kleywegt, 2000) Остальные 5% модели зависят от того, • • • • • какие программы использовались как моделировался B-фактор (есть свобода выбора) допускались ли альтернативные конформации моделировались ли водороды какие сгущения электронной плотности интерпретировались как молекулы растворителя (воды), а какие – как шум • как отнеслись к некристаллографической симметрии • …. При худшем разрешении роль воображения авторов модели возрастает! Менее 10% структур, полученных с помощью рентгеноструктурного анализа, имеют разрешение менее, чем 1,5 ангстрем Примеры ошибок. Полностью ошибочная модель 1PHY, 2.4 Å McRee et al. 1989 2PHY, 1.4 Å Borgstahl et al. 1995 Две структуры фотоактивного желтого белка рецептора фототаксиса Ectothiorhdospira halophila: почти ничего общего! Полностью ошибочная модель SCIENCE VOL 314 22 DECEMBER 2006 Experimental Data for 13 JULY Structure Papers We are writing to address the retraction of five papers on structural studies of ATP-binding cassette (ABC) transporters—three in Science (G. Chang et al., “Retraction,” Letters, 22 Dec. 2006, p. 1875), one in the Proceedings of the National Academy of Sciences (1), and one in the Journal of Molecular Biology (2). We have much sympathy for your readers but very little for the magazine. This is not the first time incorrect structures have been published in Science (3), and it will not be the last time. We and all of your readers make mistakes; crystallography is fortunate that by careful treatment of the experimental and derived data, most serious mistakes are caught and corrected before publication. The necessary tools and techniques are well described [for example, (4), and references therein] and widely used by our community. Inherent in structural analysis is a degree of subjectivity (3), which is particularly relevant in low-resolution studies such as those made by Chang and co-workers. Essentially correct structures have been built at 4.5 Å resolution, but it is not surprising that some of them turn out to be wrong upon further scrutiny. 2007 VOL 317 SCIENCE We are writing to address the retraction of five papers on structural studies of ATP-binding cassette (ABC) transporters—three in Science (G. Chang et al., “Retraction,” Letters, 22 Dec. 2006, p. 1875), one in the Proceedings of the National Academy of Sciences (1), and one in the Journal of Molecular Biology (2). We have much sympathy for your readers but very little for the magazine. This is not the first time incorrect structures have been published in Science (3), and it will not be the last time. ROBBIE P. JOOSTEN AND GERT VRIEND Пример “сдвига рамки” при расшифровке: две модели, построенные по тем же экспериментальным данным 1CHR: Hoier et al., 1993 Разрешение 3.00 Å Ala5 Ala5 2CHR: Kleywegt et al., 1996 Разрешение 3.00 Å Gln20 Ser22 Lys16 Gly40 Gly40 Lys16 Выравнивание последовательностей 1CHR и 2CHR по близости C_alpha атомов при наложении структур “Мелкие” ошибки. 1DLP 167-169:C, Разрешение 3.3 ангстрема (2000г) Validation Task Forses (VTF), 2008 • Организация экспертов, созванная PDB • Вырабатывает рекомендаций по – построению моделей структур – методам проверки; создает поток (pipline) по автоматической проверке PDB-файлов и выявлению ошибок Две задачи: I. Интегральная оценка качества (и, следовательно, степень доверия модели) II. Выявление “маргиналов” (от лат. margo – край) - остатков или групп атомов I.Основные интегральные параметры структуры • Оценка экспериментальных данных – Разрешение – Фильтрация рефлексов • Оценка соответствия модели экспериментальным данным – R-фактор и R-free • Оценка соответствия модели строению белка – Карта Рамачандрана модели – Характер и число маргинальных остатков, групп атомов, … 1) Разрешение Разрешение структуры • Проведен РСА эксперимент: найдены параметры кристаллической ячейки и получен файл структурных факторов : CRYST1 77.553 192.966 93.740 90.00 90.00 90.00 0 0 4 211.0 0 0 6 1642.7 ………………. 1 1 3 160.9 • Для каждой гармоники (h, k, l) рассчитываем разрешение dhkl (параметры кристаллической решетки известны!) • Имеем множество измеренных рефлексов (h, k, l) (см. рис) • Если измерены все рефлексы с разрешением d и больше, и d – минимальное с таким свойством, то говорят, что разрешение структуры d (ангстрем) • Слово “все” следует заменить на слова “почти все” (добавив, для честности, параметр “полнота данных”) потому, что это эксперимент, а не теория. • Так, например, рефлексы, отвечающие самым маленьким тройкам чисел (h,k,l): (0,0,0), (1,0,0) …. не могут быть измерены [почему?] • Кроме того, некоторые измеренные амплитуды не используют из-за их плохого качества k l h Рис. (не очень правдоподобная схема) Рефлекс соответствует узлу решетки (h,k,l). Белое – измеренные рефлексы, черное – не измеренные. Овал – все рефлексы с разрешением >=d Фильтрация экспериментальных данных • График Вилсона (Wilson plot): логарифм интенсивности рефлекса в зависимости от его разрешения (точек на графике много меньше рефлексов потому, что берется средняя интенсивность для диапазона разрешения) Рис. График Вильсона • Сила сигнала = Fhkl /σhkl . X – разрешение гармоники. Амплитуды с силой сигнала >3 Y – нормированная интенсивность можно считать достаточно сигнала. хорошими для синтеза Фурье Теоретически, должна хорошо приближаться прямой. Сильно отклоняющиеся рефлексы подозрительны. Разрешение как показатель качества модели структуры • Характеризует эксперимент, а не модель! • Остается небольшая доля субъективности в определении разрешения структуры • “Фазы решают все” (почти). При хороших фазах даже данные РСА с плохим разрешением позволяют построить хорошую модель; при плохих фазах и хорошем разрешении могут быть ошибки • Разрешение характеризует модель только в целом, глобально Фазы решают все! См. классическую иллюстрацию роли фаз: http://www.ysbl.york.ac.uk/~cowtan/fourier/magic.html Условные градации разрешения • Высокое разрешение: <1.5 Å • Хорошее разрешение: 1.5 – 2.5 Å (в моделях с разрешением < 2.5 Å обычно моделируют и молекулы воды) • Удовлетворительное: 2.5 – 3.5 Å • Низкое: > 3.5 Å Но и модели с разрешением 5 Å и более могут быть очень важными! Например, первые расшифровки рибосомы 2) R-фактор и R-free В.Ю.Лунин, лекция 1 Этапы РСА эксперимента 1. Выбор объекта (белок, комплекс белка с ДНК и т.п.) 2. Очистка белка 3. Кристаллизация 4. Рентгеноструктурный эксперимент: получение файла структурных факторов 5. Решение фазовой проблемы: получение фаз структурных факторов 6. Синтез Фурье: получение экспериментальной электронной плотности 7. Вписывание полипептидной цепи: черновая модель пространственной структуры 2.5 Å, MIR 8.Оптимизация координат атомов В.Ю.Лунин, лекция 3 • Что оптимизируется: – Соответствие рефлексов: » Fhkl(calc) - рассчитанных по координатам атомов в модели, и » Fhkl(obs) – полученных в эксперименте – Длины валентных связей – Валентные углы • Какая величина оптимизируется: Составной R-фактор (измеряется в % или долях единицы): R = wX -ray RX -ray + wdist Rdist + wangle Rangle RX-rayR== calc obs F F hkl hkl hkl F obs hkl hkl 100% В.Ю.Лунин, лекция 3 Оптимизация координат атомов • Как оптимизируется – Немножко меняются координаты всех атомов в текущей n-й модели , получаем новую, (n+1)-ю модель – Рассчитывается Rn+1 для новой модели – Если Rn > Rn+1 , то берем (n+1)-ю модель – Поступаем так до тех пор, пока R-фактор не перестанет уменьшаться • Существуют алгоритмы как выбирать смещения атомов для очередной модели R-фактор отражает соответствие модели и эксперимента: чем меньше R-фактор, тем модель лучше!? Хорошие значения: R<25% Так считали многие >20 лет тому назад… Подгонка под ответ! Борис Кустодиев Сапожник 1924 ЧТО ПОЛУЧАЕТСЯ: • R-фактор является тем параметром, который минимизируется в процессе уточнения модели • При минимизации уточняются координаты всех атомов => “подкручиваются много тысяч ручек” (параметров) • С помощью тысяч “ручек” один параметр можно минимизировать почти до нуля по случайным причинам! Пример “успешной” подгонки (свобода, право) Структура белка CRABP (вольности) Структура CRABP, вписанная в обратном порядке и оптимизированная R-free В.Ю.Лунин, лекция 3 В любом эксперименте необходим контроль! Служат для оптимизации рабочие все рефлексы контрольные модели Используются после получения окончательной модели для контроля. R-free вычисляется по той же формуле, что и R_x-ray, но только по контрольным рефлексам и только по окончательной модели! • Если модель правильная, то R-free окажется примерно равным R-X-ray или немногим больше! • Может ли быть так, что R-free < R-X-ray? • Если модель подогнана под рабочие рефлексы – “переоптимизирована”, - то R_free окажется большим! Интерпретация R_free • Хорошие значения: R_free<20% • Плохие значения: R_free>40% • Значения (R_free – R)>10% настораживают в отношении переоптимизации (ovefitting) В.Ю.Лунин, лекция 3 REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK 3 3 3 3 3 3 3 3 3 3 FIT TO DATA USED IN REFINEMENT. CROSS-VALIDATION METHOD FREE R VALUE TEST SET SELECTION R VALUE (WORKING + TEST SET) R VALUE (WORKING SET) FREE R VALUE FREE R VALUE TEST SET SIZE (%) FREE R VALUE TEST SET COUNT : : : : : : : THROUGHOUT RANDOM 0.15621 0.15185 0.19471 10.1 5989 • Авторы получили в эксперименте 59 297 рефлексов • Они утверждают, что 5 989 (10%) рефлексов спрятали в сейф, опечатали и никому не показывали • По оставшимся 53 308 рефлексам оптимизировали модель и получили R=15% • После этого достали тайные рефлексы из сейфа и рассчитали R-фактор по ним. Это и есть Rfree . Авторы получили Rfree = 19%. • Все общественно признанные критерии удовлетворены: • Rfree <20% - приемлемое значение для хорошей модели • Rfree- R <10% - нет доводов в пользу переоптимизации • Значит, можно публиковать статью! Интересно, как поступают авторы если Rfree получился плохим? Польза R_free демонстрируется в работе Структура белка CRABP Структура CRABP, вписанная в обратном порядке и оптимизированная 3) Карта Рамачандрана Степени свободы полипептидной цепи Длины валентных связей и валентные углы имеют известные значения. Отклонения от этих значений энергетически невыгодны. Поэтому в модели соблюдаются табличные значения этих параметров с хорошей точностью. Укладка полипептидной цепи определяется тремя торсионными углами , , Торсионный угол 1 3 4 2 Рис.1. Упорядоченная четверка атомов в пространстве 1 2 3 4 • Определяется для упорядоченной четверки атомов: 1-2-3-4 • Если расположить атомы над плоскостью проекции так, чтобы 3-й и 2-й проектировались в одну точку, 3й – выше 2-го, то торсионный угол равен углу между проекциями ребер 1-2 и 2-3 • торсионный угол отсчитывается от проекции ребра 1-2 против часовой стрелки Рис.2. Проекция четверки • торсионный угол измеряется в на плоскость. Торсионный угол – пределах от -180º до -+180º градусов примерно +160º Угол принимает определенные значения: 180° почти всегда (trans - конформация) 0° крайне редко (cis - конформация), бывает, в основном, у пролина Cα(i) N Cα(i+1) C Рис.2 Trans конформация: “кочерга” Cα(i+1) Рис.1 Cis и trans конформации полипептидной цепи N Cα(i) C Рис.3 Cis конформация: “чашка” Существенно разные (но не любые) значения могут принимать углы , . Пара чисел от -180° до +180 ° соответствует точке в квадрате на координатной плоскости Квадрат -180° до +180 °, предназначенный для отображения торсионных углов (φ,ψ) называется картой Рамачандрана Карта Рамачандрана Каждой точке на карте можно приписать энергию такой конформации полипептидной цепи остатка. ψ Крестиками отмечены пары (φ,ψ) для остатков одной структуры +180° 0° Области низкой энергии, т.е. предпочитаемых значений (φ,ψ), обведены контурами -180° -180° 0° +180° φ Области на карте Рамачандрана 1CNR, разрешение 1.05 ангстрем Классификация областей (PROCHECK): - предпочитаемая (A,B,L) - разрешенная (a,b,l,p) - допустимая (~a,~b,~l,~p) - запрещенная Области на карте Рамачандрана, используемые в сервисе ProCheck, определены на основании статистики по PDB Карта Рамачандрана модели белка как индикатор её качества • Этот индикатор хорош потому, что независим от процедуры оптимизации модели (как правило) • В хорошей модели >90% остатков, не считая Gly, Pro, находятся в предпочитаемой области • Этот критерий нынче известен всем, поэтому авторы стараются подогнать модель! Сравните две карты Рамачандрана II. Выявление маргинальных групп атомов • Торсионные углы: – Углы φ, ψ, ω (вне областей на карте Рамачандрана) – Углы χ1, ..., χ4 (значения не как у ротамеров) – Инверсия пептидной цепи (pep-flip) • Геометрия остатков: длины связей, валентные углы • Пространственный R-фактор(Real Space R-factor, RSR) • B-фактор (температурный фактор) • Сравнение двух мономеров из одной асимметрической ячейки • Комфортность окружения атомов – Гидрофобные кластеры – Водородные связи – Молекулы воды 1b)Конформаций боковых цепей. Ротамеры. • Боковые цепи имеют от 0 (Gly, Ala) до 4х (Lys, Arg) степеней свободы. • Эти степени свободы - вращения вокруг ковалентных связей • Соответствующие торсионные углы обозначаются χ1, ..., χ4, отсчёт идет от связи C_alpha – C_beta Распределение угла χ1 в моделях PDB Всего в выборке было 67608 остатков Карта углов χ1 и χ2 для Leu Ось X: chi_1 (0-360°) Ось Y: chi_2 (0-360°) Всего 6638 остатков Изображены линии уровня плотности числа остатков Ротамеры - это боковые цепи в типичных для данного типа остатка конформациях У каждого типа остатков (Leu, Trp, Arg и т.п.) свое число ротамеров Имеются базы данных ротамеров, для каждого остатка указаны средние и доверительные интервалы Программы “знают” ротамеры боковых цепей Боковые цепи, конформация которых существенно отличается от одной из предпочитаемых, считаются маргиналами. 1c) Инверсия пептидной цепи (pep-flip) Индикатором возможности инверсии служат два идущих подряд остатка на карте Рамачандрана попавшие в неблагоприятные области 3) Пространственный R-фактор (RSR) Лучший метод найти маргинала – посмотреть как согласуются экспериментальная электронная плотность и построенная по модели. Проблема в том, что … эксперимент не даёт функцию электронной плотности! Эл.пл-ть, полученая в результате решения фазовой проблемы, служит только для построения черновой модели структуры! Как рассчитать “экспериментальную” электронную плотность? • Фазы - по модели (больше неоткуда взять!) • Рефлексы – из эксперимента • Используют трюк “2F_эксп – F_модель” для контрастирования ошибок. В результате трюка получается лучшее приближение к правильной электронной плотности Комбинированные синтезы Фурье атомы белка 1-й, 2-й, … n-й структурные факторы r1,…, rm правильные координаты в модели Fhkl (эксперимент) um+1, …, un ошибочные координаты в модели Fhkl (модель) rm+1, …, rn правильные координаты в белке Число в табличке – доля восстановления электронной плотности в данной точке Точки пространства белок модель 2 --модель r1,…, rm rm+1, …, rn um+1, …, un Fhkl (эксп), φhkl (эксп) -1 белок ---- Fhkl (модель), φhkl (модель) Fhkl (эксп), φhkl (модель) (2Fhkl (эксп) - Fhkl (модель) ), φhkl (модель) 1 0 1 1 0 1/2 1 1/2 1 1 0 1 Продолжение • Карты электронной плотности моделей, для которых в PDB есть файл структурных факторов, доступны на сайте Electron Density Server (EDS) Как сравнить “экспериментальную” электронную плотность с электронной плотностью, построенной по модели? • Real Space R (RSR) характеризует насколько модель атомов (или даже отдельного атома) соответствует “экспериментальной” электронной плотности Сумма берется по узлам пространственной решетки в окружении всех атомов (или группы атомов) Хорошие значения: RSR<10% Плохие: >20% RSR: пространственный R-фактор для всех остатков структуры 1CHR Для маргиналов с RSR>20% имеет смысл посмотреть как остаток вписан в электронную плотность Рекомендуемый вариант: RSR – Z-score • Для вычисления Z остатка (напр. Ala57) его RSR сравнивается со средним RSR для того же типа остатков (Ala) по выборке из PDB с примерно таким же разрешением (напр. 1.5-1.8 Å) Z = (RSR - <RSRresolution>) / Sigmaresolution Z-score для всех остатков структуры 1CHR Высокие положительные значения Z > 2 свидетельствуют о том, что остаток плохо вписан в электронную плотность (=>маргинал) Вариант RSR – коэфициент корреляции между ρэксп и ρмодели • Как и RSR, вычисляется по узлам пространственной решетки • Не зависит от значений ρэксп , а зависит от согласованности изменений ρэксп и ρмодели • Coeff.corr. <0.9 - подозрительно 6) Комфортность окружения атомов • Заряд остатка должен компенсироваться взаимодействием с зарядом противоположного знака • Донорам/акцепторам протона желательно образовывать водородную связь • Неполярным атомам предпочтительно находиться в гидрофобном окружении Существуют несколько интегральных критериев комфортности окружения. Рекомендуется использовать те, которые приведены в протоколахPDBReport, создаваемых программой WhatCheck Интегральная оценка комфортности окружения остатка • В программе WhatCheck рассчитывается Zscore для комфортности окружения каждой боковой цепи • Маргиналы – Z-score < -5 • Более показательны участки цепи с низким Z, для их обнаружения строится сглаженный график зависимости Z от номера остатка • Маргиналов по окружению стоит проверять визуально: часто маргинальность объясняется выходом на поверхность глобулы, контактом с белком из соседней ячейки и др. Некоторые специальные ситуации Анализ водородных связей • В моделях встречается инверсия боковых цепей His, Asn, Gln His Asn Gln Графики (r) для разных атомов (из лекции Лунина) 200 H C N O S 150 100 50 0 0 0,2 0,4 0,6 Инверсия (?) в Asn51 гомеодомена №2 №2 №1 Asn51 Атом ND2 ? ? Атом N7 – акцептор H A103 Атом OD1 Атом N6 – донор H Еще в 36 структурах гомеодоменов – так же, как в 1й; еще в 2х – как во второй Анализ молекул воды. Пример из модели 1CBS HOH375 Может ли HOH376 фиксироваться в одинаковых точках во всех ячейках кристалла!??? 4.3Å 3.9Å Очевидно, нет HOH376 Leu28.CD Вопрос: что еще нужно проверить? Итак, основные индикаторы: лучшие Индикатор Свободный Rфактор (R_free) и (R_free – R) Глобаль Локальный ный да нет Карта да Рамачандрана Комфортность да окружения атомов (Packing score) да да Значимость ++ ++ ++ ++ Основные индикаторы: хорошие Индикатор Разрешение Глобальн Локальный ый да нет Ротамеры да да Пространственный да R-фактор (RSR) да Значим ость + + + Основные индикаторы: хорошие Индикатор Глобальн Локальный ый да да Сравнение двух копий из асимметрической единицы Инверсия нет пептидной цепи между двумя C (pep-flip) да Значим ость + + Основные индикаторы: ”плохие” (с оговорками) Индикатор R-фактор Температурный фактор Геометрические: длины ковалентных связей, валентные углы, , планарность, хиральность, сближение несвязанных атомов Глобальн Локальный ый да нет да да да да Значим ость Плохие в том смысле, что хорошие их значения не говорят о хорошем качестве -/+ -/+ -/+ Два мономера в асимметрической ячейке Пример. Хлормуконат циклоизомераза из Alcaligenes eutrophus: структуры 1chr и 2chr 1CHR: Hoier et al., 1993 Разрешение 3.00 Å 2CHR: Kleywegt et al., 1996 Разрешение 3.00 Å Использованы те же экспериментальные данные! Наличие двух мономеров белка в асимметрической ячейке требуется объяснить почему авторы не уменьшили асимметричеcкую ячейку вдвое • (две конформации белка) Различие конформации двух соседних мономеров имеют биологическое объяснение (например, есть подвижные субдомены). В таком случае одна и другая конформации регулярно чередуются в кристалле. • (переоптимизация) Авторы оптимизировали сразу два мономера чтобы лучше подогнать R-фактор: у двух молекул вдвое больше параметров подгонки, чем у одной. • Симметрия не кристаллографическая (бывает ли на практике?) Совмещение остовов 1CHR_A и 2СHR Ala5 Ala5 Gln20 Ser22 Lys16 Gly40 Lys16 Gly40 1CHR и 2CHR: пример “сдвига рамки” при расшифровке Выравнивание последовательностей 1CHR и 2CHR по близости C_alpha атомов при наложении структур Участок цепи вписан в электронную плотность с ошибкой Мог ли пользователь заподозрить ошибку в структуре 1CHR до появления 2CHR? Сравнение структур 1CHR и 2CHR Statistic 1CHR 2CHR Comments 3.0 Эксперименальные данные те же! Crystallograp 0.195 hic R-value 0.189 Free R-value 0.264 Сравнение не информативно! Сравнить невозможно! Resolution 3.0 ??? Сравнение карт Рамачандрана 1CHR и 2 CHR (+) Сравнение статистик по картам Рамачандрана Предпочти тельные области A,B,L Разрешенн ые a,b,l,p 1CHR 492 76% Предпочтит ельные области A,B,L Разрешенн ые a,b,l,p 2CHR 270 83% 51 16% 126 19% Допустим ые ~a,~b,~l,~p 22 3.5% Допустимы е ~a,~b,~l,~p 3 1% Запрещенн ые 10 1.5% Запрещенн ые 1 <1% Комфортность окружения для отдельных остатков (!!!) 1CHR: Arg35 оказался в гидрофобном кармане 2CHR: Arg35 взаимодействует с килотой Сравнение двух копий из асимметрической ячейки 1CHR (!!!) Наложение участка 5-47 двух цепочек A и B из структуры 1CHR Server EDS: Real-space R-value vs Residue for 1chr Real-space R-value vs Residue for 2chr Продолжение Statistic 1CHR -1.6 WHAT IF Z-score Ramachandran plot appearance (for 3.0 Å structures) WHAT IF Z-score -1.6 rotamer quality (for 3.0 Å structures) WHAT IF Z-score backbone conformation quality (for 3.0 Å structures) -1.6 2CHR Comments 0.2 1CHR worse than average 1.3 1CHR worse than average; 2CHR better than average 0.6 1CHR worse than average; 2CHR better than average Сервисы и программы • PDBsum • PDB • PDBCheck (программа WhatCheck из пакета WhatIf) • PDBReport • EDS (RSR во всех видах, файлы с электронными плотностями) Продолжение • Ramachandran plots for all types of residues (http://xray.bmc.uu.se/gerard/supmat/ramarev.html) • Rotamers for all types of side chains (http://xray.bmc.uu.se/gerard/supmat/chi.html) Science 2007: Vol. 317. no. 5835, pp. 195 - 196 PDB Improvement Starts with Data Deposition Robbie P. Joosten, Gert Vriend In 1996, Hooft et al. (4) reported one million anomalies in the PDB, and we recently detected 10 times as many anomalies in a PDB that is 10 times as large. Most of these anomalies are of minor importance, and a small fraction are genuine discoveries that warrant further studies. However, a substantial number are serious errors. Using today's tools, we can correct many of the erroneous structures, provided that the original experimental x-ray data are available. We re-refined all 1195 PDB files that had a reported resolution of 2.0 Å and that were deposited after 1992 with the use of an experimental data file that included an Rfree set. http://swift.cmbi.ru.nl/pdb_redo/ Индикаторы качества модели Индикатор Что характеризует Глобаль ный Локаль Значимость ный для оценки Разрешение Объём экспериментальных данных (а не модель!) Да Нет + R-фактор Соответствие модели экспериментальным данным (структурным факторам) Да Нет - Соответствие модели экспериментальным данным Да Свободный R-фактор подгоняется при оптимизации Нет ++ не должен подгоняться! Карта Рамачандра на Соответствие модели знаниям о белках Да Да ++ если не подгонялся ! Разрешение структуры (повторение) • Гармоника Фурье – Соответствие между гармониками и рефлексами – Длина волны гармоники: разрешение гармоники • Множество измеряемых гармоник • Некачественные рефлексы • Определение разрешения модели Гармоники ряда Фурье x, y, z F000 + 2 Fhkl cos2 hx + ky + lz - hkl hkl Эта формула написана в относительных координатах! Значит, точка (x, y, z) = xa +yb + zc где a, b, c - векторы кристаллической ячейки • Гармоника – слагаемое суммы. Она не представляет из себя никакую физическую волну! • Гармоника – функция от (x,y,z) т.к. ρ – плотность электронов, – зависит только от точки пространства • Один рефлекс соответствует одной гармонике. Поэтому рефлексы можно нумеровать индексами h, k, l, т.е. тремя целыми числами • По каждому направлению r=(rx, ry, rz) гармоника представляет из себя синусоиду. • Длина “волны” гармоники зависит от направления r : – по направлению оси x, то есть, вектора a кристаллической ячейки, длина волны dx = 1/(h|a|) – по направлению оси y: dy = 1/(k|b|) – и т.д. Гармоники ряда Фурье • Длина “волны” гармоники (h,k,l) минимальна в направлении вектора s такого, что (s,a)=h, (s,b)=k, (s,c)=l [это простой математический факт] • Эта минимальная длина “волны” равна dhkl= 1/|s| • dhkl измеряется в ангстремах и называется разрешением данной гармоники • Детали структуры размером меньше dhkl /2 не отражаются на этой гармонике • Чем больше числа h, k, l, тем длиннее вектор s и, следовательно, меньше разрешение (т.е. нам лучше) • Формула для dhkl довольно сложная и зависит от параметров кристаллической ячейки: CRYST1 77.553 192.966 93.740 90.00 90.00 90.00 • Впрочем, для прямоугольного параллелепипеда она простая: 1 d = 2 h a 2 + k b 2 + l c