модель - Kodomo

advertisement
Тернистый путь создания
модели
Ян Вермеер Дельфтский
Аллегория живописи
1666
Оценка качества модели
пространственной
структуры белка
Поиск “маргиналов” в структуре
Структура белка - это созданная человеком на
основании экспериментальных данных модель
(а не фотография…)
The structures in the PDB are based on a subjective interpretation of
experimental data, which may itself be of variable quality, a process
that can lead to errors with varying degrees of impact (Bra¨nde´n &
Jones, 1990; Morris et al., 1992; Kleywegt & Jones, 1995, 1996,
1997, 2002; Hooft et al., 1996; Kleywegt, 2000, 2007, 2009; Chen et
al., 2010).
For this reason, it is crucial to assess the quality and reliability of
the resulting models, a process known as validation (Kleywegt,
2000, 2009).
Gore, Velankar and Kleywegt,
Implementing an X-ray validation pipeline for the Protein
Data Bank, 2012
При высоком разрешении (<1.5 Å) и
хороших фазах модель на 95% и более
основана на экспериментальных данных
(Kleywegt, 2000)
Остальные 5% модели зависят от того,
•
•
•
•
•
какие программы использовались
как моделировался B-фактор (есть свобода выбора)
допускались ли альтернативные конформации
моделировались ли водороды
какие сгущения электронной плотности
интерпретировались как молекулы растворителя
(воды), а какие – как шум
• как отнеслись к некристаллографической симметрии
• ….
При худшем разрешении роль
воображения авторов модели
возрастает!
Менее 10% структур, полученных с помощью
рентгеноструктурного анализа, имеют разрешение
менее, чем 1,5 ангстрем
Примеры ошибок.
Полностью ошибочная модель 
1PHY, 2.4 Å
McRee et al. 1989
2PHY, 1.4 Å
Borgstahl et al. 1995
Две структуры фотоактивного желтого белка рецептора
фототаксиса Ectothiorhdospira halophila:
почти ничего общего!
Полностью ошибочная модель 
SCIENCE VOL 314 22 DECEMBER 2006
Experimental Data for
13 JULY
Structure Papers
We are writing to address the retraction of five
papers on structural studies of ATP-binding
cassette (ABC) transporters—three in Science
(G. Chang et al., “Retraction,” Letters, 22 Dec.
2006, p. 1875), one in the Proceedings of the
National Academy of Sciences (1), and one in
the Journal of Molecular Biology (2). We have
much sympathy for your readers but very little
for the magazine. This is not the first time
incorrect structures have been published in
Science (3), and it will not be the last time. We
and all of your readers make mistakes; crystallography
is fortunate that by careful treatment
of the experimental and derived data, most serious
mistakes are caught and corrected before
publication. The necessary tools and techniques
are well described [for example, (4), and
references therein] and widely used by our
community. Inherent in structural analysis is a
degree of subjectivity (3), which is particularly
relevant in low-resolution studies such as those
made by Chang and co-workers. Essentially
correct structures have been built at 4.5 Å resolution,
but it is not surprising that some of them
turn out to be wrong upon further scrutiny.
2007 VOL 317 SCIENCE
We are writing to address the retraction of five
papers on structural studies of ATP-binding
cassette (ABC) transporters—three in Science
(G. Chang et al., “Retraction,” Letters, 22 Dec.
2006, p. 1875), one in the Proceedings of the
National Academy of Sciences (1), and one in
the Journal of Molecular Biology (2). We have
much sympathy for your readers but very little
for the magazine. This is not the first time
incorrect structures have been published in
Science (3), and it will not be the last time.
ROBBIE P. JOOSTEN AND GERT VRIEND
Пример “сдвига рамки” при расшифровке: две модели,
построенные по тем же экспериментальным данным
1CHR: Hoier et al., 1993
Разрешение 3.00 Å
Ala5
Ala5
2CHR: Kleywegt et al., 1996
Разрешение 3.00 Å
Gln20
Ser22
Lys16
Gly40
Gly40
Lys16
Выравнивание последовательностей 1CHR
и 2CHR по близости C_alpha атомов при
наложении структур
“Мелкие” ошибки.
1DLP 167-169:C, Разрешение 3.3 ангстрема (2000г)
Validation Task Forses (VTF),
2008
• Организация экспертов, созванная PDB
• Вырабатывает рекомендаций по
– построению моделей структур
– методам проверки; создает поток (pipline) по
автоматической проверке PDB-файлов и
выявлению ошибок
Две задачи:
I. Интегральная оценка качества
(и, следовательно, степень доверия
модели)
II. Выявление “маргиналов” (от лат.
margo – край) - остатков или групп
атомов
I.Основные интегральные
параметры структуры
• Оценка экспериментальных данных
– Разрешение
– Фильтрация рефлексов
• Оценка соответствия модели экспериментальным данным
– R-фактор и R-free
• Оценка соответствия модели строению белка
– Карта Рамачандрана модели
– Характер и число маргинальных остатков, групп
атомов, …
1) Разрешение
Разрешение структуры
• Проведен РСА эксперимент: найдены параметры кристаллической
ячейки и получен файл структурных факторов :
CRYST1 77.553 192.966 93.740 90.00 90.00 90.00
0
0
4
211.0
0 0 6 1642.7
……………….
1 1 3
160.9
• Для каждой гармоники (h, k, l) рассчитываем разрешение dhkl
(параметры кристаллической решетки известны!)
• Имеем множество измеренных рефлексов (h, k, l) (см. рис)
• Если измерены все рефлексы с разрешением d и больше, и d
– минимальное с таким свойством, то говорят, что
разрешение структуры d (ангстрем)
• Слово “все” следует заменить на слова “почти все” (добавив, для
честности, параметр “полнота данных”) потому, что это
эксперимент, а не теория.
• Так, например, рефлексы, отвечающие самым маленьким тройкам
чисел (h,k,l): (0,0,0), (1,0,0) …. не могут быть измерены [почему?]
• Кроме того, некоторые измеренные амплитуды не используют из-за их
плохого качества
k
l
h
Рис. (не очень правдоподобная схема)
Рефлекс соответствует узлу решетки (h,k,l).
Белое – измеренные рефлексы,
черное – не измеренные.
Овал – все рефлексы с разрешением >=d
Фильтрация экспериментальных данных
• График Вилсона (Wilson
plot): логарифм
интенсивности рефлекса в
зависимости от его
разрешения (точек на графике
много меньше рефлексов потому, что
берется средняя интенсивность для
диапазона разрешения)
Рис. График Вильсона
• Сила сигнала = Fhkl /σhkl .
X – разрешение гармоники.
Амплитуды с силой сигнала >3 Y – нормированная интенсивность
можно считать достаточно
сигнала.
хорошими для синтеза Фурье
Теоретически, должна хорошо
приближаться прямой.
Сильно отклоняющиеся рефлексы
подозрительны.
Разрешение как показатель качества
модели структуры
• Характеризует эксперимент, а не модель!
• Остается небольшая доля субъективности в
определении разрешения структуры
• “Фазы решают все” (почти). При хороших фазах
даже данные РСА с плохим разрешением
позволяют построить хорошую модель; при
плохих фазах и хорошем разрешении могут быть
ошибки
• Разрешение характеризует модель только в
целом, глобально
Фазы решают все!
См. классическую иллюстрацию роли фаз:
http://www.ysbl.york.ac.uk/~cowtan/fourier/magic.html
Условные градации разрешения
• Высокое разрешение: <1.5 Å
• Хорошее разрешение: 1.5 – 2.5 Å
(в моделях с разрешением < 2.5 Å обычно
моделируют и молекулы воды)
• Удовлетворительное: 2.5 – 3.5 Å
• Низкое: > 3.5 Å
Но и модели с разрешением 5 Å и более могут
быть очень важными!
Например, первые расшифровки рибосомы
2) R-фактор и R-free
В.Ю.Лунин, лекция 1
Этапы РСА эксперимента
1. Выбор объекта (белок, комплекс белка с ДНК и т.п.)
2. Очистка белка
3. Кристаллизация
4. Рентгеноструктурный эксперимент: получение файла структурных факторов
5. Решение фазовой проблемы: получение фаз структурных факторов
6. Синтез Фурье: получение экспериментальной электронной плотности
7. Вписывание полипептидной цепи: черновая модель
пространственной структуры
2.5 Å, MIR
8.Оптимизация координат атомов
В.Ю.Лунин, лекция 3
• Что оптимизируется:
– Соответствие рефлексов:
» Fhkl(calc) - рассчитанных по координатам атомов в
модели, и
» Fhkl(obs) – полученных в эксперименте
– Длины валентных связей
– Валентные углы
• Какая величина оптимизируется:
Составной R-фактор (измеряется в % или долях единицы):
R = wX -ray RX -ray + wdist Rdist + wangle Rangle
RX-rayR==
calc
obs
F
F
 hkl hkl
hkl
F
obs
hkl
hkl
100%
В.Ю.Лунин, лекция 3
Оптимизация координат атомов
• Как оптимизируется
– Немножко меняются координаты всех атомов в
текущей n-й модели , получаем новую, (n+1)-ю
модель
– Рассчитывается Rn+1 для новой модели
– Если Rn > Rn+1 , то берем (n+1)-ю модель
– Поступаем так до тех пор, пока R-фактор не
перестанет уменьшаться
• Существуют алгоритмы как выбирать
смещения атомов для очередной модели
R-фактор отражает соответствие
модели и эксперимента:
чем меньше R-фактор, тем
модель лучше!?
Хорошие значения: R<25%
Так считали многие >20 лет тому назад…
Подгонка под ответ!
Борис Кустодиев
Сапожник
1924
ЧТО ПОЛУЧАЕТСЯ:
• R-фактор является тем параметром, который
минимизируется в процессе уточнения модели
• При минимизации уточняются координаты всех
атомов => “подкручиваются много тысяч ручек”
(параметров)
• С помощью тысяч “ручек” один параметр можно
минимизировать почти до нуля по случайным
причинам!
Пример “успешной” подгонки
(свобода, право)
Структура белка
CRABP
(вольности)
Структура CRABP,
вписанная
в обратном порядке
и оптимизированная
R-free
В.Ю.Лунин, лекция 3
В любом эксперименте необходим
контроль!
Служат для оптимизации
рабочие
все рефлексы
контрольные
модели
Используются после получения
окончательной модели для
контроля.
R-free вычисляется по той же формуле, что и
R_x-ray, но только по контрольным рефлексам
и только по окончательной модели!
• Если модель правильная, то R-free
окажется примерно равным R-X-ray или
немногим больше!
• Может ли быть так, что R-free < R-X-ray?
• Если модель подогнана под рабочие
рефлексы – “переоптимизирована”, - то
R_free окажется большим!
Интерпретация R_free
• Хорошие значения: R_free<20%
• Плохие значения: R_free>40%
• Значения (R_free – R)>10%
настораживают в отношении
переоптимизации (ovefitting)
В.Ю.Лунин, лекция 3
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
3
3
3
3
3
3
3
3
3
3
FIT TO DATA USED IN REFINEMENT.
CROSS-VALIDATION METHOD
FREE R VALUE TEST SET SELECTION
R VALUE
(WORKING + TEST SET)
R VALUE
(WORKING SET)
FREE R VALUE
FREE R VALUE TEST SET SIZE
(%)
FREE R VALUE TEST SET COUNT
:
:
:
:
:
:
:
THROUGHOUT
RANDOM
0.15621
0.15185
0.19471
10.1
5989
• Авторы получили в эксперименте 59 297 рефлексов
• Они утверждают, что 5 989 (10%) рефлексов спрятали в сейф, опечатали и
никому не показывали 
• По оставшимся 53 308 рефлексам оптимизировали модель и получили R=15%
• После этого достали тайные рефлексы из сейфа и рассчитали R-фактор по ним.
Это и есть Rfree . Авторы получили Rfree = 19%.
• Все общественно признанные критерии удовлетворены:
• Rfree <20% - приемлемое значение для хорошей модели
• Rfree- R <10% - нет доводов в пользу переоптимизации
• Значит, можно публиковать статью!
Интересно, как поступают авторы если Rfree получился плохим?
Польза R_free демонстрируется в работе
Структура белка
CRABP
Структура CRABP,
вписанная
в обратном порядке
и оптимизированная
3) Карта Рамачандрана
Степени свободы полипептидной цепи
Длины валентных связей и валентные углы имеют
известные значения.
Отклонения от этих значений энергетически
невыгодны.
Поэтому в модели соблюдаются табличные
значения этих параметров с хорошей точностью.
Укладка полипептидной цепи
определяется тремя торсионными углами
, , 
Торсионный угол
1
3
4
2
Рис.1. Упорядоченная
четверка атомов в
пространстве
1
2
3
4
• Определяется для упорядоченной
четверки атомов: 1-2-3-4
• Если расположить атомы над
плоскостью проекции так, чтобы 3-й и
2-й проектировались в одну точку, 3й –
выше 2-го, то торсионный угол равен
углу между проекциями ребер 1-2 и 2-3
• торсионный угол отсчитывается от
проекции ребра 1-2 против часовой
стрелки
Рис.2. Проекция четверки
• торсионный угол измеряется в
на плоскость.
Торсионный угол –
пределах от -180º до -+180º градусов
примерно +160º
Угол  принимает определенные значения:
180° почти всегда (trans - конформация)
0°
крайне редко (cis - конформация),
бывает, в основном, у пролина
Cα(i)
N
Cα(i+1)
C
Рис.2 Trans конформация: “кочерга”
Cα(i+1)
Рис.1 Cis и trans
конформации
полипептидной цепи
N
Cα(i)
C
Рис.3 Cis конформация: “чашка”
Существенно разные (но не любые)
значения могут принимать углы , .
Пара чисел от -180° до +180 ° соответствует
точке в квадрате на координатной плоскости
Квадрат -180° до +180 °, предназначенный для
отображения торсионных углов (φ,ψ)
называется картой Рамачандрана
Карта Рамачандрана
Каждой точке на карте можно приписать энергию
такой конформации полипептидной цепи остатка.
ψ
Крестиками отмечены
пары (φ,ψ) для
остатков одной
структуры
+180°
0°
Области низкой энергии,
т.е. предпочитаемых
значений (φ,ψ),
обведены контурами
-180°
-180°
0°
+180°
φ
Области на карте Рамачандрана
1CNR, разрешение 1.05 ангстрем
Классификация
областей (PROCHECK):
- предпочитаемая (A,B,L)
- разрешенная (a,b,l,p)
- допустимая (~a,~b,~l,~p)
- запрещенная
Области на карте Рамачандрана,
используемые в сервисе ProCheck,
определены на основании
статистики по PDB
Карта Рамачандрана модели
белка как индикатор её качества
• Этот индикатор хорош потому, что независим
от процедуры оптимизации модели (как
правило)
• В хорошей модели
>90% остатков,
не считая Gly, Pro, находятся
в предпочитаемой области
• Этот критерий нынче известен всем, поэтому
авторы стараются подогнать модель!
Сравните две карты
Рамачандрана
II. Выявление маргинальных
групп атомов
• Торсионные углы:
– Углы φ, ψ, ω (вне областей на карте Рамачандрана)
– Углы χ1, ..., χ4 (значения не как у ротамеров)
– Инверсия пептидной цепи (pep-flip)
• Геометрия остатков: длины связей, валентные углы
• Пространственный R-фактор(Real Space R-factor, RSR)
• B-фактор (температурный фактор)
• Сравнение двух мономеров из одной асимметрической
ячейки
• Комфортность окружения атомов
– Гидрофобные кластеры
– Водородные связи
– Молекулы воды
1b)Конформаций боковых цепей.
Ротамеры.
• Боковые цепи имеют от 0 (Gly, Ala) до 4х (Lys,
Arg) степеней свободы.
• Эти степени свободы - вращения вокруг
ковалентных связей
• Соответствующие торсионные углы
обозначаются χ1, ..., χ4, отсчёт идет от связи
C_alpha – C_beta
Распределение угла χ1 в моделях PDB
Всего в
выборке
было
67608
остатков
Карта углов χ1 и χ2 для Leu
Ось X: chi_1 (0-360°)
Ось Y: chi_2 (0-360°)
Всего 6638 остатков
Изображены линии
уровня плотности
числа остатков
Ротамеры - это боковые цепи в типичных для
данного типа остатка конформациях
У каждого типа остатков (Leu, Trp, Arg и т.п.)
свое число ротамеров
Имеются базы данных ротамеров, для каждого
остатка указаны средние и доверительные
интервалы
Программы “знают” ротамеры боковых цепей
Боковые цепи, конформация
которых существенно отличается от
одной из предпочитаемых,
считаются маргиналами.
1c) Инверсия пептидной цепи
(pep-flip)
Индикатором
возможности
инверсии служат
два идущих подряд
остатка на карте
Рамачандрана
попавшие в
неблагоприятные
области
3) Пространственный R-фактор (RSR)
Лучший метод найти маргинала – посмотреть
как согласуются экспериментальная
электронная плотность и построенная по
модели.
Проблема в том, что … эксперимент не даёт
функцию электронной плотности!
Эл.пл-ть, полученая в результате решения
фазовой проблемы, служит только для
построения черновой модели структуры!
Как рассчитать
“экспериментальную” электронную
плотность?
• Фазы - по модели (больше неоткуда
взять!)
• Рефлексы – из эксперимента
• Используют трюк “2F_эксп – F_модель”
для контрастирования ошибок.
В результате трюка получается лучшее
приближение к правильной электронной
плотности
Комбинированные синтезы Фурье
атомы белка 1-й, 2-й, … n-й
структурные факторы
r1,…, rm
правильные координаты в модели Fhkl (эксперимент)
um+1, …, un ошибочные координаты в модели Fhkl (модель)
rm+1, …, rn правильные координаты в белке
Число в табличке –
доля восстановления
электронной плотности
в данной точке
Точки пространства
белок
модель
2
--модель
r1,…, rm rm+1, …, rn um+1, …, un
Fhkl (эксп), φhkl (эксп)
-1
белок
----
Fhkl (модель), φhkl (модель)
Fhkl (эксп), φhkl (модель)
(2Fhkl (эксп) - Fhkl (модель) ), φhkl (модель)
1
0
1
1
0
1/2
1
1/2
1
1
0
1
Продолжение
• Карты электронной плотности моделей, для
которых в PDB есть файл структурных
факторов, доступны на сайте Electron Density
Server (EDS)
Как сравнить “экспериментальную”
электронную плотность с электронной
плотностью, построенной по модели?
• Real Space R (RSR) характеризует насколько
модель атомов (или даже отдельного атома)
соответствует “экспериментальной”
электронной плотности
Сумма берется по узлам пространственной решетки
в окружении всех атомов (или группы атомов)
Хорошие значения: RSR<10%
Плохие:
>20%
RSR: пространственный R-фактор
для всех остатков структуры 1CHR
Для маргиналов с RSR>20%
имеет смысл посмотреть как
остаток вписан в электронную
плотность
Рекомендуемый вариант:
RSR – Z-score
• Для вычисления Z остатка (напр. Ala57)
его RSR сравнивается со средним RSR
для того же типа остатков (Ala) по
выборке из PDB с примерно таким же
разрешением (напр. 1.5-1.8 Å)
Z = (RSR - <RSRresolution>) / Sigmaresolution
Z-score для всех остатков структуры 1CHR
Высокие положительные значения Z > 2 свидетельствуют о
том, что остаток плохо вписан в электронную плотность
(=>маргинал)
Вариант RSR – коэфициент корреляции
между ρэксп и ρмодели
• Как и RSR, вычисляется по узлам
пространственной решетки
• Не зависит от значений ρэксп , а зависит от
согласованности изменений ρэксп и ρмодели
• Coeff.corr. <0.9 - подозрительно
6) Комфортность окружения
атомов
• Заряд остатка должен компенсироваться
взаимодействием с зарядом
противоположного знака
• Донорам/акцепторам протона желательно
образовывать водородную связь
• Неполярным атомам предпочтительно
находиться в гидрофобном окружении
Существуют несколько
интегральных критериев
комфортности окружения.
Рекомендуется использовать те,
которые приведены в
протоколахPDBReport,
создаваемых программой
WhatCheck
Интегральная оценка комфортности
окружения остатка
• В программе WhatCheck рассчитывается Zscore для комфортности окружения каждой
боковой цепи
• Маргиналы – Z-score < -5
• Более показательны участки цепи с низким Z,
для их обнаружения строится сглаженный
график зависимости Z от номера остатка
• Маргиналов по окружению стоит проверять
визуально: часто маргинальность объясняется
выходом на поверхность глобулы, контактом с
белком из соседней ячейки и др.
Некоторые специальные
ситуации
Анализ водородных связей
• В моделях встречается инверсия боковых
цепей His, Asn, Gln
His
Asn
Gln
Графики (r) для разных
атомов (из лекции Лунина)
200
H
C
N
O
S
150
100
50
0
0
0,2
0,4
0,6
Инверсия (?) в Asn51 гомеодомена №2
№2
№1
Asn51
Атом ND2
?
?
Атом N7 –
акцептор H
A103
Атом OD1
Атом N6 –
донор H
Еще в 36 структурах гомеодоменов – так же, как в 1й;
еще в 2х – как во второй
Анализ молекул воды.
Пример из модели 1CBS
HOH375
Может ли HOH376
фиксироваться в
одинаковых точках
во всех ячейках
кристалла!???
4.3Å
3.9Å
Очевидно, нет
HOH376
Leu28.CD
Вопрос: что еще нужно проверить?
Итак, основные индикаторы:
лучшие
Индикатор
Свободный Rфактор (R_free) и
(R_free – R)
Глобаль Локальный
ный
да
нет
Карта
да
Рамачандрана
Комфортность
да
окружения атомов
(Packing score)
да
да
Значимость
++
++
++
++
Основные индикаторы:
хорошие
Индикатор
Разрешение
Глобальн Локальный
ый
да
нет
Ротамеры
да
да
Пространственный да
R-фактор (RSR)
да
Значим
ость
+
+
+
Основные индикаторы:
хорошие
Индикатор
Глобальн Локальный
ый
да
да
Сравнение двух
копий из
асимметрической
единицы
Инверсия
нет
пептидной цепи
между двумя C
(pep-flip)
да
Значим
ость
+
+
Основные индикаторы:
”плохие” (с оговорками)
Индикатор
R-фактор
Температурный
фактор
Геометрические:
длины ковалентных
связей, валентные углы,
, планарность,
хиральность, сближение
несвязанных атомов
Глобальн Локальный
ый
да
нет
да
да
да
да
Значим
ость
Плохие в том смысле, что хорошие их
значения не говорят о хорошем качестве
-/+
-/+
-/+
Два мономера в асимметрической ячейке
Пример. Хлормуконат циклоизомераза из Alcaligenes eutrophus:
структуры 1chr и 2chr
1CHR: Hoier et al., 1993
Разрешение 3.00 Å
2CHR: Kleywegt et al., 1996
Разрешение 3.00 Å
Использованы те же экспериментальные
данные!
Наличие двух мономеров белка в
асимметрической ячейке требуется
объяснить почему авторы не уменьшили
асимметричеcкую ячейку вдвое
• (две конформации белка) Различие конформации двух
соседних мономеров имеют биологическое объяснение
(например, есть подвижные субдомены). В таком случае
одна и другая конформации регулярно чередуются в
кристалле.
• (переоптимизация) Авторы оптимизировали сразу два
мономера чтобы лучше подогнать R-фактор: у двух
молекул вдвое больше параметров подгонки, чем у одной.
• Симметрия не кристаллографическая (бывает ли на
практике?)
Совмещение остовов 1CHR_A и
2СHR
Ala5
Ala5
Gln20
Ser22
Lys16
Gly40
Lys16
Gly40
1CHR и 2CHR: пример “сдвига рамки”
при расшифровке
Выравнивание последовательностей 1CHR
и 2CHR по близости C_alpha атомов при
наложении структур
Участок цепи вписан в электронную
плотность с ошибкой
Мог ли пользователь заподозрить
ошибку в структуре 1CHR до
появления 2CHR?
Сравнение структур 1CHR и 2CHR
Statistic
1CHR
2CHR
Comments
3.0
Эксперименальные
данные те же!
Crystallograp 0.195
hic R-value
0.189
Free R-value
0.264
Сравнение не
информативно!
Сравнить невозможно!
Resolution
3.0
???
Сравнение карт Рамачандрана
1CHR и 2 CHR (+)
Сравнение статистик по картам Рамачандрана
Предпочти
тельные
области
A,B,L
Разрешенн
ые a,b,l,p
1CHR
492
76%
Предпочтит
ельные
области
A,B,L
Разрешенн
ые a,b,l,p
2CHR
270
83%
51
16%
126
19%
Допустим
ые
~a,~b,~l,~p
22
3.5%
Допустимы
е
~a,~b,~l,~p
3
1%
Запрещенн
ые
10
1.5%
Запрещенн
ые
1
<1%
Комфортность окружения для отдельных
остатков (!!!)
1CHR: Arg35 оказался
в гидрофобном
кармане
2CHR: Arg35
взаимодействует с
килотой
Сравнение двух копий из
асимметрической ячейки 1CHR
(!!!)
Наложение участка 5-47 двух цепочек A и
B из структуры 1CHR
Server EDS:
Real-space R-value vs Residue for 1chr
Real-space R-value vs Residue for 2chr
Продолжение
Statistic
1CHR
-1.6
WHAT IF Z-score
Ramachandran plot
appearance (for 3.0 Å
structures)
WHAT IF Z-score
-1.6
rotamer quality (for 3.0
Å structures)
WHAT IF Z-score
backbone
conformation quality
(for 3.0 Å structures)
-1.6
2CHR
Comments
0.2
1CHR worse than
average
1.3
1CHR worse than
average; 2CHR
better than
average
0.6
1CHR worse
than average;
2CHR better
than average
Сервисы и программы
• PDBsum
• PDB
• PDBCheck (программа WhatCheck из
пакета WhatIf)
• PDBReport
• EDS (RSR во всех видах, файлы с
электронными плотностями)
Продолжение
• Ramachandran plots for all types of residues
(http://xray.bmc.uu.se/gerard/supmat/ramarev.html)
• Rotamers for all types of side chains
(http://xray.bmc.uu.se/gerard/supmat/chi.html)
Science 2007: Vol. 317. no. 5835, pp. 195 - 196
PDB Improvement Starts with Data
Deposition
Robbie P. Joosten, Gert Vriend
In 1996, Hooft et al. (4) reported one million anomalies in the PDB, and we
recently detected 10 times as many anomalies in a PDB that is 10 times as large.
Most of these anomalies are of minor importance, and a small fraction are genuine
discoveries that warrant further studies. However, a substantial number are
serious errors. Using today's tools, we can correct many of the erroneous
structures, provided that the original experimental x-ray data are available.
We re-refined all 1195 PDB files that had a reported resolution of 2.0 Å and that
were deposited after 1992 with the use of an experimental data file that included
an Rfree set.
http://swift.cmbi.ru.nl/pdb_redo/
Индикаторы качества модели
Индикатор
Что характеризует
Глобаль
ный
Локаль Значимость
ный
для оценки
Разрешение
Объём экспериментальных данных
(а не модель!)
Да
Нет
+
R-фактор
Соответствие модели
экспериментальным данным
(структурным факторам)
Да
Нет
-
Соответствие модели
экспериментальным данным
Да
Свободный
R-фактор
подгоняется
при
оптимизации
Нет
++
не должен
подгоняться!
Карта
Рамачандра
на
Соответствие модели знаниям о
белках
Да
Да
++
если не
подгонялся !
Разрешение структуры (повторение)
•
Гармоника Фурье
–
Соответствие между гармониками и рефлексами
–
Длина волны гармоники: разрешение гармоники
•
Множество измеряемых гармоник
•
Некачественные рефлексы
•
Определение разрешения модели
Гармоники ряда Фурье
 x, y, z   F000 + 2 Fhkl cos2  hx + ky + lz  -  hkl 
hkl
Эта формула написана в относительных координатах!
Значит, точка (x, y, z) = xa +yb + zc где a, b, c - векторы кристаллической ячейки
•
Гармоника – слагаемое суммы. Она не представляет из себя никакую физическую волну!
•
Гармоника – функция от (x,y,z) т.к. ρ – плотность электронов, – зависит только от точки пространства
•
Один рефлекс соответствует одной гармонике. Поэтому рефлексы можно нумеровать индексами h, k, l, т.е. тремя целыми
числами
•
По каждому направлению r=(rx, ry, rz) гармоника представляет из себя синусоиду.
•
Длина “волны” гармоники зависит от направления r :
–
по направлению оси x, то есть, вектора a кристаллической ячейки, длина волны dx = 1/(h|a|)
–
по направлению оси y: dy = 1/(k|b|)
–
и т.д.
Гармоники ряда Фурье
•
Длина “волны” гармоники (h,k,l) минимальна в направлении вектора s такого, что (s,a)=h, (s,b)=k, (s,c)=l [это простой
математический факт]
•
Эта минимальная длина “волны” равна dhkl= 1/|s|
•
dhkl измеряется в ангстремах и называется разрешением данной гармоники
•
Детали структуры размером меньше dhkl /2 не отражаются на этой гармонике
•
Чем больше числа h, k, l, тем длиннее вектор s и, следовательно, меньше разрешение (т.е. нам лучше)
•
Формула для dhkl довольно сложная и зависит от параметров кристаллической ячейки:
CRYST1 77.553 192.966 93.740 90.00 90.00 90.00
•
Впрочем, для прямоугольного параллелепипеда она простая:
1
d
=
2
h
a
2
+
k
b
2
+
l
c
Download