vvedenie_v_bioinformatiku_5_1

advertisement
Структурное выравнивание
• Структурное выравнивание
- Структура vs Структура
- Докинг
• Структурное моделирование (Структура vs Структура)
- Homology modeling
- Fold recognition/ Threading
Structural Alignment
1)
похожие структуры
Conserved 1º sequences
?
2)
Похожие структуры
conserved 1º sequences
Почему структурное выравнивание?
• Группировка/классификация белков по структурам (по схожести)
• Определение вклада отдельных аминокислот в образование 3D
структуры
• Определение дистантных гомологов в белковых семействах
• Предсказание функции белков с низким уровнем sequence similarity
с другими белками
• Исследования:
– Структурно-функциональные отношения
– Эволюция
– Общие блоки\сайты связывания - мотивы
Distance Based Matrix
A
B
DDM’s
• Самый простой метод сравнения структур
• Не требует ни трансформаций, ни поворотов, ни совмещений
• Очень эффективен для поиска движений в шарнирах или локальных
отличий
• Интуитивно понятная мера похожести
Совмещение структур
A
B
Выравнивание структур белков
• Уровни описания структуры:
–
–
–
–
Atom
Group
Fragment
Элементы вторичной структуры (SSE)
• Описание структуры - особенности:
– Геометрия/архитектура - координаты/относительные позиции
– Топология - порядок аминокислот в белке, взаиморасположение
мотивов
– Свойства - физико-химические свойства аминокислот
6
Описание структур
Structure I
Structure II
Feature Extraction
Structure
Description I
Structure
Description II
Comparison Algorithm
Equivalence
Assessment
Statistical Significant? Accurate?
Constrains
Scoring
RMS
Scoring
•Scoring Equivalences:
•Coordinate based - defined using a
transformation of one structure onto
the other:root mean square deviation –
RMSd
•Similarity of properties between
equivalenced elements conserved/similar amino acid
•Similarity of relations between pairs of
equivalenced elements - similar
distances, internal RMSd
•Pitfalls of RMSD:
•all atoms are treated equally (residues
on the surface have a higher degree
of freedom than those in the core)
•best alignment does not always
mean minimal RMSD
•significance of RMSD is size
dependent
•Alternative RSMDs
•aRMSD = best root-mean-square
deviation calculated over all aligned
alpha-carbon atoms
•bRMSD = the RMSD over the highest
scoring residue pairs
•wRMSD = weighted RMSD
( W. Taylor(1999), Protein Science, 8: 654665.
http://www.prosci.uci.edu/Articles/Vol8/is
sue3/8272/8272.html#relat)
Поиск оптимального
выравнивания
B
• Поиск наибольшего количества атомов, выравненных с наименьшим
RMSD (Root Mean Squared Deviation)
• Поиск баланса между локальными областями с очень хорошим
выравниванием и общим выравниванием
Требования для сравнения структур
1. Какой атом структуры A соответствует другому атому структуры B?
Вариант ответа – в выравнивании последовательнсотей
THESESENTENCESALIGN----NICLEY
| | |
||
|| || | | ||| | | ||| | |
THE—SEQ--ENCE--ALIGNEDNICELY
2. Позиции\координаты атомов в структуре?
Ответ: PDB-файлы (Dihedral angles, bond lengths …)
How good is a particular choice of
heuristic and what is the
computational cost of the search?
9
Локальное выравнивание
вторичных структур
Поиск первичного выравнивания двух белков при помощи динамического
программирования для векторов вторичной структуры
A
B
Сопоставление атомов
• Применение жадных методов ближайшего соседа для минимизации
RMSD между Cα атомами пробы и шаблона (i.e. поиск локальных
минимумов в пространстве выравнивания)
Core Superposition
Поиск лучшего выравнивания последовательно идущих Cα атомов и
минимизация RMSD между ними
RMSD в множественном выравнивании структур
A
B
RMSD без выравнивания
• 0.0-0.5 Å -> Essentially Identical
• <1.5 Å -> Very good fit
• < 5.0 Å -> Moderately good fit
• 5.0-7.0 Å -> Dubious relationship
• > 7.0 Å -> Structurally related
• > 12.0 Å -> Completely unrelated
Пример: Zinc Fingers
3znf and 4znf
248 atoms RMS = 1.42Å
30 CA atoms RMS = 0.70Å
Сервера для выравнивания
структур
• LOCK - hierarchical protein structure
Superposition
• 3dSearch - fast secondary structure
superposition
• CE - Tools for 3-D Protein Structure Comparison and Alignment
Using the Combinatorial Extension (CE) Method (no hetero atoms).
•Дополнительная информация об алгоритмах
•http://cmgm.stanford.edu/~brutlag/Papers/singh00.pdf
Алгоритмы структурного выравнивания
Distance based methods:
 DALI (Holm and Sander): Aligning scalar distance plots (similarity between the 2-D distance
matrices)
 STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular
distances
 SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances
 MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area
Vector based methods:
 VAST (Bryant): Graph theory based secondary structure alignment
 3dSearch (Singh and Brutlag): Fast secondary structure index lookup
Both
 LOCK (Singh and Brutlag): Hierarchically uses both secondary structure vectors and
atomic distances
Docking и Scoring
How Do You Du(o)ck?
Ресурсы
Reviews in computational chemistry, vol. 17, 2001, 1-59
http://www.zbi.unisaarland.de/zbi/stud/lehrveranstaltungen/ws01/bioinfor
matikI/materialien/PL-Docking.pdf
Reviews in comp. chem., Vol 17. 2001. Ed. Kenny B.
Lipkowitz, Donald B. Boyd
Почему докинг?
Молекулярное узнавание – центральный феномен в биологии
• Ферменты  Субстраты
• Рецепторы  Сигналы (лиганды)
• Антитела  Антигены
Классификация проблем докинга
• Докинг белок-лиганд
– Rigid-body докинг
– Flexible докинг
• Докинг белок-белок
• Докинг белок-ДНК
Проблема молекулярного докинга
Дано: две молекулы в 3D с атомарным разрешением:
• Связываются ли они друг с другом? Если да:
• Как выглядит комплекс?
• Насколько сильно связывание?
Структуры белок-лиганд
• X-ray (PDB: 20946 entries from X-ray)
• NMR
Важность 3D структур
• Разрешение < 2.5Å
• Проблема моделирования гомологов
Основные принципы
Связывание молекул основано на взаимодействии
• H-связи, солевые мостики, гидрофобные контакты,
эдектростатические взаимодействия
• Очень сильное отталкивающее влияние VdW на коротких
дистанциях.
Случайные взаимодействия – слабые и короткие.
• Сильное связывание предполагает комплементарность
поверхностей.
Большинство молекул гибкие.
Binding Affinity
Склонность к связыванию – энергетическая
разность между связанным и свободным
состояниями.
• Среда (обычно вода) играет важную роль.
• Энтропия вносит значимый вклад.
Binding affinity описывает комплекс, а не
единичные структуры.
Applications
Оценка склонности к связыванию
• Поиск ключевых структур для белка\ов
(виртуальный скрининг).
• Оценка влияния модификаций ключевых
структур.
• Дизайн лигандов De Novo.
• Создание библиотек.
Предсказание молекулярных комплексов.
• Распознавание вида связывания.
• Оптимизация ключевых структур.
Docking и Scoring
Идентификация верного
связывания лиганда с
активным сайтом
• Пробы
• Spatial DOF
• Internal DOF
Идентификация верного
связывания по
наименьшей энергии
• Функции скоринга оценка
Требования
Характеристки
Требования и характеристики
Требования
• Осуществить докинг и его оценку для базы
структурно различных (гипотетически) соединений.
• Идентифицировать weak binders среди non-binders.
• Идентифицировать как минимум одно соединение с
низкой IC50 mM активностью.
• Оценить ~10000 лигандов в день на процессор.
• RMS между экспериментом и моделью дока < 2Å допустимо.
Характеристики
• Высокий уровень false positives и false negatives.
• Отсутствие универсальной функции оценки.
False Positive и False negative
Допустим
База данных – 100000 соединений, среди которых 20 хорошо связывающихся.
При 50% false negatives имеем 10 binders.
При 1% false positives имеем 1000 false positives.
Если мы можем лабораторными методами проверить 50
50 молекул (серьезный труд) из 1010 позитивных
хитов, то 60% за то, что мы не получим ни одного
верного соединения.
Для того, чтобы достичь 90% успеха в определении
верного хита уровень false positives должен быть 0.2%
Что такое Docking?
• Вычислительный подход к предсказанию взаимодействий между
белками или между белками и другими молекулами (лигандами)
• Предположение: компоненты, которые хорошо стыкуются, могут и
связываться друг с другом.
• Предсказание какие протеины могут взаимодействовать друг с другом
• Предсказание сайтов для такого взаимодействия
• Автоматизированное
взаимодействия
предсказание
для
белок–лекарственного
• Улучшение и облегчение инженерии белков и разработки лекарств (drug
design)
Docking – почему это важно?
• Биомолекулярные взаимодействия – ядро всех регуляторных и
метаболических процессов.
• Роль компьютерного анализа возрастает, поскольку растут объёмы баз
данных известных структур.
• Увеличение вычислительных мощностей позволяет производить более
детальный анализ и предсказание молекулярных взаимодействий.
• Автоматизированное предсказание молекулярных взаимодействий –
ключ к рациональной разработке новых лекарств.
Цели докинга
•
Для двух заданных биомолекул определить:
1. Могут ли они взаимодействовать согласно Gibbs free energy
 Есть ли такая энергетически выгодная ориентация двух молекул,
при которой одна может модифицировать функцию\свойства
другой?
 Могут ли две молекулы «соответствовать» друг другу в какомлибо энергетически выгодном состоянии?
2. Если могут, то какова их ориентация, которая сделает взаимодействие
максимальным при минимизации общей «энергии» комплекса?
•
Цель: Найти такие молекулы в базах данных молекулярных структур.
Docking – Совмещение (Superposition)
• Найти матрицу трансформации, которая наилучшим образом
перекроет стол и стул. Иными словами найти такую
матрицу трансформации, которая минимизирует RMS
между соответствующими точками стола и стула.
• Соответствия:
• Верх стула – верх стола
• Бок стула – бок стола и т.д.
Docking – Совмещение
(Superposition)
Алгоритм абсолютной ориентации
Ключ – нахождение соответствующих точек между двумя структурами
Docking – почему это так
непросто?
Обе молекулы гибкие и могут изменять друг
друга во время взаимодействия:
• Степени свободы
• Допустимые конформации
Белок-белковое взаимодействие
• Обе молекулы рассматриваются как rigid bodies (но можно и иначе!).
• Огромная область для поиска (6 dof: 3 поворота, 3 перемещения)
• Стерические/энергетические ограничения для уменьшения области
поиска.
Полости, впадины и взаимодействие
•CASTp
Идентификация и характеризация областей на поверхности (и внутренних,
недоступных для взаимодействия) белков и иных молекул.
•MolSurfer
Белок-белковые интерфейсы
•PASS
Быстрое определение и визуализация впадин для предсказания сайтов
связывания
•Surface Racer
Расчет доступной дл явзаимодействия поверхности, её кривизны и впадин
(включая внутренние).
•SURFNET
Поверхности и доступные области на молекулярных поверхностях
•ASC
Набор скриптов для расчета поверхностей на базе PDB файла
CAPRI
• CAPRI: Critical Assessment of PRediction of Interactions
First community wide experiment on the comparative evaluation of
protein-protein docking for structure prediction
Hosted By EMBL/EBI-MSD Group
Жесткий докинг
Допущения
• Ригидный белок
• Ригидный лиганд
Применения метода
• Докинг малых или очень ригидных молекул.
• Докинг фрагментов (гибкий докинг  дизайн De
Novo).
• Докинг по базе мульти-конформеров.
The Clique Method
Сопоставляем подходящие точки/характеристики двух
молекул (рецептора и лиганда).
Ba Bb Bc
Da
Aa
A
a
B
D
C
рецептор
1.
2.
3.
4.
c
b
лиганд
Ab
Db
Dc
Ca Cb Cc
Distance compatibility
graph
Ac
Для N сайтов рецептора и n сайтов лиганда образуем N x n узлов.
Для каждой пары узлов определяем Δd = D receptor sites – D ligand sites.
При Δd < ε, соединяем узлы линиями.
A clique – подграф, в котором все узлы соединены между собой.
The Dock Program
http://www.cmpharm.ucsf.edu/kuntz/dock35/dock_demo.html
X-ray structure of HIV protease
Connolly surface for active site
Active site заполнен сферами. Их центры – потенциальные места
для атомов лиганда.
The Dock Program
Лиганд представляется как
перекрывающиеся сферы
(или как атомы)
Центры сфер соответствуют атомам
лиганда. Используя clique technique
(до 4 точек на cliques), можно
определить возможные ориентации
лиганда.
Обычно
генерируется
несколько
десятков
тысяч
ориентаций для каждой молекулы.
Scoring
Shape scoring – используя
аппроксимацию: Lennard-Jones
potential.
Electrostatic scoring – ПО DELPHI ,
расчет
электростатического
потенциала.
Force-field scoring – потенциал
AMBER.
Модель с наивысшим
score vs X-ray структура
Гибкий докинг: Допущения
Гибкость лиганда ограничена торзионными углами +
кольцевыми структурами.
• Конформационные ансамбли
–Жесткий докинг пула конформаций для каждой молекулы
(DOCK).
• Фрагментация лиганда
– Постепенно наращиваемые конструкции (FlexX)
– «Вписываем-соединяем»
• Явный конформационный поиск
– Генетические алгоритмы (GOLD)
– Monte Carlo (LigandFit)
• Симуляции
Белок рассматривается как почти полностью жесткая молекула
• Множественные модели белка (FlexE)
• Симуляции
Гибкий докинг: Применения
Анализ комплексов, поиск возможных
вариантов связывания.
Виртуальный скрининг по базам
малых молекул.
Incremental Construction
Стратегия
• Разбиение молекулы на фрагменты.
• Вставка одного или нескольких фрагментов в активный
сайт, игнорируя положение остальных.
• Последовательное добавление остальных фрагментов.
Стратегия поиска
• Жадный поиск: После добавления фрагмента – выбор
конформацию с наивысшей оценкой. Остальные
отбрасываем.
– Линейный масштаб от количества фрагментов.
– Без учета возможных взаимодействий между
фрагментами.
The FlexX Program
http://cartan.gmd.de/flexx/
Взаимодействия белок-лиганд описываются
типами и геометрией.
Типы взаимодействия делятся на группы и
«антигруппы».
Group
Counter group
Hydrogen bond acceptor
Metal acceptor
Aromatic ring atom, methyl, amide
Aliphatic carbons, aromatic carbons, sulfur
Hydrogen bond donor
Metal
Aromatic ring center
Level
3
3
2
1
Уровень взаимодействия - геометрия.
Чем выше уровень, тем более строгие требования к
геометрии взаимодействия.
Геометрия взаимодействия
Взаимодействие между группой A лиганда и группой B
белка наблюдается, если:
1. Группа взаимодействия B находится в антигруппе A.
2. Центр взаимодействия A лежит примерно на
поверхности взаимодействия B и наоборот.
Поверхность
взаимодействия
Центр
взаимодействия
H-bond
donor
H-bond
acceptor
Геометрия взаимодействия
Hydrogen
bonds (3)
Hydrophobic:
Aromatic (2)
Hydrophobic:
Aliphatic (1)
Гибкость белков
• Protein flexibility and drug design: how to hit a moving target
• Несмотря на миллионы лет эволюции, создававшей
рецепторы, которые могут распознавать специфический
лиганд мы все ещё можем идентифицировать молекулы,
которые связываются с ним с большей афинностью
• Сайт связывания может взаимодействовать с множеством
молекул – существует возможность реорганизации сайта с
относительно небольшим «штрафом» для соответствия малой
молекуле.
• Двойная природа сайта связывания– высокая стабильность и
высокая гибкость (зачастую большая, чем у белка в целом).
• Парадигма «Ключ-замок» устарела. Белок – совокупность
предопределенных состояний.
Carlson/ Curr. Op. Chem. Biol. 2002, 6: 447-452.
Решения
Использование единичной структуры белка в
эксперименте докинга может пропустить возможное
взаимодействие
Cross docking
• Докинг всех лигандов на все имеющиеся структуры
белка с дальнейшим объединением в
ранжированный список.
• Ограничено имеющимися конформациями белка.
Protein flexibility
• FlexE
– Включает все комбинации структур белка.
Гибкость белков
Взаимодействие «Белок-Лиганд»
Идентификация сайтов
взаимодействия между белком (rigid
body) и подвижной, гибкой малой
молекулой (лигандом)
Очень большое поле поиска
Рассматривать лиганд как rigid body
Или как фрагменты rigid body,
соединенные гибкими связками.
Метод Монте-Карло или MD.
Лиганд
2 типа:
-Связывание средней силы, но в
конформации c минимальной свободной
энергией (most populated).
или
- Сильное связывание с менее выгодной
конформацией (less populated). Связывание
может сдвигать распределение (induced-fit
system).
Взаимодействие «белок-лиганд».
Серверы
LPC-CSU Server: Предсказание контактов «лигандбелок» и контактов структурных элементов
LigBase: Структурная БД сайтов связывания
Multiple Protein Structure
•Abl связывается с STI-571 в
неактивной конформации петли Abl.
•Abl связывается с PD173955 – «петля
активации» в иной конформации
(активная киназа).
Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
MPS
Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002
Grid Based Dock Scoring
• Сначала - Расчет вероятных взаимодействий
•Построение сети – объем такой же, как и у белка
• Расчет стерических и электростатических взаимодействий
в каждой точке сети
• Ориентация лиганда – scoring суммированием
взаимодействий с точками сети
Пренебрегаем:
• электростатические взаимодействия с растворителем
• изменения энтропии
• изменения конформации белка
Drug Design
Drug Design
~6-7 лет. 3 фазы
Download