Курс лекций «Введение в химическую информатику» Лекция 3 YOUR

реклама
YOUR LOGO
Курс лекций «Введение в химическую
информатику»
Лекция 3
Весенний семестр 2012
План лекции
 Концепция
молекулярных
YOUR LOGO
дескрипторов:
классификация
и
характеристики
 1D и 2D дескрипторы: молекулярные отпечатки, молекулярные
фрагменты, топологические индексы, физико-химические дескрипторы
 3D дескрипторы: геометрические и квантово-химические дескрипторы
 Программное обеспечение для расчета дескрипторов
 Методы отбора дескрипторов (переменных): общая информация
 Методы отбора дескрипторов: примеры
1
Индуктивное машинное обучение
YOUR LOGO
Индуктивное
обучение
(обучение
по
прецедентам)
основано
на
выявлении
закономерностей в эмпирических данных.
Знания
Информация
Данные
2
Используя
набор
экспериментальных
данных
со структурами химических
соединений и соответствующие значения
наблюдаемых свойств методы машинного
обучения в состоянии находить взаимосвязь
между структурой химического соединения
и его свойствами
Химическая информатика: взаимосвязь структура -свойство
YOUR LOGO
Структура соединения
Способ
представления
соединения
Расчет молекулярных
дескрипторов
3
Методы
машинного
обучения
Прогнозируемые
свойства
Молекулярные дескрипторы
> 7000 типов молекулярных дескрипторов
 Простейшие структурные и геометрические (молекулярный вес,
число атомов определенного типа, размер молекулы, расстояние между
функциональными группами)
 Топологические (индексы Рандича и Винера, …)
 Квантовохимические (энергии граничных молекулярных орбиталей,
частичные заряды на атомах и частичные порядки связей, индексы
реакционной способности Фукуи (индекс свободной валентности,
нуклеофильная и электрофильная суперделокализуемость), энергии
катионной, анионной и радикальной локализации, дипольный и
высшие мультипольные моменты распределения электростатического
потенциала)
 Физико-химические (липофильность (LogP), молярная рефракция
(MR), дескрипторы водородной связи, …)
 Молекулярные фрагменты (последовательности атомов и связей,
атомы с окружением, …)
 Фармакофорные дескрипторы
 Молекулярные отпечатки
4
YOUR LOGO
Топологические дескрипторы
YOUR LOGO
Дескрипторы, основанные на представлении соединений в виде молекулярных графов
Топологический индекс — инвариант молекулярного графа в задачах компьютерной химии, некоторое
(обычно числовое) значение (или набор значений), характеризующее структуру молекулы. Обычно
топологические индексы не отражают кратность химических связей и типы атомов (C,N,O и.т.д.), атомы
водорода не учитываются.
Значения одного и того же топологического индекса для нескольких разных молекулярных графов
могут совпадать. Чем меньше таких совпадений — тем выше так называемая дискриминирующая
способность индекса. Эта способность является важнейшей характеристикой индекса.
5
Топологические индексы, основанные на матрице расстояний:
YOUR LOGO
Индекс Винера (Wiener Index)
Половина суммы топологических расстояний между всеми парами атомов углерода в молекуле:
W(G1) = 29
W(G2) = 35
• Вырожденность
• Малая дискриминирующая способность
• Потеря уникальности
• Игнорирование присутствия гетероатомов
6
Reference: H. Wiener, J. Am. Chem. Soc., 69, 17 (1947)
Топологические индексы, основанные на матрице смежности: Zagreb
YOUR LOGO
group indices
n
M1 =
d
i 1
2
i
M2 =
d d
i
j
где di - число связей атома i за исключением связей с атомами водорода.
M1(G1) = 4*12 +2*32 = 22
M1(G2) = 2*12 +4*22 = 18
M2(G1) = 4*(1*3) +1*(3*3) = 21
M1(G2) = 2*(1*2) +3*(2*2) = 16
Индекс связности Рандича:
R =
7
 (d d
i
j
)1/ 2
M. Randić, J. Am. Chem. Soc., 97, 6609 (1975).
Дескрипторы площади полярной поверхности
YOUR LOGO
Площадь полярной поверхности:
Общая площадь части молекулярной поверхности, соответствующей полярным
атомам: O, N, галогены
8
Дескрипторы площади полярной поверхности
YOUR LOGO
9
Peter Ertl, Bernhard Rohde, and Paul Selzer, J. Med. Chem. 2000, 43, 3714-3717
Стерические параметры
YOUR LOGO
 Отношение длина - ширина: L/B
Molecular thickness
 «Толщина» молекулы
 Oвальность (отношение значения
действительной поверхности к минимальной )
B
L
B
L
 Молекулярный объем
 Sterimol параметры
ovality 
 Стерический параметр Тафта
1. Janini, G.M.; Johnston, K.; Zielinski, W. L. Anal. Chem. 1975, 47,
670.
2. Verloop, A.; Tipker, J. In Biological Activity and Chemical Structure,
Buisman, J. A. K.(editors), Elsevier, Amsterdam, Netherlands, 1977,
p63.
Surface ar ea
2


3
3

volumn


 4π 
 
 
4π
 


B1
B1
L ax is
L axis
B4
3. Kourounakis, A.; Bodor, N. Pharm. Res. 1995, 12(8), 1199.
B2
10
B3
YOUR LOGO
Овальность
S mol
Ovality 

S sp
S mol
 3V 
4  mol 
 4 
2/3
Объемы
одинаковы
Ssp
Smol
 3Vsp 

S sp  4 
 4 
11
2/3
 3V 
 4  mol 
 4 
2/3
Radial distribution function (RDF code)
YOUR LOGO
N –число атомов в молекуле
pi – атомное свойство для
индивидуального
атома
i
(например, заряд)
rij – 3D расстояние между атомами i
иj
B – сглаживающий параметр
RDF код, при использовании нумерации атомов в
качестве свойства
Содержат информацию о геометрических и атомных особенностях химических
соединений
12
Квантовохимические дескрипторы
YOUR LOGO
 энергии граничных молекулярных орбиталей;
 частичные заряды на атомах и частичные порядки связей;
 индексы реакционной способности Фукуи (индекс свободной валентности, нуклеофильная
и электрофильная суперделокализуемость);
 энергии катионной, анионной и радикальной локализации;
 дипольный и высшие мультипольные моменты распределения электростатического
потенциала
13
Липофильность (гидрофобность): дескрипторы
YOUR LOGO
Липофильность (буквально — сродство к жирам) — свойство вещества, означающее его химическое сродство
к органическим веществам, является по сути синонимом гидрофобности.
Оценка способности вещества преодолевать клеточные мембраны.
Оценка гидрофобного взаимодействия между лигандом и сайтом связывания рецептора
Моделируется распределение вещества между октанолом и водой P = corg/caq (n-octanol/water system)
Липофильность (гидрофобность): log P = lg P
14
Липофильные (гидрофобные) дескрипторыYOUR LOGO
Коэффициент разделения октанол-вода
 Hansch-Leo method (ClogP)
 Rekker's method log P 
N
a
n 1
M
f   bm Fm
n n
m 1
•Ghose-Grippen method
(logP рассчитывается суммированием вкладов атомов)
•Rozas (MLP)
MLP описывает распределение липофильности по молекуле (карты липофильности и
определение гидрофильных и липофильных областей)
15
Липофильные (гидрофобные) дескрипторыYOUR LOGO
16
Что общего между этими соединениями?YOUR LOGO
N
Cl
N
N
Irsogladine
LogPo/w = 1.97
N
H
H
O
O
O
OH
17
O
O
O
Acetyldigitoxine
LogPo/w = 1.97
Secobarbital
LogPo/w = 1.97
OH
H
OH
OH
O
O
H
N
O
H
O
Cl
O
O
NH2
Cl
Chloroform
LogPo/w = 1.97
Cl
NH2
Cl
H
N
H
Trandolapril
LogPo/w = 1.97
H
OO
H
OH
N
H
O
O
O
H
3D Гидрофобность
YOUR LOGO
hydrophobic  hydrophilic
Для всех молекул logP ~1.5, но различные 3D карты липофильности
18
YOUR LOGO
Программное обеспечение для расчета липофильности
CLogP (Daylight Chemical Information Systems)
http://www.daylight.com/daycgi/clogp
KowWin (Syracuse Research Corp., SRC; W. M. Meylan
and P. H. Howard, J. Pharm. Sci. 84, 83-92 (1995))
http://esc.syrres.com/interkow/kowdemo.htm
Interactive Analysis‘s LogP Program (Mark Parham;
includes Lipinski numbers)
http://www.logp.com/main.html
Neuro-Heuristic Program ALogPS (Igor Tetko, Lausanne)
http://www.vcclab.org
19
Молекулярные подструктурные фрагментыYOUR LOGO
Последовательности атомов и
связей
 химически
интерпретируемы
легко
 быстро рассчитываются
20
Атомы с окружением:
отдельные атомы с их
ближайшими соседями
Фармакофорные дескрипторы
YOUR LOGO
Фармакофор — это набор пространственных и электронных признаков, необходимых для обеспечения
оптимальных супрамолекулярных взаимодействий со специфической биологической мишенью, которые
могут вызывать (или блокировать) ее биологический ответ.
Фармакофорные признаки: фармакофорные центры и интервалы расстояний между ними, необходимые
для проявления данного типа биологической активности.
Фармакофорные центры
Фармакофор
молекулы с таким фармакофором:
21
Молекулярные «окрашенные» подструктурные
YOUR LOGO
фрагменты (IPLF descriptors)
 Aromatic atoms
R
 Positive charges
P
 Negative charges
N
 Hydrogen Donor
D
 Hydrogen Acceptor
 Hydrophobe
H
A
H
H
D
R
A
R
R
R
R
R
A
D
22
A
Молекулярные «отпечатки»
YOUR LOGO
Молекулярные «отпечатки» (molecular fingerprints) содержат информацию о присутствии или
отсутствии определенных признаков в химическом соединении, например, фрагментов
Потеря информации!
23
Хешированные молекулярные «отпечатки»YOUR LOGO
Обозначают присутствие или отсутствие подструктур. Состав подструктур неизвестен заранее.
Генерация подструктур длиной до 3 атомов
• C, N, O
• C-C, C-N, C=O, C-O
• C-C-C, C-C-N, C-C=O, C-C-O, O=C-O
Каждая подструктура активирует определенное количеств позиций (битов) в молекулярном отпечатке, в
приведенном примере два бита / подструктура:
C-N
C-C-C
C-C=O
0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0
Алгоритм определяет какие биты были активированы подструктурой.
Одна и та же подструктура всегда активизирует одинаковые биты. Алгоритм работает таким образом,
что всегда возможно ассоциировать биты с конкретной подструктурой
Фрагменты заранее не предопределены – невозможно интерпретировать хешированные молекулярные
«отпечатки»
24
Хешированные молекулярные «отпечатки»YOUR LOGO
C-N
C-C-C
C-C=O
0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0
Стереохимия не учитывается.
Задаваемые параметры: длина молекулярного отпечатка, размер подструктуры (количество атомов),
число битов, активируемое каждой подструктурой.
Основное применение: поиск по сходству в больших базах данных.
Length of fingerprint:
• too short  almost all bits=1, poor discrimination of molecules.
• too large  too many bits=0, too much disk space required.
Maximum size of patterns:
• too short  poor discrimination of molecules.
• too large  ability to discriminate molecules, but many bits=1.
Nr of bits a pattern activates:
• too few  poor ability to discriminate between patterns.
• too many  ability to discriminate between patterns, but many bits=1.
25
More at: http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
YOUR LOGO
Дескриптор должен обладать ...
 инвариантность относительно обозначения и нумерации атомов
 однозначное алгоритмически вычислимое определение
 значениями в приемлемом числовом диапазоне для рассматриваемого
набора соединений
Дескриптору неплохо иметь …
 структурную интерпретацию
 хорошую корреляцию со свойством
 отсутствием корреляций с другими молекулярными дескрипторами
 постепенное изменение значений дескриптора должно соответствовать
постепенному изменению в строении соединения
 достаточную универсальность (возможность использовать для широкого
круга химических соединений)
26
YOUR LOGO
Программное обеспечение
27
Пакет DRAGON
YOUR LOGO
Программное обеспечение DRAGON позволяет рассчитывать 1664 молекулярных
дескриптора, относящихся к 20 категориям
28
http://www.disat.unimib.it/chm/Help/edragon/index.html
Web приложение для расчета молекулярных дескрипторов –
YOUR LOGO
VCCLAB.ORG
29
http://www.vcclab.org/
CODESSA Pro
YOUR LOGO
Расчет топологических, геометрических и квантово-химических дескрипторов
30
http://www.codessa-pro.com/
ISIDA QSPR
YOUR LOGO
Расчет фрагментных и фармакофорных дескрипторов нескольких типов
31
http://infochim.u-strasbg.fr/spip.php?rubrique41
Molecular Operating Environment (MOE)
2D Molecular Descriptors
Physical Properties
Subdivided Surface Areas
Atom Counts and Bond Counts
Kier&Hall Connectivity and Kappa Shape Indices
Adjacency and Distance Matrix Descriptors
Pharmacophore Feature Descriptors
Partial Charge Descriptors
3D Molecular Descriptors
Potential Energy Descriptors
Surface Area, Volume and Shape Descriptors
Conformation Dependent Charge Descriptors
32
http://www.chemcomp.com/software.htm
YOUR LOGO
Пакет RCDK
YOUR LOGO
Пакет может быть использован для расчета нескольких типов дескрипторов: в частности, топологических,
геометрических, простейших структурных, некоторых физико-химических и гибридных. Поддерживается
расчет четырех типов молекулярных отпечатков
33
YOUR LOGO
Методы отбора дескрипторов (переменных)
34
YOUR LOGO
Проклятие размерности (Curse of dimensionality)
 Необходимое число примеров (для достижения той же точности) растет
экспоненциально с числом переменных
 На практике: число обучающих примеров фиксировано
=> точность метода обычно уменьшается для большого количества
дескрипторов
35
YOUR LOGO
Отбор переменных (Feature Subset Selection)
Цель:
- найти оптимальный набор дескрипторов (или “приемлемый”)
Необходимы:
 Критерий оценки качества набора дескрипторов (scoring function)
 Стратегия поиска поднабора дескрипторов
Классификация существующих методов:
 Фильтры (Filters)
 Систематические (пошаговые прямой и обратный)
 Методы-оболочки (Wrappers)
 Стохастические (симуляция различных физических и
 Вложенные методы (Embedded Methods)
биологических
метод
процессов: генетические алгоритмы,
имитации
отжига,
муравьиных колоний и т.д.)
36
метод
искусственных
YOUR LOGO
Отбор переменных (Feature Subset Selection): Фильтры

Обычно используются в качестве шага предварительной обработки

Обычно отличаются высоким быстродействием

Пытаются a-priori выявить дескрипторы, содержащие полезную информацию
Классификация:
 Фильтры, основанные на корреляции (принимают во внимание корреляции дескрипторсвойство или дескриптор - дескриптор). Представители: Unsupervised Forward Selection
 Фильтры, основанные на теории информации (рассчитывают вариативность молекулярных
дескрипторов). Представители: Shannon Entropy filter
37
YOUR LOGO
Отбор переменных (Feature Subset Selection): методы-оболочки
Не используют информацию о структуре классификационной или регрессионной функции,
что дает возможность использования в сочетании с любой обучающей машиной
Примеры:
 Процедуры прямого и обратного отбора переменных
 Генетические алгоритмы
 Алгоритм имитации отжига
…
Особенности:



38
Прогнозирующая способность оценивается на тестовой выборке или процедурой
перекрестного контроля
Методы-оболочки универсальны и просты
Недостаток: времязатратность
Отбор переменных (Feature Subset Selection): вложенные
YOUR LOGO
методы
Особенности:

Совмещены с конкретной обучающей машиной

Не требуют разделения исходного набора данных на основную (learning set) и
вспомогательную (tuning set) выборки

Отбор переменных осуществляется непосредственно в процессе обучения и не
может быть отделен

Способны получить решение быстрее, чем методы-оболочки за счет отсутствия
перебора многочисленных комбинаций параметров
Примеры:
 Деревья решений, имеющие встроенный механизм для отбора переменных (CART)
 Рекурсивное исключение переменных (Recursive Feature Elimination)
 LASSO
…
39
Генетический алгоритм
 Генетический алгоритм —алгоритм оптимизации и моделирования путём
случайного подбора, комбинирования и вариации искомых параметров с
использованием механизмов, напоминающих биологическую эволюцию.
 Задачи оптимизации решаются с использованием методов естественной эволюции,
таких как наследование , мутации , отбор и скрещивание.
 Генетический алгоритм стартует со случайного набора решений (переменные,
характеризующие решение, представлены в виде генов в хромосоме, хромосомы
формируют популяцию). Для хромосомы могут использоваться любые
обозначения (числа, символы), но на практике чаще используются бинарные
 Каждое решение характеризуется функцией приспособленности (fitness function):
максимальное значение функции соответствует лучшему решению
 На основе значения этой функции, отбираются решения-«родители» для генерации
следующего поколения, являющегося комбинацией двух «родительских»
решений. Для них также вычисляется значение приспособленности, и затем
производится отбор («селекция») лучших решений в следующее поколение.
 Критерием останова алгоритма могут быть:
 нахождение глобального, либо локального решения;
 исчерпание числа поколений, отпущенных на эволюцию;
 исчерпание времени, отпущенного на эволюцию.
40
YOUR LOGO
Генетические операторы
 Скрещивание
 Два родителя формируют два новых решения
Single point crossover
Two points crossover


 Мутация
 Случайное изменение гена в хромосоме

41
YOUR LOGO
YOUR LOGO
Вопросы?
Скачать