YOUR LOGO Курс лекций «Введение в химическую информатику» Лекция 3 Весенний семестр 2012 План лекции Концепция молекулярных YOUR LOGO дескрипторов: классификация и характеристики 1D и 2D дескрипторы: молекулярные отпечатки, молекулярные фрагменты, топологические индексы, физико-химические дескрипторы 3D дескрипторы: геометрические и квантово-химические дескрипторы Программное обеспечение для расчета дескрипторов Методы отбора дескрипторов (переменных): общая информация Методы отбора дескрипторов: примеры 1 Индуктивное машинное обучение YOUR LOGO Индуктивное обучение (обучение по прецедентам) основано на выявлении закономерностей в эмпирических данных. Знания Информация Данные 2 Используя набор экспериментальных данных со структурами химических соединений и соответствующие значения наблюдаемых свойств методы машинного обучения в состоянии находить взаимосвязь между структурой химического соединения и его свойствами Химическая информатика: взаимосвязь структура -свойство YOUR LOGO Структура соединения Способ представления соединения Расчет молекулярных дескрипторов 3 Методы машинного обучения Прогнозируемые свойства Молекулярные дескрипторы > 7000 типов молекулярных дескрипторов Простейшие структурные и геометрические (молекулярный вес, число атомов определенного типа, размер молекулы, расстояние между функциональными группами) Топологические (индексы Рандича и Винера, …) Квантовохимические (энергии граничных молекулярных орбиталей, частичные заряды на атомах и частичные порядки связей, индексы реакционной способности Фукуи (индекс свободной валентности, нуклеофильная и электрофильная суперделокализуемость), энергии катионной, анионной и радикальной локализации, дипольный и высшие мультипольные моменты распределения электростатического потенциала) Физико-химические (липофильность (LogP), молярная рефракция (MR), дескрипторы водородной связи, …) Молекулярные фрагменты (последовательности атомов и связей, атомы с окружением, …) Фармакофорные дескрипторы Молекулярные отпечатки 4 YOUR LOGO Топологические дескрипторы YOUR LOGO Дескрипторы, основанные на представлении соединений в виде молекулярных графов Топологический индекс — инвариант молекулярного графа в задачах компьютерной химии, некоторое (обычно числовое) значение (или набор значений), характеризующее структуру молекулы. Обычно топологические индексы не отражают кратность химических связей и типы атомов (C,N,O и.т.д.), атомы водорода не учитываются. Значения одного и того же топологического индекса для нескольких разных молекулярных графов могут совпадать. Чем меньше таких совпадений — тем выше так называемая дискриминирующая способность индекса. Эта способность является важнейшей характеристикой индекса. 5 Топологические индексы, основанные на матрице расстояний: YOUR LOGO Индекс Винера (Wiener Index) Половина суммы топологических расстояний между всеми парами атомов углерода в молекуле: W(G1) = 29 W(G2) = 35 • Вырожденность • Малая дискриминирующая способность • Потеря уникальности • Игнорирование присутствия гетероатомов 6 Reference: H. Wiener, J. Am. Chem. Soc., 69, 17 (1947) Топологические индексы, основанные на матрице смежности: Zagreb YOUR LOGO group indices n M1 = d i 1 2 i M2 = d d i j где di - число связей атома i за исключением связей с атомами водорода. M1(G1) = 4*12 +2*32 = 22 M1(G2) = 2*12 +4*22 = 18 M2(G1) = 4*(1*3) +1*(3*3) = 21 M1(G2) = 2*(1*2) +3*(2*2) = 16 Индекс связности Рандича: R = 7 (d d i j )1/ 2 M. Randić, J. Am. Chem. Soc., 97, 6609 (1975). Дескрипторы площади полярной поверхности YOUR LOGO Площадь полярной поверхности: Общая площадь части молекулярной поверхности, соответствующей полярным атомам: O, N, галогены 8 Дескрипторы площади полярной поверхности YOUR LOGO 9 Peter Ertl, Bernhard Rohde, and Paul Selzer, J. Med. Chem. 2000, 43, 3714-3717 Стерические параметры YOUR LOGO Отношение длина - ширина: L/B Molecular thickness «Толщина» молекулы Oвальность (отношение значения действительной поверхности к минимальной ) B L B L Молекулярный объем Sterimol параметры ovality Стерический параметр Тафта 1. Janini, G.M.; Johnston, K.; Zielinski, W. L. Anal. Chem. 1975, 47, 670. 2. Verloop, A.; Tipker, J. In Biological Activity and Chemical Structure, Buisman, J. A. K.(editors), Elsevier, Amsterdam, Netherlands, 1977, p63. Surface ar ea 2 3 3 volumn 4π 4π B1 B1 L ax is L axis B4 3. Kourounakis, A.; Bodor, N. Pharm. Res. 1995, 12(8), 1199. B2 10 B3 YOUR LOGO Овальность S mol Ovality S sp S mol 3V 4 mol 4 2/3 Объемы одинаковы Ssp Smol 3Vsp S sp 4 4 11 2/3 3V 4 mol 4 2/3 Radial distribution function (RDF code) YOUR LOGO N –число атомов в молекуле pi – атомное свойство для индивидуального атома i (например, заряд) rij – 3D расстояние между атомами i иj B – сглаживающий параметр RDF код, при использовании нумерации атомов в качестве свойства Содержат информацию о геометрических и атомных особенностях химических соединений 12 Квантовохимические дескрипторы YOUR LOGO энергии граничных молекулярных орбиталей; частичные заряды на атомах и частичные порядки связей; индексы реакционной способности Фукуи (индекс свободной валентности, нуклеофильная и электрофильная суперделокализуемость); энергии катионной, анионной и радикальной локализации; дипольный и высшие мультипольные моменты распределения электростатического потенциала 13 Липофильность (гидрофобность): дескрипторы YOUR LOGO Липофильность (буквально — сродство к жирам) — свойство вещества, означающее его химическое сродство к органическим веществам, является по сути синонимом гидрофобности. Оценка способности вещества преодолевать клеточные мембраны. Оценка гидрофобного взаимодействия между лигандом и сайтом связывания рецептора Моделируется распределение вещества между октанолом и водой P = corg/caq (n-octanol/water system) Липофильность (гидрофобность): log P = lg P 14 Липофильные (гидрофобные) дескрипторыYOUR LOGO Коэффициент разделения октанол-вода Hansch-Leo method (ClogP) Rekker's method log P N a n 1 M f bm Fm n n m 1 •Ghose-Grippen method (logP рассчитывается суммированием вкладов атомов) •Rozas (MLP) MLP описывает распределение липофильности по молекуле (карты липофильности и определение гидрофильных и липофильных областей) 15 Липофильные (гидрофобные) дескрипторыYOUR LOGO 16 Что общего между этими соединениями?YOUR LOGO N Cl N N Irsogladine LogPo/w = 1.97 N H H O O O OH 17 O O O Acetyldigitoxine LogPo/w = 1.97 Secobarbital LogPo/w = 1.97 OH H OH OH O O H N O H O Cl O O NH2 Cl Chloroform LogPo/w = 1.97 Cl NH2 Cl H N H Trandolapril LogPo/w = 1.97 H OO H OH N H O O O H 3D Гидрофобность YOUR LOGO hydrophobic hydrophilic Для всех молекул logP ~1.5, но различные 3D карты липофильности 18 YOUR LOGO Программное обеспечение для расчета липофильности CLogP (Daylight Chemical Information Systems) http://www.daylight.com/daycgi/clogp KowWin (Syracuse Research Corp., SRC; W. M. Meylan and P. H. Howard, J. Pharm. Sci. 84, 83-92 (1995)) http://esc.syrres.com/interkow/kowdemo.htm Interactive Analysis‘s LogP Program (Mark Parham; includes Lipinski numbers) http://www.logp.com/main.html Neuro-Heuristic Program ALogPS (Igor Tetko, Lausanne) http://www.vcclab.org 19 Молекулярные подструктурные фрагментыYOUR LOGO Последовательности атомов и связей химически интерпретируемы легко быстро рассчитываются 20 Атомы с окружением: отдельные атомы с их ближайшими соседями Фармакофорные дескрипторы YOUR LOGO Фармакофор — это набор пространственных и электронных признаков, необходимых для обеспечения оптимальных супрамолекулярных взаимодействий со специфической биологической мишенью, которые могут вызывать (или блокировать) ее биологический ответ. Фармакофорные признаки: фармакофорные центры и интервалы расстояний между ними, необходимые для проявления данного типа биологической активности. Фармакофорные центры Фармакофор молекулы с таким фармакофором: 21 Молекулярные «окрашенные» подструктурные YOUR LOGO фрагменты (IPLF descriptors) Aromatic atoms R Positive charges P Negative charges N Hydrogen Donor D Hydrogen Acceptor Hydrophobe H A H H D R A R R R R R A D 22 A Молекулярные «отпечатки» YOUR LOGO Молекулярные «отпечатки» (molecular fingerprints) содержат информацию о присутствии или отсутствии определенных признаков в химическом соединении, например, фрагментов Потеря информации! 23 Хешированные молекулярные «отпечатки»YOUR LOGO Обозначают присутствие или отсутствие подструктур. Состав подструктур неизвестен заранее. Генерация подструктур длиной до 3 атомов • C, N, O • C-C, C-N, C=O, C-O • C-C-C, C-C-N, C-C=O, C-C-O, O=C-O Каждая подструктура активирует определенное количеств позиций (битов) в молекулярном отпечатке, в приведенном примере два бита / подструктура: C-N C-C-C C-C=O 0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 Алгоритм определяет какие биты были активированы подструктурой. Одна и та же подструктура всегда активизирует одинаковые биты. Алгоритм работает таким образом, что всегда возможно ассоциировать биты с конкретной подструктурой Фрагменты заранее не предопределены – невозможно интерпретировать хешированные молекулярные «отпечатки» 24 Хешированные молекулярные «отпечатки»YOUR LOGO C-N C-C-C C-C=O 0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 Стереохимия не учитывается. Задаваемые параметры: длина молекулярного отпечатка, размер подструктуры (количество атомов), число битов, активируемое каждой подструктурой. Основное применение: поиск по сходству в больших базах данных. Length of fingerprint: • too short almost all bits=1, poor discrimination of molecules. • too large too many bits=0, too much disk space required. Maximum size of patterns: • too short poor discrimination of molecules. • too large ability to discriminate molecules, but many bits=1. Nr of bits a pattern activates: • too few poor ability to discriminate between patterns. • too many ability to discriminate between patterns, but many bits=1. 25 More at: http://www.daylight.com/dayhtml/doc/theory/theory.finger.html YOUR LOGO Дескриптор должен обладать ... инвариантность относительно обозначения и нумерации атомов однозначное алгоритмически вычислимое определение значениями в приемлемом числовом диапазоне для рассматриваемого набора соединений Дескриптору неплохо иметь … структурную интерпретацию хорошую корреляцию со свойством отсутствием корреляций с другими молекулярными дескрипторами постепенное изменение значений дескриптора должно соответствовать постепенному изменению в строении соединения достаточную универсальность (возможность использовать для широкого круга химических соединений) 26 YOUR LOGO Программное обеспечение 27 Пакет DRAGON YOUR LOGO Программное обеспечение DRAGON позволяет рассчитывать 1664 молекулярных дескриптора, относящихся к 20 категориям 28 http://www.disat.unimib.it/chm/Help/edragon/index.html Web приложение для расчета молекулярных дескрипторов – YOUR LOGO VCCLAB.ORG 29 http://www.vcclab.org/ CODESSA Pro YOUR LOGO Расчет топологических, геометрических и квантово-химических дескрипторов 30 http://www.codessa-pro.com/ ISIDA QSPR YOUR LOGO Расчет фрагментных и фармакофорных дескрипторов нескольких типов 31 http://infochim.u-strasbg.fr/spip.php?rubrique41 Molecular Operating Environment (MOE) 2D Molecular Descriptors Physical Properties Subdivided Surface Areas Atom Counts and Bond Counts Kier&Hall Connectivity and Kappa Shape Indices Adjacency and Distance Matrix Descriptors Pharmacophore Feature Descriptors Partial Charge Descriptors 3D Molecular Descriptors Potential Energy Descriptors Surface Area, Volume and Shape Descriptors Conformation Dependent Charge Descriptors 32 http://www.chemcomp.com/software.htm YOUR LOGO Пакет RCDK YOUR LOGO Пакет может быть использован для расчета нескольких типов дескрипторов: в частности, топологических, геометрических, простейших структурных, некоторых физико-химических и гибридных. Поддерживается расчет четырех типов молекулярных отпечатков 33 YOUR LOGO Методы отбора дескрипторов (переменных) 34 YOUR LOGO Проклятие размерности (Curse of dimensionality) Необходимое число примеров (для достижения той же точности) растет экспоненциально с числом переменных На практике: число обучающих примеров фиксировано => точность метода обычно уменьшается для большого количества дескрипторов 35 YOUR LOGO Отбор переменных (Feature Subset Selection) Цель: - найти оптимальный набор дескрипторов (или “приемлемый”) Необходимы: Критерий оценки качества набора дескрипторов (scoring function) Стратегия поиска поднабора дескрипторов Классификация существующих методов: Фильтры (Filters) Систематические (пошаговые прямой и обратный) Методы-оболочки (Wrappers) Стохастические (симуляция различных физических и Вложенные методы (Embedded Methods) биологических метод процессов: генетические алгоритмы, имитации отжига, муравьиных колоний и т.д.) 36 метод искусственных YOUR LOGO Отбор переменных (Feature Subset Selection): Фильтры Обычно используются в качестве шага предварительной обработки Обычно отличаются высоким быстродействием Пытаются a-priori выявить дескрипторы, содержащие полезную информацию Классификация: Фильтры, основанные на корреляции (принимают во внимание корреляции дескрипторсвойство или дескриптор - дескриптор). Представители: Unsupervised Forward Selection Фильтры, основанные на теории информации (рассчитывают вариативность молекулярных дескрипторов). Представители: Shannon Entropy filter 37 YOUR LOGO Отбор переменных (Feature Subset Selection): методы-оболочки Не используют информацию о структуре классификационной или регрессионной функции, что дает возможность использования в сочетании с любой обучающей машиной Примеры: Процедуры прямого и обратного отбора переменных Генетические алгоритмы Алгоритм имитации отжига … Особенности: 38 Прогнозирующая способность оценивается на тестовой выборке или процедурой перекрестного контроля Методы-оболочки универсальны и просты Недостаток: времязатратность Отбор переменных (Feature Subset Selection): вложенные YOUR LOGO методы Особенности: Совмещены с конкретной обучающей машиной Не требуют разделения исходного набора данных на основную (learning set) и вспомогательную (tuning set) выборки Отбор переменных осуществляется непосредственно в процессе обучения и не может быть отделен Способны получить решение быстрее, чем методы-оболочки за счет отсутствия перебора многочисленных комбинаций параметров Примеры: Деревья решений, имеющие встроенный механизм для отбора переменных (CART) Рекурсивное исключение переменных (Recursive Feature Elimination) LASSO … 39 Генетический алгоритм Генетический алгоритм —алгоритм оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию. Задачи оптимизации решаются с использованием методов естественной эволюции, таких как наследование , мутации , отбор и скрещивание. Генетический алгоритм стартует со случайного набора решений (переменные, характеризующие решение, представлены в виде генов в хромосоме, хромосомы формируют популяцию). Для хромосомы могут использоваться любые обозначения (числа, символы), но на практике чаще используются бинарные Каждое решение характеризуется функцией приспособленности (fitness function): максимальное значение функции соответствует лучшему решению На основе значения этой функции, отбираются решения-«родители» для генерации следующего поколения, являющегося комбинацией двух «родительских» решений. Для них также вычисляется значение приспособленности, и затем производится отбор («селекция») лучших решений в следующее поколение. Критерием останова алгоритма могут быть: нахождение глобального, либо локального решения; исчерпание числа поколений, отпущенных на эволюцию; исчерпание времени, отпущенного на эволюцию. 40 YOUR LOGO Генетические операторы Скрещивание Два родителя формируют два новых решения Single point crossover Two points crossover Мутация Случайное изменение гена в хромосоме 41 YOUR LOGO YOUR LOGO Вопросы?