Поиск представления молекул и методы прогнозирования активности в задаче «структура–свойство» (ММРО) 1 Поиск представления молекул и методы прогнозирования активности в задаче «структура–свойство»∗ Прохоров Е. И., Перевозников А. В., Воропаев И. Д., Кумсков М. И., Пономарёва Л. А. [email protected], [email protected] Москва, Механико-математический факультет МГУ им. М. В. Ломоносова В работе рассматривается проблема поиска представления молекул и методы прогнозирования активности в задаче «структура–свойство». Приводятся постановки основных задач, решаемых QSAR-анализом. Предлагаются методы построения прогностических моделей, основанные на кластерной структуре обучающей выборки. Экспериментальные результаты получены для выборки гликозидов и используются для дальнейшей работы по моделированию химических веществ. Задача «структура–свойство» (QSAR — Quantitative Structure Activity Relationship) — актуальная задача распознавания образов — состоит в том, чтобы по структуре химического соединения предсказать его активность (химическую или биологическую) [9, 7, 8]. Объектами распознавания в данном случае являются молекулы, а классами — классы активности химических веществ. Особенностью QSAR-задачи является необходимость описать структуру химического соединения в виде дескрипторов — любых свойств молекулы, выраженных численно. Дескрипторы выступают в роли признаков объекта распознавания. Поэтому решение задачи разбивается на два основных этапа: этап построения описания обучающей выборки, на котором формируется матрица «молекула–дескриптор» и этап поиска функциональной зависимости. Для анализа была предложена выборка гликозидов, по которой построены модели с высокой прогностической способностью. В ходе работы авторы использовали новый подход к построению дескрипторов молекул, использующий нечёткие функции принадлежности [3]. Для этапа поиска функциональной зависимости предложены новые эволюционные методы распознавания. Определения и постановка задачи М-граф (меченый молекулярный граф G = = {E, V }) — это помеченный граф, вершины которого интерпретируются как атомы молекулы, а ребра — как валентные связи между парами атомов. Метки вершин и ребер (числа или символы) отражают локальные свойства атомов и химических связей. В качестве меток вершин могут быть использованы любые характеристики соответствующих атомов (например, трехмерные координаты, символ химического элемента, заряд ядра, поляризуемость, атомный вес, атомный радиус и др.), а в качестве меток ребер — любые характеристики соответствующих связей (кратность, длины, по∗ Работа выполнена при финансовой поддержке РФФИ, проект № 07-07-00282. рядки связей, полученные из квантово-химических расчетов, и т. д.) Задача «структура–свойство» заключается в следующем. Задана обучающая (эталонная) выборка — база данных из N химических соединений, в которой: — каждое i-ое соединение представлено меченым молекулярным графом Gi , имеющим укладку в трехмерном пространстве (т. е. для каждой вершины в качестве меток заданы её трехмерные координаты); — соединение Gi либо отнесено к Ci — одному из K классов активности (например, «активных», «слабоактивных», «неактивных» веществ) согласно исследуемому свойству Ai , либо для Gi задано численное значение свойства Ai . Требуется построить классифицирующую функцию F , получающую в качестве аргумента произвольный молекулярный граф с метками того же типа, и «наилучшим образом» относящую это соединение к одному из классов активности, либо «наилучшим образом» предсказывающую численное значение исследуемого свойства. Функционал качества ϕ(F ) задан как доля молекул из обучающей выборки, верно классифицированных функцией F : ϕ(F ) = 1 − N 1 X εi , N i=1 (1) где εi = 0 если F (Gi ) = Ci , и εi = 1 в противном случае. В случае, когда функция должна предсказывать численное значение свойства, ÁX N N X ¡ ¢2 ϕ(F ) = 1 − F (Gi ) − Ai A2i . i=1 (2) i=1 Поставленную таким образом задачу поиска классифицирующей функции будем называть задачей «структура–свойство» или QSAR-задачей. Дескриптором будем называть какое-либо свойство, численное значение которого может быть вычислено для произвольного молекулярного графа G (в распознавании это принято называть признаком). Всероссийская конференция «Математические методы распознавания образов» (ММРО-14), г. Суздаль, 21–25 сентября 2009 г. 2 (ММРО) Прохоров Е. И., Перевозников А. В., Воропаев И. Д., Кумсков М. И., Пономарёва Л. А. Алфавитом дескрипторов будем называть множество всех дескрипторов, используемых для анализа обучающей выборки, обозначенных различными символьными метками. Пусть алфавит дескрипторов состоит из M элементов. Вектором признаков молекулярного графа G будем называть вектор x = (x1 , . . . , xM ) ∈ ∈ RM , где xj — значение j-ого дескриптора, вычисленное для G. МД-матрицей или матрицей «молекула–дескриптор» (матрицей признаков) для рассматриваемой обучающей выборки будем называть матрицу размера N × M , в i-ой строке которой стоит вектор признаков i-го соединения xi = (xi1 , . . . , xiM ). Задача построения описания обучающей выборки включает в себя выбор алфавита дескрипторов, построение отображения из множества молекулярных графов в признаковое пространство RM и формирование матрицы «молекула–дескриптор» для обучающей выборки. Подробнее о поиске представления молекул в QSAR-задаче см. в [2, 3]. Для каждой молекулы из обучающей выборки известно также значение её активности (целевое свойство) yi , i = 1, . . . , N . Задача распознавания состоит в определении активности нового соединения молекулы x по её описанию x = = (x1 , . . . , xM ) и информации об обучающей выборке (x1 , y1 ), . . . , (xN , yN ). Используя обучающую выборку, будем строить модели, предсказывающие активность молекул. Для оценки прогностической способности моделей будем использовать коэффициент скользя2 щего контроля Rcv (cross validation) [3, 5], вычисляемый в ходе следующей процедуры: — в цикле по числу молекул из выборки удаляется текущая молекула; — по оставшимся в обучающей выборке молекулам строится модель; — с помощью модели предсказывается значение активности удалённой молекулы. Процент успешных прогнозов в этом случае и есть 2 коэффициент Rcv . Методы решения Задача построения описания обучающей выборки была подробно описана в [1, 2]. Отдельно стоит отметить проведённый анализ зависимости качества прогноза от типа функции принадлежности, на основе которой формируются значения дескрипторов [3]. Решение задачи поиска функциональной зависимости разбивается на несколько этапов: кластеризация и обработка выбросов; отбор значимых дескрипторов; построение модели; прогноз. Опишем подробно каждый этап. Кластеризация позволяет строить модель локально, внутри небольшой группы сходных со- единений, что часто оказывается очень полезным. Задача кластеризации чрезвычайно важна также для ускорения вычислений, ведь построение моделей внутри каждого кластера может идти параллельно, сам алгоритм кластеризации также может быть распараллелен. Эффективность проводимых вычислений важна, так как необходимо обрабатывать большие массивы молекулярных структур, собранных во многих организациях, например, таких, как National Cancer Institute [www.cancer.gov], где выборки содержат сотни молекул, для каждой из которых обрабатываются тысячи дескрипторов. На этом этапе идёт также обработка выбросов. Выброс — химическое соединение в выборке, признаки которого существенно отличаются от признаков остальных соединений. Такие молекулы могут попасть в выборки из-за ошибки составителей, но могут сами по себе являться содержательными с точки зрения химии. Присутствие выбросов существенно ухудшает качество прогноза. Поэтому при построении модели мы их не учитываем. Из-за огромного числа дескрипторов многие алгоритмы распознавания становятся неприменимыми для нашей задачи, поэтому их число необходимо сократить, отобрав при этом наиболее существенные для прогноза. В рассматриваемых реализациях были выбраны разные подходы к этой проблеме. Например, результирующую модель на основе системы нечёткого логического вывода ANFIS [5] предлагалось строить на главных компонентах матрицы «молекула–дескриптор». В другом случае была применена модификация МГУА (метода группового учёта аргументов) для алгоритма kNN (k ближайших соседей) с ограничением по радиусу [3]. Особое внимание стоит обратить на двоичный МГУА [4], реализующий поиск зависимостей на двоичных векторах при двоичном целевом векторе с использованием эволюционного построения семейства ДНФ/КНФ на большом исходном пространстве признаков. Вычислительные эксперименты показали, что при применении к выборке гликозидов предложенный метод строит прогнозирующие модели с меньшим числом выбросов и более высоким качеством прогноза, чем классический аналог. На рис. 1 представлена общая схема схема решения задачи. Полученные результаты Для анализа была представлена выборка гликозидов. Гликозид — органическое вещество, молекулы которого состоят из углевода и неуглеводного компонента (агликона), соединенных гликозидной связью. Гликозиды служат формой переноса и хранения различных веществ растений. Сердечные гликозиды наперстянки применяют в медицине. Поиск представления молекул и методы прогнозирования активности в задаче «структура–свойство» (ММРО) 3 Выводы Для выборки гликозидов построены модели с высокой прогностической способностью. Проведено сравнение моделей. Нашли применение результаты, касающиеся построения нечетких дескрипторов, предложенных в ранних работах авторов. Предложен новый эволюционный метод поиска логических зависимостей для обработки МД-матриц. Накоплен опыт, позволяющий быстро строить ка2 чественные (в смысле коэффициента Rcv ) модели, прогнозирующие активность химических веществ. Литература [1] Кохов В. А. Метод количественного определения сходства графов на основе структурных спектров // Известия РАН, Техническая кибернетика. — 1994. — № 5. — С.143–159. [2] Devetyarov D. A., Zaharov A. M., Kumskov M. I., Ponomareva L. A. Fuzzy logic application for construction of 3D descriptors of molecules in QSAR problem // 8th Intern. Conf. «Pattern Recognition and Image Analysis: New Information Technologies». — 2007. — Vol. 2. — Pp. 249–252. Рис. 1. Общая схема схема решения задачи (k — число кластеров). Гликозиды представляют собой обширную группу органических веществ, встречающихся в растительном (реже в животном) мире и/или получаемых синтетическим путём. По выборке были сформированы 24 матрицы с различными параметрами, описывающие 76 молекул, в зависимости от способа разбиения интервала электростатического заряда (2 варианта), типа функции принадлежности — четкие, нечеткие треугольные, нечеткие трапециевидные (3 варианта) и количества разбиений интервала расстояний между особыми точками (ОТ) и между ОТ парой ОТ (еще 4 варианта). Число дескрипторов в построенных матрицах (порядка 2000) варьировалось в зависимости от того, с какими настройками была построена матрица. К указанным матрицам были применены описанные подходы. На каждом этапе вычисления проводились с различными параметрами. Исходя из качества полученного прогноза, формировались рекомендации по изменению параметров, использованных на этапе описания молекул и формирования дескрипторов. Далее весь алгоритм запускается заново уже с новыми параметрами. Подробные цифры и сравнение результатов для различных подходов приведены в [3, 4]. Здесь же 2 отметим, что коэффициенты Rcv для построенных моделей высоки для задач типа «структура– свойство», и позволяют рассчитывать на дальнейший успех в работе с этим химическим свойством. [3] Деветьяров Д. А., Кумсков М. И., Апрышко Г. Н., Носеевич Ф. M. и др. Сравнительный анализ применения нечетких дескрипторов при решении задачи «структура–активность» для выборки гликозидов // Всеросс. конф. ММРО-14. — М.: МАКС Пресс, 2009. — С. ??–??. [4] Носеевич Ф. M., Деветьяров Д. А., Кумсков М. И., Апрышко Г. Н., Пермяков Е. А. Двоичный метод группового учета аргументов в задаче «структура– активность» // Всеросс. конф. ММРО-14. — М.: МАКС Пресс, 2009. — С. ??–??. [5] Штовба С. Д. Введение в теорию нечетких множеств и нечеткую логику. — Винница: Изд-во винницкого гос. техн. университета, 2001. — 198 с. [6] Журавлев Ю. И, Рязанов В.В., Сенько О.В. «Распознавание». Математические методы. Программная система. Практические применения — Москва: ФАЗИС, 2006. [7] Кумсков М. И., Смоленский Е. А., Пономарева Л. А., Митюшев Д. Ф., Зефиров Н. С. Системы структурных дескрипторов для решения задач «структура-свойство» // М.: Наука Доклады Академии Наук, 1994. — С. 336. [8] Деветьяров Д. А., Григорьева С. С., Пермяков Е. А., Кумсков М. И., Понаморёва Л. А., Свитанко И. В. Решение задачи «структура–свойство» для молекул с множеством пространственных конформаций // Система прогнозирования свойств химических соединений: Алгоритмы и модели: Сборник научных работ / Под ред. М. И. Кумскова. Москва: МАКС Пресс, 2008. [9] Григорьева С. С., Кумсков М. И., Захаров А. М. Применение метода главных компонент при построении кластерной структуры обучающей выборки молекул // 13-я всеросс. конф. ММРО-13: Сборник докладов. — Москва: МАКС Пресс, 2007.