Витяев Е.Е. (ИМ СО РАН), Орлов Ю.Л., Поздняков М.А., Вишневский О.В., Беленок А.С., Колчанов Н.А. (ИЦиГ СО РАН) Компьютерная система "Gene Discovery" для функциональной аннотации последовательностей ДНК На основе методов Data Mining и Knowledge Discovery разработана компьютерная система "Gene Discovery" для автоматической продукции знаний и выявления кодов, посредством которых в геномной ДНК записана информация о локализации и специфической активности регуляторных районов, контролирующих транскрипцию генов. В основе системы лежит алгоритм "Discovery" семантического вероятностного вывода гипотез и поиска закономерностей в таблицах данных, разработанный в ИМ СО РАН. Система является основой пакета программ для автоматической продукции знаний и выявления кодов, посредством которых в первичной структуре макромолекул закодирована информация об их структурнофункциональной организации и специфической активности. Поскольку технология машинного обучения "Discovery" предполагает только наличие таблицы "объект-признак", разработанная методика применима к широкому кругу задач анализа и компьютерного моделирования структурно-функциональной ДНК, РНК и белков. Необходимым элементом является создание контрастной выборки и отбор первичных признаков анализируемых последовательностей. Опишем применение системы "Gene Discovery" для поиска закономерностей в таблицах данных по контекстным особенностям последовательностей ДНК, участвующим в регуляции транскрипции. Задачей является определение закономерностей, связывающих нуклеотидную последовательность с ее функциональным классом. Поиск схем закономерностей строился в логике первого порядка пополненной вероятностными оценками. Для решения этой задачи разработана компьютерная система "Gene Discovery". С помощью этой системы были проанализированы последовательности эритроид-специфичных промоторов и промоторов генов эндокринной системы из базы данных TRRD. Найдены закономерности, связывающие расположение олигонуклеотидов в регуляторном районе гена относительно старта транскрипции и функциональный класс этого гена. Разработан метод распознавания класса промотора на основе этих закономерностей. Постановка задачи анализа структуры промоторов эукариот Исследование структуры промоторов представляет интерес для понимания механизмов транскрипции эукариот. Обязательным элементом, абсолютно необходимым для инициации транскрипции, является коровый (базальный) промотор, под которым понимают минимальную последовательность ДНК, необходимую для правильной инициации транскрипции гена in vitro. В коровый промотор входит старт транскрипции и область приблизительно от –60 до +40 п.о. по отношению к нему. Каждый регуляторный район содержит в своем составе сайты связывания определенных транскрипционных факторов (ССТФ). Один ген может иметь множество промоторов, определяющих формирование различных белковых продуктов или обладающих различным уровнем специфической функциональной активности. Кроме того, для промоторов эукариот характерно отсутствие точной локализации контекстных сигналов, значимых для их функционирования и слабость этих сигналов. Анализ данных в других научных областях связан с экстенсивной обработкой больших баз данных и открытием больших наборов закономерностей. В то же время, информация, распределенная по научной литературе и сосредоточенная в молекулярно-биологических базах данных, содержит тысячи экспериментальных результатов о последовательностях ДНК, вовлеченных в регуляцию транскрипции. В настоящее время в мире существует около 300 молекулярно-биологических баз данных, доступных через Интернет. Такое положение дел дает возможность широкомасштабного применения теории анализа данных и открытия знаний в области биоинформатики в целом. 26 "GENE DISCOVERY": принципиальная схема Компьютерная программа "Gene Discovery" была разработана для анализа структурной организации промоторов эукариот на основе информации об экспериментально известных и предсказанных функциональных сайтах. Компьютерная система "Gene Discovery" является адаптацией системы "Discovery" для задач молекулярной биологии (Kovalerchuk B. & Vityaev E., 2000). "Gene Discovery" состоит из трех основных модулей: (1) модуль для интерактивного представления контекстных сигналов в стандартной таблице данных; (2) модуль "Discovery" для поиска закономерностей; (3) модуль для распознавания класса последовательности, используя найденные закономерности. Программа написана на языке С++ и предназначена для интерактивного использования. Блок анализа данных "Discovery" обозначен на рисунке 1.12 как "поиск паттернов совместного присутствия и взаимной локализации контекстных сигналов" (“Search for patterns of the joint presence and relative localisation of contextual signals…”) Другие модули системы предназначены для подготовки и интерпретации молекулярно-генетических данных. Рис. 1.12. Схема системы "Gene Discovery". "DISCOVERY": технология анализа данных Метод машинного обучения и созданная на его основе система “Discovery” находит статистически значимые правила в логике первого порядка для функциональной аннотации регуляторных районов. Система “Discovery” успешно применялась к решению многих проблем в психологии, физике, медицине, финансах и других науках (Kovalerchuk B. & Vityaev E. et al, 1997, 2000, 2001) (см. также www-сайт "Scientific Discovery": http://www.math.nsc.ru/LBRT/l/vityaev/, раздел "comparison"). Также как и любая техника, основанная на логических правилах, данная техника позволяет получить предсказывающие правила на естественном языке, которые интепретируются с биологической точки зрения и обеспечивают предсказание промоторов (функциональную аннотацию). Биолог может оценить корректность распознавания и значимость правил самих по себе. Научной проблемой в применении предсказывающих систем, основанных на данных, является обобщение. Система “Discovery” обобщает данные через обнаружение логических вероятностных правил-законов. 27 Концепция вероятностной обусловленности (P.Suppes, 1970) является краеугольным камнем этого подхода при выводе из того, что Y есть вероятностная причина X (Y X), когда вероятность X при данном Y больше вероятности X. Система “Discovery” использует обобщенную версию этой концепции. Она оперирует с логическими выражениями вида A1&…&Ak A0. Выражения A1, …,Ak позволяют заключать, что они являются вероятностной причиной A0 при выполнении некоторого дополнительного условия, которое будет приведено ниже. Это условие требует, чтобы условная вероятность CondProb(A0|SubFormular(A1&…&Ak)) события A0 при любом под-условии SubFormular(A1&…&Ak) была строго меньше, чем условная вероятность CondProb(A0|A1&…&Ak) события A0 при полном условии. В частности, для выражения Y X, если мы имеем SubFormular(Y) = , то условная вероятность CondProb(X|SubFormular(Y)) = CondProb(X|) = Probability(X) должна быть строго меньше чем CondProb(X|Y) — вероятность X при данном Y. Эта идея приводит нас к следующему определению: Определение: правило C = (A1&…&Ak A0) является правилом-законом (выражает вероятностную причинную зависимость между посылкой A1&…&Ak и заключением A0) если: CondProb(A0|SubFormular(A1& …&Ak)) < CondProb(A0|A1& …&Ak) для любого под-условия SubFormular(A1& …&Ak), где SubFormular(A1& …&Ak)=As1& …&Ask, {As1, …,Ask} (не равно){ A1& …&Ak}. Это определение правила-закона удовлетворяет всем свойствам научных законов. Концептуально, правила-законы пришли из философии науки. Эти правила пытаются зафиксировать математически существенные особенности научных законов: (1) высокий уровень обобщения; (2) простоту (Бритва Оккама); и, (3) максимальная опровержимость. Правило C = (A1&…&Ak A0) позволяет генерировать подправила SubFormular(A1&…&Ak) A0 с сокращенной условной частью, т.е. A1&A2 A0; A1&A2&A3 A0 и т.д. Известно, что подправило логически сильнее, чем само правило используемое для его построения. Таким образом, если некоторое правило C и его подправило C’ выполнены (классифицируют, один и тот же набор примеров), то подправило предпочтительнее. Вообще говоря, существует три причины для предпочтения подправила: 1) Подправило более общее (логически сильнее и описывает тот же набор событий); 2) Подправило проще, чем само правило, поскольку состоит из меньшего числа утверждений в условной части; 3) Подправило более опровержимо, чем само правило, поскольку больший набор возможных примеров может его опровергнуть (условная часть подправила имеет меньше ограничений). Таким образом, если правило C покрывает набор примеров, то нужно проверить, что бы ни одно из его подправил C’ не покрывали тот же набор примеров. В противном случае это подправило (или, возможно, некоторое его подправило) будет предпочтительнее, поскольку это подправило проще, более общо и более опровержимо. В детерминистическом случае правило-закон может быть определено (для некоторого набора примеров) как правило без подправил, покрывающих тот же набор примеров. Другими словами, правило-закон есть правило, которое истинно для некоторого набора примеров, но ни одно из его подправил не истинно для этого же набора примеров. Если примеры содержат шум, что типично для естественных наук, следует использовать вероятностные характеристики выражений вместо значений истина/ложь. Условная вероятность правила используется в системе “Discovery” в качестве такой характеристики. Условная вероятность правила C определена как Prob(C) = CondProb(A0|A1& …&Ak), предполагая, что Prob(A1& …&Ak) > 0. Подобным же образом определены условные вероятности Prob(A0|Ai1&...&Aih) для подправил Ci = (Ai1&...&Aih A0), предполагая, что Prob(Ai1&...&Aih) > 0. Условная вероятность Prob(C) используется далее для оценки прогностической силы правила для предсказания A0. Кроме того, условная вероятность основное средство для определения не детерминистических (вероятностных) правилзаконов (Kovalerchuk B. et al., 2001). Правило является вероятностным правилом-законом тогда и только тогда, когда все его подправила имеют значимую более низкую условную вероятность, чем само правило. Другое определение правил-законов может быть получено в терминах обобщения. Правило 28 является правилом-законом тогда и только тогда, когда оно не может быть обобщено без статистически значимого уменьшения его условной вероятности. Правила-законы определены таким образом, чтобы соответствовать всем трем отмеченным выше свойствам (свойства научных законов), т.е., эти правила (1) общие с логической точки зрения, (2) простые, и (3) опровержимые. Система “Discovery” ищет все цепочки C1, C2, …,Cm-1, Cm связанных подправил-законов, где C1 есть подправило C2 , C1 = sub(C2), C2 – подправило правила C3, C2 = sub(C3) и окончательно Cm-1 – подправило правила Cm, Cm-1 = sub(Cm). Также Prob(C1) < Prob(C2), …, Prob(Cm-1) < Prob(Cm). Доказана теорема (Витяев Е.Е., 1992) о том, что все правила, имеющие максимальные значения условной вероятности, могут быть найдены в конце таких цепочек. Цель системы “Discovery” – найти все наиболее сильные предсказывающие правила (Stправила (strong)). Определение 1. Правило C = (A1& …&Ak A), где k > 1 и Prob(A1& …&Ak) > 0 называется St-правилом для атомарной формулы A на данных D если и только если: 1) Prob(C) = Prob(A|A1& …&Ak) > Prob(A), где A1& …&Ak – условия, выполненные на данных D; 2) Правило C имеет максимум условной вероятности Prob(C) среди правил C* удовлетворяющих условию 1 и выполненных на тех же данных, что и C, и 3) Для любого правила C* удовлетворяющего условиям 1, 2, мы имеем C C*. Условие 1 означает, что St-правило C имеет значимую условную часть (посылку), т.е., условная вероятность Prob правила C больше чем вероятность атомарной формулы A как таковой. Если это условие не выполняется, то нет оснований добавлять посылку для прогнозирования A. Если атом A сам имеет высокую вероятность, то он может быть предсказан без посылки Условие 2 приводит к “сильнейшему” St-правилу, т.е., правилу с максимумом условной вероятности среди правил, удовлетворяющих указанному выше условию 1 на тех же данных. Условие 3 означает, что St-правило С является наиболее “общим” среди правил, удовлетворяющих условиям 1 и 2, т.е., правило С охватывает наиболее широкий набор случаев из D для которых оно применимо. Ранее была доказана теорема (Витяев Е.Е., 1992) что все St-правила могут быть найдены в конце цепочек C1 , C2 , …, Cm-1, Cm. Так достигается цель системы “Discovery”. Алгоритм перестает генерировать новые правила, когда они становятся слишком сложными (т.е., статистически незначимыми для анализируемых данных) даже если правила имеют высокую точность на обучении. Для оценки статистической значимости в алгоритме используется статистический критерий Фишера (точный критерий Фишера для таблиц сопряженности). Другой очевидный критерий остановки – ограничение числа условий Ak (число полей данных в анализируемой таблице). Рис. 1.13. Пример поиска правил для гипотезы A0. 29 Теоретические преимущества обобщения представлены в теореме (Витяев Е.Е., 1992; Витяев Е.Е. & Москвитин А.А., 1993). Данный подход имеет сходство с подходом подсказок (Abu-Mostafa Y., 1990). Мы используем математический формализм правил логики первого порядка, описанный в ряде работ (см. например, Russel S. & Norvig P., 1995; Halpern J.Y., 1990; Krantz D.H. et al. 1971, 1989, 1990). Заметим, что класс правил логики первого порядка шире, чем класс решающих деревьев. (Mitchell T., 1997). Подготовка данных для системы "GENE DISCOVERY" Компьютерная система "Gene Discovery" является адаптацией системы "Discovery" для анализа нуклеотидных последовательностей регуляторных районов. Принципиальная схема системы представлена на Рис. 1.12. На вход системы подается обучающая выборка нуклеотидных последовательностей двух альтернативных классов: класс 1 – промоторы; класс 2 – последовательности, не выполняющие этой функции (например, случайные последовательности с теми же частотами нуклеотидов, либо соседние участки последовательности, не несущие регуляторной функции, например, экзоны). Имеется блок программ, осуществляющих поиск контекстных сигналов в последовательностях этих двух классов (Рисунок 1.12.). Сигнал может быть: контекстным (короткое олигонуклеотидное слово, функциональный сайт и т.д.), конформационным (участок ДНК, характеризующийся особенностями конформационных или физико-химических свойств, например, легкоплавкие участки ДНК, сильно изогнутая ДНК и т.д.), структурным (например, Z-ДНК или шпилька вторичной структуры РНК и др.). Все эти сигналы могут быть установлены с использованием знаний о свойствах ДНК и консенсусных схемах, на основе экспериментальной информации из специализированных баз данных. Рассмотрим контекстные сигналы только одного типа – несовершенные олигонуклеотиды. С помощью этой программы были проанализированы последовательности промоторов генов эндокринной системы и соответствующие им по частотам олигонуклеотидов случайные последовательности. Выборка 40 промоторов была взята из базы данных ES-TRRD (http://wwwmgs.bionet.nsc.ru/). Последовательности промоторов имели длину 120 п.о. (от –100 до +20 п.о. относительно старта транскрипции). Оценка гомологии между промоторами показала, что она для любой пары не превышает 60%. Негативная выборка "не-промоторов" содержала 1000 случайных последовательностей той же длины и с теми же частотами нуклеотидов, что и последовательности промоторов. Для генерации случайных последовательностей использовалась программа http://wwwmgs.bionet.nsc.ru/mgs/dbases/nsamples/. Для выделения олигонуклеотидных сигналов, специфичных к данной группе промоторов, использовалась программа ARGO (BabenkoV.N. et al., 1999), (см. также http://wwwmgs.bionet.nsc.ru/mgs/programs/argo/). Под олигонуклеотидным сигналом, или мотивом, понимается слово длиной 8 оснований, записанное в обобщённом 15-буквенном алфавите IUPAC: {A, T, G, C, R=G/A, Y=T/C, M=A/C, K=T/G, W=A/T, S=G/C, B=T/C/G, V=A/G/C, H=A/T/C, D=A/T/G, N=A/T/G/C}. Это стандартный способ представления близких строк нуклеотидов одной записью, как один сигнал. Таким образом, был выполнен подготовительный этап подготовки данных. Заметим, что подобные сигналы могут быть построены по гомологии с известными белковыми сайтами связывания в других формах записи. Отобранные контекстные сигналы (вырожденные олигонуклеотиды) были локазизованы в исследуемых последовательностях ДНК и представлены в виде таблицы данных с помощью модуля "Gene Discovery". Итак, данные были представлены в виде таблицы "объект-признак". В этой таблице объектами являются последовательности ДНК, признаками – присутствие контекстных сигналов и их локализация относительно экспериментально определенного старта транскрипции. 30 Таким же образом была проанализирована другая выборка промоторов, а именно, промоторы эритроидных генов. В итоге для анализа данных была построена таблица, содержащая несколько тысяч строк. Она содержала последовательность контекстного сигнала Si и его позицию Position(Si) в промоторном районе. Например, для первого промотора в анализируемой выборке сигнал S1=TGACCAAT, Position(S1)=-67, сигнал S2=RCCAATND, Position(S2)=-65, и т.д. Применение системы для анализа регуляторных геномных последовательностей Проверяемая гипотеза A0 в нашем случае звучит так: "Принадлежит ли последовательность к классу 1 (промоторы)?" Назовем комплексным сигналом группу олигонуклеотидных мотивов, имеющих некоторую схему взаимного расположения в промоторной последовательности. Другими словами комплексный сигнал – это группа описанных ранее коротких контекстных сигналов. Присутствие такого комплексного сигнала может рассматриваться как условие A0 принадлежности к классу промоторов. Рассмотрим простейший комплексный сигнал (S1, S2) образованный парой олигонуклеотидов с заданным порядком: (S1, S2) = (Position(S1)<Position(S2) ), где S1 и S2 олигонуклеотиды в таблице объект-признак; Position(S1) и Position(S2) – позиции этих олигонуклеотидов в последовательности относительно старта транскрипции. То есть, мы можем рассматривать условие A1 как (S1, S2), и проверить гипотезу A1A0 для всех последовательностей ДНК, содержащих S1 и S2. Но присутствие только двух олигонуклеотидов (Si, Sj) может быть недостаточным условием. Поэтому мы должны рассмотреть все тройки олигонуклеотидов, такие как (S1,S2,S3)=(Position(S1)<Position(S2) <Position(S3)). Формально, такая тройка может быть рассмотрена как две пары (S1, S2) и (S2, S3). Гипотеза для тестирования сейчас A1&A2A0. Таким образом, используя логику первого порядка, мы строим более и более сложные условия, включая присутствие этих олигонуклеотидов в прямой или комплементарной цепи ДНК, перекрывание олигонуклеотидов (пересечение позиций) и так далее. Рис. Пример интерактивного поиска закономерностей совместного присутствия специфичных олигонуклеотидов в выборке промоторов генов эндокринной системы. 31 В результате анализа "Gene Discovery" было найдено большое число закономерностей совместного появления контекстных сигналов в промоторных районах. Число закономерностей зависит от параметров поиска, задаваемых пользователем. Если мы определим низкий уровень условной вероятности (менее 0.5), то итоговое число правил будет очень большим (до нескольких тысяч). Такое число правил трудно интерпретировать эксперту. Поэтому мы можем задать высокий уровень условной вероятности, например, более 0.95. Тогда число правил будет мало, но они будут очень значимы с биологической точки зрения. Интерпретация полученных знаний как комплексных сигналов в промоторах генов эукариот Найденные закономерности могут быть проанализированы экспертом в молекулярной биологии как уникальные комплексные сигналы, значимые для правильного функционирования промотора. Таблица 1. Примеры комплексных сигналов в промоторах генов эндокринной системы, отобранных с помощью системы "Gene Discovery" № пп Оценка Количество Ожидаемое вероятности промотопо сигнала в ров, случайным промоторах по имеющих причинам критерию сигнал4 количество Фишера3 промоторов5 1 CWGNRGCN<NGSYMTAM<CAGGRNCH 0.875 0.00054 4 0.24 (<1) 2 KGRSSAGR<CYCYNSCY<CWGSNYCH 1.0 0.00012 4 0.28 (<1) 3 CWGNRGCN<NGSYMTAM<MAGKSHCN 1.0 0.00009 6 0.47 (<1) 4 CWGNRGCN<NGSYMTAM<CMDGGNCH 0.846 0.00099 5 0.43 (<1) 5 CNKSAGNT<NCARGRNC<HNNKGCTG 1.0 0.01426 4 0.37 (<1) 6 RNWGGCCN<DGRGNRGG<TCMAGNMN 0.875 0.00118 4 0.4 (<1) 7 RGSNRGRG<NNGSTWTA<CNCNRKGC 1.0 0.02852 5 0.53 (<1) 8 NNGSTWTA<NMAGDGMC<CNCNRKGC 0.875 0.04755 5 0.53 (<1) 9 RGSNRGRG<NNGSTWTA<CMDGGNCH 1.0 0.03964 5 0.55 (<1) 10 RGSNRGRG<KGGNSAGD<ANCTSMNG 1.0 0.03964 4 0.45 (<1) ... ... ... ... ... ... 45 RGSNRGRG<NGSYMTAM<CNCNRKGC 1.0 0.03964 5 0.58 (<1) Примечания. Данные в таблице приведены не полностью из-за большого объема, пропуски обозначены многоточиями. 1 - Комплексный сигнал состоит из олигонуклеотидов в 15-буквенном алфавите, линейно расположенных на последовательности в соответствии с приведенной записью. Знак "<" означает, что позиция первого олигонуклеотида относительно старта транскрипции меньше позиции второго. Расстояние между отдельными сигналами не фиксировано. 2 - Условная вероятность PC(N1,N2) считается как отношение числа промоторов имеющих данный сигнал N1 к общему числу последовательностей, имеющих данный сигнал N 1/(N1+N2). 3 – Оценка вероятности получить сигнал в промоторах по случайным причинам большее число раз, чем наблюдаемое, по точному критерию Фишера для таблиц сопряженности P(N 1,N2,N3,N4). 4 - Количество промоторов в обучающей выборке, имеющих данный комплексный сигнал. 5 – Ожидаемое по случайным причинам количество промоторов, имеющих комплексный сигнал. В предположении независимости входящих в комплексный сигнал олигонуклеотидов оценивается как произведение общего числа промоторов на частоты олигонуклеотидов в промоторах, с учетом вариантов их взаимного линейного расположения. Комплексный сигнал1 Условная вероятность сигнала в промоторах2 Рассмотрим дополнительные условия к отбору комплексных сигналов, помимо высокого уровня условной вероятности: (1) индивидуальные сигналы, входящие в комплексный сигнал, не пересекаются на последовательностях рассмотренных промоторов; (2) наблюдаемое количество промоторов N, в которых встретился комплексный сигнал выше числа N*, которое по случайным причинам ожидается в выборке промоторов, N>N*. 32 Ожидаемое количество N* оценивалось как произведение частот отдельных олигонуклеотидов в промоторах, умноженное на общее число промоторов, с учетом числа вариантов взаимного расположения олигонуклеотидов на последовательности промотора. Например, ожидаемое количество промоторов N*, в которых встретился комплексный сигнал (S1,S2,S3|Pos(S1)<Pos(S2)<Pos(S3)), равно N*=P(S1)P(S2)P(S3)M/6, где N* - ожидаемое количество промоторов, в которых встретился комплексный сигнал; P(S1), P(S2), P(S3) – частоты промоторов, содержащих олигонуклеотиды S1, S2 и S3, соответственно; M - полное количество промоторов в анализируемой выборке; 6=3! - число возможных вариантов взаимного размещения трех олигонуклеотидов в промоторе. Примеры комплексных сигналов, удовлетворяющих этим условиям, специфичных для промоторов генов эндокринной системы приведены в Таблице 1. Рассмотрим сигнал CWGNRGCN<NGSYMTAM<MAGKSHCN. Знак "<" здесь означает, что позиции соответствующих олигонуклеотидов упорядочены относительно старта транскрипции. Итак, ожидаемое число встретить этот сигнал N*=0.47, т.е. меньше единицы, в то время как он встретился в 6 промоторах, что в приблизительно в 13 раз больше ожидаемого уровня. Пример расположения комплексного сигнала представлен на Рис. 1.14. Рис. 1.14. Схема расположения комплексного сигнала CWGNRGCN<NGSYMTAM<MAGKSHCN в промоторах генов эндокринной системы. Последовательности промоторов сфазированы относительно старта транскрипции (позиция +1 п.о.), выделенного стрелкой. Идентификатор EMBL исследуемой последовательности указан слева в скобках. Входящие в комплексный сигнал олигонуклеотидные мотивы длиной 8 п.о. отмечены черными прямоугольниками, указана позиция первого нуклеотида относительно старта транскрипции. Положение TATA-бокса, проиндексированное в базе данных TRRD, отмечено заштрихованными прямоугольниками. Позиции первого и последнего нуклеотида в TATAбоксе указаны курсивом. Промоторные последовательности выравнены относительно старта транскрипции (позиция +1 п.о.), отмеченная стрелкой. Идентификаторы EMBL рассмотренных последовательностей приведены в скобках. Восьминуклеотидные мотивы, представляющие комплексные сигналы показаны как затемненные прямоугольники. Указана позиция первого олигонуклеотида относительно старта транскрипции. Черным прямоугольниками показаны позиции TATA-бокса, проиндексированные в базе данных TRRD; позиции первого и последнего нуклеотида выделены курсивом. Следует заметить, что система не переобучается на обучающих примерах и показывает ошибку первого рода на контроле, примерно равную условной вероятности правил, вычисленных на обучении. 33 Таким образом, разработанная нами компьютерная система "Gene Discovery" позволяет выявлять как индивидуальные значимые мотивы (вырожденные квазиинвариантные олигонуклеотиды), так и комплексные сигналы. Проведенный анализ показал, что промоторы генов эндокринной системы и эритроид-специфичные промоторы характеризуются высокой насыщенностью такими сигналами. О функциональной значимости комплексных сигналов свидетельствует тот факт, что они имеют сходное расположение в пределах подгрупп специфичных промоторов. Кроме того, как отмечалось выше, комплексные сигналы могут иметь сходные расстояния между индивидуальными мотивами. При этом анализируемые промоторы не имеют выраженной гомологии. Индивидуальные мотивы могут соответствовать сайтам связывания транскрипционных факторов. Еще в ранних работах по анализу и распознаванию промоторов было показано, что они обогащены потенциальными сайтами связывания транскрипционных факторов по сравнению со случайными последовательностями (Kondrakhin Yu.V. et al., 1995). Индивидуальные мотивы могут также соответствовать участкам ДНК, обеспечивающим специфические конформационные или физико-химические свойства: повышенную гибкость ДНК, легкоплавкость и т.д., необходимые для функционирования промоторов. При рассмотрении комплексных сигналов следует отметить несколько обстоятельств. Во-первых, в ряде работ (Kondrakhin Yu.V. et al., 1995; Klingenhoff A. et al., 1999; Zhang M.Q., 1998) выявлены специфичные паттерны распределения потенциальных сайтов связывания транскрипционных факторов с максимумами локализации различных сайтов в различных участках промоторов. Таким образом, наблюдающиеся комплексные сигналы могут отражать преимущественное расположение различных сайтов в определенных участках промоторов. Во-вторых, в последнее время активно изучается особый тип регуляторных элементов, контролирующих транскрипцию, которые называются композиционными элементами (КЭ). Они образованы парами сайтов связывания транскрипционных факторов, которые в результате белок-белковых взаимодействий между соответствующими транскрипционными факторами приобретают новые регуляторные свойства. Каждый из сайтов в составе КЭ способен функционировать по отдельности, но их взаимодействие обеспечивает существенно более выраженный активирующий или репрессирующий эффект на транскрипцию гена. В настоящее время экспериментально выявлено более 150 КЭ (Kel-Margoulis O.V. et al., 2000, см. также http://compel.bionet.nsc.ru/). Исследование закономерностей совместной встречаемости и взаимного расположения сайтов c помощью системы "Gene Discovery" открывает путь для создания компьютерных методов поиска потенциальных композиционных элементов. Мы полагаем, что выявление и учет комплексных сигналов позволит в дальнейшем существенно повысить точность распознавания специфических групп промоторов. 34 Левицкий В.Г., Подколодная О.А. (ИЦиГ СО РАН) Разработка пакетов программ для анализа нуклеосомной организации и распознавания промоторов в геномной ДНК В рамках исследований по теме предлагаемого проекта проанализирована структурная организация сайтов формирования нуклеосом и промоторов, при этом использованы локальные контекстные характеристики (динуклеотидные частоты). В результате проведённых исследований удалось показать, что сайт формирования нуклеосомы и промоторный район обладают сложной иерархической организацией. С учётом этого были разработаны методы, предназначенные для построения профиля вероятности формирования нуклеосом вдоль последовательностей ДНК (нуклеосомного потенциала) и распознавания промоторов. В частности, обнаружены особенности плотности нуклеосомной упаковки, характерные для отдельных частей генов (промоторов, экзонов и интронов) и геномов (диспергированных повторов). Также выявлены характеристики нуклеосомной упаковки ДНК, связанные с характером экспрессии генов. Также в рамках исследований по теме предлагаемого проекта представлены методы для распознавания промоторов эукариот. Для этого была использована расширенная классификация промоторов (ТАТА-содержащие, ТАТА-несодержащие и промежуточные) и был построен новый оригинальный метод распознавания промоторов эукариот. Исследован потенциал формирования нуклеосом для различных типов повторяющихся последовательностей геномов эукариот (Аlu, B1, Line и т.д.). Исследована нуклеосомная организация последовательностей ДНК, связанных с высшими уровнями упаковки хроматина (сайты связывания с ядерным матриксом, районы гетеро- и эухроматина). Созданы методы распознавания сайтов формирования нуклеосом, специфичных для различных типов районов геномной ДНК. Исследована эволюционная консервативность потенциала формирования нуклеосом для групп гомологичных генов из геномов различных видов организмов. Пилотные версии программ поиска нуклеосомных сайтов (программа построения нуклеосомного потенциала) и распознавания промоторов доступны по сети Интернет по адресам http://wwwmgs.bionet.nsc.ru/mgs/programs/recon2/ и http://wwwmgs.bionet.nsc.ru/mgs/programs/recon/ Постановка задачи комплексного компьютерного анализа сайтов формирования нуклеосом и промоторов генов эукариот Целью настоящей работы является комплексный компьютерный анализ сайтов формирования нуклеосом и промоторов генов эукариот, направленный на изучение базовых особенностей их структурно-функциональной организации и создание методов их распознавания. Для достижения этой цели решаются следующие задачи. Разработка методов и компьютерных программ распознавания сайтов формирования нуклеосом в геномных последовательностях. Компьютерный анализ контекстных, конформационных и физико-химических особенностей ДНК сайтов формирования нуклеосом. Исследование нуклеосомной организации промоторов генов эукариот, транскрибируемых РНК-полимеразой II. Изучение особенностей нуклеосомной организации генов, связанных с их экзонинтронной структурой. Компьютерный анализ контекстных, конформационных и физико-химических особенностей промоторов генов эукариот, транскрибируемых РНК-полимеразой II. Разработка на этой основе программ распознавания промоторов. Описание методов и данных Предложен новый, не имеющий аналогов метод распознавания нуклеосомных сайтов, основанный на использовании дискриминантного анализа и учёте частот динуклеотидов в локальных участках этих сайтов (Levitsky et al., 2001). Этот метод опирается на выявление блочной структуры нуклеосомного сайта при разбиении его на локальные участки со 35 специфическим динуклеотидным контекстом. Также с использованием подобного подхода предложен новый метод программ распознавания промоторов (Левицкий и Катохин, 2001). Принципиально новым в разработанных алгоритмах является реализация генетического алгоритма на основе итеративного использования метода Монте-Карло для построения оптимального разбиения района ДНК на локальные неперекрывающиеся участки. Применение метода, полученные результаты и обсуждение Предложен метод разбиения сайтов формирования нуклеосом на локальные участки с гомогенным динуклеотидным контекстом (Levitsky et al., 2001). На основе этого метода разработана программа вычисления нуклеосомного потенциала нуклеотидной последовательности – количественной характеристики способности ДНК к формированию нуклеосом. Показано, что эта программа обеспечивает правильную классификацию нуклеотидных последовательностей, обладающих повышенным и пониженным сродством к гистоновому октамеру. Проведен анализ двух выборок последовательностей ДНК, полученных в SELEX-экспериментах. В первой выборке представлены последовательности из генома мыши, характеризуемые наибольшим сродством к гистоновому октамеру “стабильные нуклеосомы”, а во второй выборке – синтетические последовательности, для которых выявлено наименьшее сродство к гистоновому октамеру “антинуклеосомы” – фрагменты ДНК, для которых формирование нуклеосом является наиболее затруднённым. Область повышенных частот распределения нуклеосомного потенциала по “стабильным нуклеосомам” находится вблизи значения +1, среднего значения по обучающей выборке нуклеосомных сайтов (рис. 1.17). В то же время распределение для “антинуклеосом” существенно смещено влево относительно распределения по “стабильным нуклеосомам”, то есть оно расположено вблизи распределения по случайным последовательностям, использовавшемся в качестве негативной выборки обучения. Полученный результат показывает правомерность разработанного метода построения нуклеосомного потенциала и возможность его использования для количественной оценки способности ДНК к формированию нуклеосом в определенных позициях. Частота 20% 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% -4 СТАБИЛЬНЫЕ НУКЛЕОСОМЫ АНТИНУКЛЕОСОМЫ -3 -2 -1 0 1 2 Значение нуклеосомного потенциала 3 4 Рис. 1.17. Распределение значений нуклеосомного потенциала по выборкам “стабильных нуклеосом” и “антинуклеосом”. При рассмотрении донорных и акцепторных сайтов сплайсинга (рис. 1.18) было показано, что области донорных сайтов сплайсинга характеризуются положительным линейным трендом нуклеосомного потенциала (от экзона к интрону), а области акцепторных сайтов сплайсинга – отрицательным линейным трендом нуклеосомного потенциала (от интрона к экзону) (Levitsky et al., 2001). Наличие выраженных градиентов нуклеосомного потенциала позволяет предположить, что в интронах вблизи сайтов сплайсинга располагаются сигналы позиционирования нуклеосом. При этом механизм нуклеосомной организации транскрипционных единиц может быть кооперативном: упорядочивание массивов нуклеосом направляется от интронов в экзоны через сайты сплайсинга. 36 Рис. 1.18. Профили нуклеосомного потенциала для донорных (А) и акцепторных (Б) сайтов сплайсинга человека. Для донорных сайтов сплайсинга (А) позиция +1 соответствует первому нуклеотиду интрона, для акцепторных (Б) первому нуклеотиду экзона. Для понимания взаимосвязи особенностей нуклеосомной упаковки промоторной ДНК с характером экспрессии генов были изучены особенности нуклеосомного потенциала для промоторов генов человека, отличающихся по характеру экспрессии. Наиболее высокие значения нуклеосомного потенциала наблюдаются для промоторов тканеспецифичных генов, более низкие – для промоторов генов, экспрессирующихся в широком круге тканей, а для промоторов генов “домашнего хозяйства” характерны самые низкие значения нуклеосомного потенциала (рис. 1.19) (Levitsky et al., 2001). Во всех трех случаях наблюдается минимум нуклеосомного потенциала в районе старта транскрипции, что согласуется с полученным выше результатом. Рис. 1.19. Средние профили нуклеосомного потенциала для промоторов человека трех групп генов: (1) тканеспецифичных; (2) экспрессирующиеся в широком круге тканей; (3) “домашнего хозяйства”; +1 старт транскрипции. Все регуляторные элементы разделяют на проксимальные (располагающиеся непосредственно вблизи старта транскрипции) и дистальные (удалённые). К числу дистальных относятся энхансеры, они могут располагаться на расстоянии в тысячи п.о. от старта транскрипции. Энхансеры - дополнительные регуляторные районы, обеспечивающие высокий уровень экспрессии гена. Наряду с классическими выделяют также локусконтролирующие энхансерные районы. Одной из функций локусконтролирующих районов (LCR) является тканеспецифическая активация транскрипции генов данного локуса. В частности, энхансерная активность LCR может зависеть от ориентации и расстояния относительно регулируемого гена. Также нами изучена нуклеосомная упаковка в ДНК энхансерных районов генов в сравнении с промоторными районами генов с различным характером экспрессии (Levitsky et al., 2001а; Подколодная и соавт., 2001). На рис. 1.20. представлены гистограммы распределения значений нуклеосомного потенциала для энхансеров локусконтролирующих районов (LCR), классических энхансеров, а также промоторов тканеспецифичных генов и генов “домашнего хозяйства” для района [-50; +1] относительно старта транскрипции. 37 классические энхансеры энхансеры LCR промоторы генов "домашнего хозяйства" промоторы ткане-специфичных генов Частота 12% 10% 8% 6% 4% 2% 0% -5 -4 -3 -2 -1 0 1 2 3 4 5 Значение нуклеосомного потенциала Рис. 1.20. Гистограммы распределения значений функции распознавания сайтов связывания нуклеосомы для энхансеров LCR, классических энхансеров, промоторов тканеспецифичных генов и генов “домашнего хозяйства”. Можно заметить сходство распределения величины нуклеосомного потенциала у энхансеров LCR, классических энхансеров, промоторов тканеспецифичных генов. В то же время наблюдается существенный сдвиг распределения нуклеосомного потенциала влево у промоторов генов “домашнего хозяйства”. Средние значения этой функции в трех первых выборках достаточно близки к +1, что может свидетельствовать о высоком нуклеосомном потенциале нуклеотидных последовательностей этих регуляторных районов, в отличие от промоторов генов “домашнего хозяйства”, имеющих наиболее низкие значения функции распознавания. Полученный результат отражает функциональные особенности анализируемых последовательностей. Очевидно, что неконститутивные регуляторные районы, какими являются энхансеры LCR, тканеспецифичные промоторы и большая часть классических энхансеров, в отличие от промоторов генов “домашнего хозяйства”, должны иметь достаточно плотную упаковку хроматина, на фоне которой могут происходить события, обеспечивающие тонкую регуляцию транскрипции. В то же время, нельзя отрицать существования индивидуальных особенностей нуклеосомной упаковки отдельных LCR и их энхансерных элементов. Также исследован нуклеосомный потенциал для повторяющихся последовательностей генома. Нуклеосомный потенциал диспергированных повторов близок к таковому интронов и сайтов позиционирования нуклеосом (Levitsky et al., 2001б). Действительно, с учетом огромного числа копий диспергированных повторов в геномах наличие у них сильного антинуклеосомного потенциала создавало бы существенные препятствия дня нуклеосомной организации ДНК. Известно, что конформационные и физико-химические свойства двойной спирали ДНК зависят от её динуклеотидного контекста. Ранее авторами была изучена тонкая структура профиля энергии жёсткости изгиба нуклеосомной ДНК, а также были изучены различные конформационные и физико-химические свойства ДНК, связанные с предпочтительным формированием нуклеосомных сайтов (Levitsky et al., 1999). Далее была создана пилотная версия программы распознавания нуклеосомных сайтов - программа построения нуклеосомного потенциала. В настоящее время эта программа доступна по сети Интернет через молекулярно-биологический сервер Института Цитологии и Генетики СО РАН. В ходе разработки метода вычисления нуклеосомного потенциала получено разбиение нуклеосомного сайта на участки, характеризующееся более гомогенным динуклеотидным контекстом по сравнению с контекстом района всего сайта. Это разбиение было использовано для выявления наиболее значимых конформационных и физико-химических свойств ДНК в 38 пределах локальных участков нуклеосомной ДНК. Выявлены следующие наиболее значимые контекстно-зависимые конформационные и физико-химические свойства ДНК для локальных участков сайтов формирования нуклеосом: "вероятность контакта малой бороздки ДНК с нуклеосомным кором", “угол спирального вращения твист” и "угол раскрытия пары оснований вдоль её короткой оси для ДНК-белковых комплексов". Таким образом показано, что для нуклеосомной ДНК характерно наличие сложного конформационного кода. В свою очередь, наличие заданных конформационных особенностей ДНК может определять способность формирования нуклеосом в определённых позициях. Полученные результаты находятся в хорошем соответствии с ранее полученным результатами анализа конформационных и физикохимических свойств нуклеосомной ДНК. Левицкий В.Г., Катохин А.В. (ИЦиГ СО РАН) Исследование структуры промоторов, конформационных и физико-химических свойств их нуклеотидных последовательностей Развит предложенный ранее в рамках Интеграционного проекта метод распознавания промоторов РНК-полимеразы II, основанный на разбиении промоторов на локальные участки и учёте распределения динуклеотидных частот в пределах этих участков (Levitsky et al., 2000, Левицкий и Катохин, 2001). Для совершенствования метода использован генетический алгоритм для поиска разбиения промоторов на локальные участки. Разработаны программы распознавания ТАТА-содержащих и ТАТА-несодержащих промоторов Drosophila melanogaster и человека, а также ряда групп промоторов тканеспецифичных и индуцибельных генов эукариот. На основе предложенного метода разработаны интернет-доступные программы для распознавания промоторов указанных типов. Предложен также метод выявления промоторов с заданным уровнем значимости, для которого осуществлено преобразование функции распознавания промоторов. Таким образом, представляется возможным оценить достоверность каждого предсказания промотора. Рис. Интерфейс программы предсказания промоторов. Выдача результатов для промоторов гена bilirubin UDP-glucronosyltrasferase 1-1 (UGT1A1) gene, AC AF352795 Было проведено исследование конформационных и физико-химических свойств ДНК в локальных участках ТАТА-содержащих промоторов (Левицкий и Катохин, 2001). Исследование проводилось с использованием того же подхода, который применялся для изучения конформационных и физико-химических свойств ДНК нуклеосомных сайтов. В ТАТА-содержащих промоторах при переходе от ТАТА-боксов к их G/C-богатым флангам показано резкое изменение величин ряда конформационных и физико-химических свойств 39 ДНК, таких как “ширина малой бороздки”, “гибкость в сторону малой бороздки”, “гибкость в сторону большой бороздки”. Полученный результат согласуются с ранними исследованиями конформационных и физико-химических свойств района ТАТА-бокса. В частности, известно, что взаимодействие ТВР (ТАТА-бокс связывающего белка) с ДНК происходит по малой бороздке, которая для АТ-богатых динуклеотидных пар шире, чем для GC-богатых: наибольшей шириной малой бороздки характеризуется динуклеотид ТА, а наименьшей динуклеотиды CC и GG. В связи с этим можно отметить, что среди наиболее значимых в районе ТАТА-бокса оказались параметры, связанные с малой бороздкой ДНК. Также следует отметить хорошее соответствие полученных результатов с исследованием наиболее значимых конформационных и физико-химических свойств района ТАТА-бокса. Выявлены также особенности конформационных и физико-химических свойств ДНК DPE элемента ТАТА-несодержащих промоторов. В отличие от ТАТА-содержащих промоторов, в которых наиболее значимые корреляции со свойствами ДНК наблюдались в области ТАТАбокса и его GC-богатых флангов, для ТАТА-несодержащих промоторов типа обнаружены значимые корреляции со свойствами ДНК ниже старта транскрипции (свойства "изменение свободной энергии" и "изменение энтальпии"). Интересно отметить, что в ТАТАнесодержащих промоторах как раз в пределах этого участка располагается DPE элемент (Burke and Kadonaga, 1996), который является функциональным аналогом ТАТА-бокса ТАТАсодержащих промоторов. Полученные данные демонстрируют, что район DPE-элемента ТАТАнесодержащих промоторов действительно обладает заметными особенностями конформационных и физико-химических свойств ДНК. Ощепков Д.Ю., Афонников Д.А., Лаврюшев С.В. ( ИЦиГ СО РАН) Анализ парных корреляций в выборках нуклеотидных последовательностей по величинам их конформационных и физико-химических свойств Для анализа взаимосвязей между особенностями экспрессии генов, элементами коровых промоторов и их контекстными, конформационными и физико-химическими свойствами был впервые предложен метод анализа и выявления корреляций между позициями функциональных сайтов связывания транскрипционных факторов и регуляторных районов генов по контекстно – зависимым конформационным и физико – химическим особенностям ДНК. Проведен анализ корреляционных особенностей конформационных и физико-химических свойств двойной спирали ДНК сайтов связывания топоизомеразы I и сайтов связывания белков теплового шока. Рис. Результаты кластеризации с помощью программы NASCA. 40 Метод для выявления и анализа парных корреляций в выборках нуклеотидных последовательностей по величинам их конформационных и физико-химических свойств был предложен впервые. На его основе впервые разработана Интернет-доступная программа NASCA для построения корреляционной зависимости свойств участков двойной спирали ДНК. Впервые проведено детальное исследование корреляционных особенностей конформационных и физико-химических свойств двойной спирали ДНК некоторых сайтов, таких, как сайты связывания топоизомеразы I и сайтов связывания белков теплового шока. Предложенный метод для выявления и анализа парных корреляций в выборках нуклеотидных последовательностей по величинам их конформационных и физико – химических свойств не имеет аналогов за рубежом. В международных Интернет- ресурсах отсутствуют программы для корреляционного анализа физико-химических и конформационных свойств двойной спирали ДНК. Метод для корреляционного анализа конформационных и физико – химических свойств в выборках нуклеотидных последовательностей учитывает локальные особенности строения функциональных последовательностей. Метод позволяет выявлять участки функциональных последовательностей со взаимозависимыми свойствами двойной спирали ДНК, что может являться следствием компенсаторных замен, одновременно фиксирующихся в парах позиций сайта и приводящих к сохранению некоторых его контекстных, конформационных и физико – химических характеристик. Такая консервативность локальных свойств может являться необходимой для правильного функционирования соответствующей последовательности. Таким образом, наличие корреляций по набору конформационных и физико-химических свойств может являться конформационным сигналом, и анализ этих особенностей необходим для понимания молекулярных механизмов функционирования последовательностей и сайтов. На основе разработанного метода была написана программа NASCA для выявления и анализа парных корреляций в выборках нуклеотидных последовательностей по величинам их конформационных и физико – химических свойств. Программа является Интернет – доступным ресурсом (http://wwwtest.bionet.nsc.ru/mgs/programs/nasca/). Рис. Интерфейс программы NASCA. 41 Загоруйко Н.Г., Пичуева А.Г. (ИМ СО РАН), Кочетов А.В. (ИЦиГ СО РАН) Исследование взаимосвязи между особенностями экспрессии генов, элементами коровых промоторов и их контекстными, конформационными и физико-химическими свойствами Содержательная постановка задачи В работе исследовались данные о функционировании генов дрожжей. В каждом гене выделены 4 района – 5’НТП, PROM, CDS и 3’НТП, которые представлены своими контекстными характеристиками. Собственно контекстные характеристики гена представляют собой простейшие данные о мононуклеотидном составе, соотношении частот некоторых нуклеотидов, отклонениях в частотах динуклеотидов. В соответствие с современными представлениями, некоторые из этих частот коррелируют с маркерами экспрессии. Кроме контекстных характеристик для каждого гена рассматриваются три целевых параметра в виде маркеров уровня экспрессии: CAI - индекс адаптации кодонов; RNA_LEV - средний уровень мРНК на клетку; HALF_TIM - среднее время жизни мРНК в цитоплазме. Некоторые из значений маркеров не известны и пропущены. Всего рассматривается N=171 генов (для 3”НТП их N=42), а число контекстных характеристик каждого из четырёх участков гена равны M=24, M=13, M=20 и M=24, соответственно. Т.о., для всех участков гена и каждого целевого маркера можно рассмотреть 3*4=12 таблиц типа “объект-свойство” размера N*(M+1). Основная задача состоит в том, чтобы выявить закономерности, связывающие контекстные характеристики районов гена с целевыми параметрами, причем районы 5’НТП, PROM, CDS и 3’НТП должны рассматриваться независимо. Другими словами, для каждого района гена в отдельности и всех их вместе нужно научиться предсказывать целевой признак (каждый из трёх маркеров экспрессии) по известным значениям остальных характеристик и выработать стратегию предсказания целевого признака, опираясь на информацию обо всех четырёх районах гена. Интерес представляет также оценка информационного вклада, который вносят те или иные значимые контекстные признаки (частоты моно- и динуклеотидов). Для этого нужно упорядочить признаки по их относительной информативности. Используемые методы решения В реальных таблицах данных имеется избыточность, выражающаяся в том, что многие признаки (столбцы) связаны друг с другом определённой зависимостью, есть в таблицах и объекты (строки), похожие друг на друга по значениям своих характеристик. Для решения такого рода задач используется алгоритм ZET. Алгоритм предназначен для прогнозирования значений пропущенных элементов в таблице (заполнение пробелов) и для редактирования (проверки) всей таблицы или её части. В алгоритме выявляются такие связи и похожести, и на их основе выполняется предсказание искомого значения с высокой точностью. В общих чертах алгоритм работает следующим образом. Пусть дана таблица T, содержащая m строк (объектов) и n столбцов (признаков), в которой пропущен элемент b(ij), стоящий на пересечении i-той строки и j-того столбца. Предварительно проводится нормировка столбцов таблицы исходных данных по дисперсиям. Вычисляется евклидово расстояние от iтой строки до всех строк исходной матрицы и отбирается заданное количество строк, ближайших к i-той строке. В подматрице, состоящей из отобранных строк, столбцы нормируются к интервалу [0, 1], и выбирается заданное количество столбцов, наиболее сильно связанных с j-м столбцом. Связь между столбцами определяется по модулю коэффициента корреляции. По исходной матрице формируется «предсказывающая» подматрица размером t*t, составленная из элементов, находящихся на пересечении i-той и ближайших к ней t строк с j-м и ближайшими к нему t столбцами. Из уравнений линейной регрессии для элемента b(ij) вычисляется «подсказка» b* от строк и столбцов предсказывающей подматрицы. 42 Находится степень v, в которую возводятся коэффициенты компетентности L столбцов (строк) подматрицы при вычислении итогового значения прогнозируемого элемента. Для этого 4 29 11 56 6 34 16 11 поочерёдно предсказываются 2 28 10 46 8 32 6 9 все известные элементы i-той 23 26 8 45 4 32 23 8 строки и j-го столбца при 17 25 2 44 3 31 25 7 различных значениях v из 16 25 5 41 10 30 19 7 заданного диапазона. 14 25 3 41 5 30 15 7 Отыскивается минимум 6 24 12 38 21 27 14 7 функционала ошибки d 13 23 6 38 19 25 10 6 такого предсказания. Если 11 23 14 37 16 25 5 6 найденное значение d 10 22 13 35 2 25 22 5 меньше заданной допустимой 25 21 7 32 9 24 21 5 ошибки предсказания D, то 22 21 9 30 18 23 17 5 значение для пропущенного 19 21 4 30 15 23 13 5 элемента b* вычисляется при 12 21 7 23 11 5 возведении коэффициента 9 21 17 22 2 5 компетентности L в степень 15 20 13 22 24 4 v. Если же d>D, то выдаётся 5 20 12 22 12 4 сообщение о том, что 7 19 20 21 8 4 заполнение пробела с 20 18 14 21 3 4 ошибкой, меньшей D, не 8 18 11 21 20 3 гарантируется. 24 17 18 3 Алгоритм может быть 3 17 9 3 использован и для проверки 18 15 4 2 данных, имеющихся в таблице (режим 21 14 7 1 "редактирования"). Известный элемент таблицы «закрывается», прогнозируется его значение по алгоритму ZET и затем сравнивается результат прогноза с реально имеющимся в таблице значением. По величине различия можно с достаточной степенью уверенности решить вопрос о том, «естественно» ли имеющееся значение для этой таблицы, подчиняется ли оно общим для неё закономерностям, или «чужеродно», а возможно, и ошибочно. Очень часто в случае резкого расхождения исходного и спрогнозированного значений выявляются ошибки в задании информации. Этот режим был использован при решении данной задачи. Если известные значения целевого признака предсказываются с малой ошибкой, то можно говорить о сильной закономерной связи между целевым признаком и контекстными характеристиками. По величине ошибки предсказания для каждого из 171 генов можно судить об информативности системы характеристик для каждого гена в отдельности. Программа ZET выдает информацию о том, какие контекстные характеристики вошли в компетентную подматрицу. Это позволяет видеть, какие именно характеристики наиболее информативны для каждого конкретного гена. Кроме того, по частости вхождения характеристики в состав компетентных подматриц можно судить о средней информативности данной характеристики. частота встречаемости 3 НТП номер характеристики частота встречаемости PROM номер характеристики частота встречаемости CDS номер характеристики частота встречаемости номер характеристики 5 НТП Описание экспериментов и полученных результатов Исходные данные были переведены из формата пакета Statistica в формат таблиц Excel и текстовый формат txt. Для работы с программой ZET были сформированы таблицы размера N*(M+1) типа “объект-свойство” в том формате, который необходимо поддерживать для 43 работы программы ZET. Обработка данных завершена только для первого маркера экспрессии CAI. Программа ZET запускалась в режиме “редактирования”. Размер компетентной подматрицы был принят равным 3*3. Были получены ожидаемые ошибки предсказания значения активности CAI и фактически предсказанные значения программой ZET с использованием контекстных характеристик всех четырех частей гена. Синтез группового решения Как можно синтезировать итоговое значение предсказания по четырем вариантам прогноза? Для ответа на этот вопрос исследовалось четыре стратегии. Первая стратегия состоит в том, что в качестве окончательного прогноза для каждого гена берется один прогноз, сопровождаемый наименьшим значением ожидаемой ошибки. Вторая стратегия основана на усреднении двух прогнозов с наименьшими ожидаемыми ошибками. При этом усреднение производилось с соответствующими значениями ожидаемых ошибок, взятых в качестве весовых коэффициентов. Третья стратегия предусматривает усреднение трех прогнозов, наилучших по ожидаемой ошибке. И, наконец, четвертая стратегия основана на усреднении всех имеющихся прогнозов в данной строке (трех или четырех). Сравнение между стратегиями проводилось по фактически полученной ими ошибке. Как видно из таблицы, наилучшей является третья стратегия. Она дает наибольшее количество (126) хорошо предсказанных значений (с ошибкой 50%), обеспечивает наибольшую корреляцию между предсказанными и фактическими значениями (0,689), допускает наименьшую максимальную ошибку предсказания (515,8) и наименьший средний процент ошибок (48,27). корреляция между истинным и max процент стратегии предсказанным фактического значением отклонения min ож ош 0,552428028 733,2717391 2 min ож ош 0,661891855 568,581825 объект, на к-ом достигается max фактического отклонения 28 = SCCRT1A 28 = SCCRT1A среднее процента фактического отклонения 55,52695095 49,65149256 число элементов, предсказанных с фактической ошибкой до 50 % 117 122 3 min ож ош 0,688799928 515,7702813 28 = SCCRT1A 48,26992679 126 по всем - 3 (4) 0,687253707 515,7702813 28 = SCCRT1A 48,68650706 124 Затем было проведено предсказание активности по трем участкам (5’НТП, CDS, prom) одновременно. Как и ожидалось, результаты этой стратегии оказались лучше, чем любой другой из четырех описанных выше: число элементов, предсказанных с фактической ошибкой до 50%, равно 133, корреляция между предсказанными и фактическими значениями равна 0,666, максимальная ошибка предсказания равна 340,730, и наименьший средний процент ошибок равен 41,47. Оценка информативности характеристик Об относительной информативности отдельных характеристик каждой группы можно судить по количеству их вхождения в компетентные подматрицы в процессе предсказания алгоритмом ZET. Оценить информативность четырех групп признаков можно по тому, для какого количества элементов характеристики данной группы давали прогноз с минимальной ожидаемой ошибкой. При использовании стратегии №1 эти количества были такими: из 171 случаев 33 раза этот минимум доставляли характеристики участка 5'НТП, 87 раз – CDS, 43 раза – PROM и 8 раз – 3'НТП. Однако, с учетом того, что участок 3'НТП был представлен лишь в 42 генах из 171, можно предположить, что при его участии во всех 171 случаях он мог бы выиграть эти соревнования примерно столько же раз, сколько и участок 5'НТП. Если считать, сколько раз каждый участок давал фактическую минимальную ошибку, то получим такие результаты: 5'НТП - 37, CDS - 93, PROM - 33 и 3'НТП - 8. В том и другом случае наилучшие результаты дают характеристики участка CDS, что вполне естественно. Все остальные участки добивались успеха приблизительно в одинаковом количестве случаев. Их суммарный успех сравним с успехом участка CDS. Проведенные эксперименты показывают, что для многих генов имеется существенная зависимость между контекстными признаками всех 4-х участков гена и маркерами его 44 экспрессии. Пользуясь этой зависимостью, можно предсказывать их экспрессию с высокой точностью. Можно выделить группу генов со средней степенью такой зависимости. Можно указать также гены, экспрессия которых очень слабо связана с контекстными признаками. Эти результаты могут быть использованы для планирования исследований по поиску новых, более информативных, характеристик. В дальнейшем планируется провести аналогичные исследования для двух других видов маркеров экспрессии. Вишневский О.В. (ИЦиГ СО РАН) Система поиска вырожденных олигонуклеотидных сигналов ARGO С помощью новой версии системы ARGO (http://wwwmgs.bionet.nsc.ru/mgs/programs/argo/) в составе ССТФ выявлены специфичные квазиинвариантные вырожденные олигонуклеотидные мотивы. Показано высокое качество распознавания ССТФ на основе этих мотивов в сравнении с другими известными методами. С помощью системы ARGO в промоторах генов эндокринной системы, липидного метаболизма, теплового шока., эритроид-специфичных генов выявлены характерные наборы районспецифичных олигонуклеотидных мотивов. Некоторые из них соответствуют ССТФ, описанным в TRRD, а другие, по-видимому, новым, ранее не идентифицированным сайтам. Разработана программа ARGO-Viewer, обеспечивающая высокое качество распознавания указанных выше тканеспецифических промоторов, основанная на учете наличия и локализации выявленных мотивов (http://wwwmgs/mgs/programs/argo/argo_viewer.html). Разработанная нами система ARGO не имеет аналогов за рубежом и реализует принципиально новый подход к исследованию промоторов и сайтов связывания транскрипционных, основанный на выявлении слабо позиционированных и непозиционированных вырожденных олигонуклеотидных мотивов. Система ARGO реализует новый метод нахождения вырожденных значимых район - специфичных мотивов, не требующий предварительного выравнивания промоторов. Программа распознавания эритроидспецифичных промоторов, построенная нами на основе выявленных олигонуклеотидных мотивов, имеет более высокое качество распознавания, чем пять других международно признанных программ распознавания промоторов. Поздняков М.А., Витяев Е.Е. ИЦиГ СО РАН, ИМ СО РАН Разработка методов распознавания сайтов связывания транскрипционных факторов В отчетный период была продолжена разработка метода распознавания сайтов связывания транскрипционных факторов на основе статистических оценок их гомологии с выборками известных сайтов (с предварительным разбиением выборок сайтов на контекстногомогенные классы с использованием методов дискриминантного анализа). Проведена интеграция различных методов распознавания сайтов связывания транскрипционных факторов, разрабатываемых в рамках проекта (на основе конформационных и физико-химических параметров, весовых матриц, гомологии с известными сайтами и т.д.) в единый метод распознавания. Разработан комплексный подход к распознаванию сайтов связывания транскрипционных факторов, основанный на 4 методах распознавания: метода многомерного выравнивания, парного выравнивания с наиболее похожим представителем, весовой матрицы, информационной меры. Метод многомерного выравнивания Показано, что среди рассмотренных методов нет такого, который бы был максимально точным для всех типов 45 сайтов. Таким образом, представляется целесообразным для распознавания сайтов каждого типа иметь возможность выбирать наиболее точный метод распознавания. Предложенный подход позволил снизить ошибки распознавания. Создана программа, реализующая этот подход, доступная через Интернет по адресу http://wwwmgs.bionet.nsc.ru/mgs/programs/multalig/, предназначенная для поиска потенциальных сайтов в последовательностях, задаваемых пользователем. Последовательности сайтов связывания транскрипционных факторов были извлечены из EMBL на основе информации, содержащейся в базе данных ТРРД. Разработка методов распознавания сайтов связывания транскрипционных факторов (ССТФ) важна для компьютерной аннотации геномной ДНК. К числу распространенных подходов распознавания функциональных сайтов относятся методы консенсуса, весовых матриц, олигонуклеотидных матриц, оценки физико-химических свойств, построения информационной меры, нейронные сети, различные статистические модели и др. Несмотря на разнообразие подходов, проблема построения точных методов распознавания ССТФ в настоящее время не может считаться окончательно решенной. Причина этого состоит в том, что ССТФ характеризуются большим разнообразием контекстных, физико-химических и конформационных особенностей ДНК; большим разнообразием механизмов ДНК-белковых взаимодействий между сайтами и транскрипциоными факторами; специфичностью контекста, окружающего ССТФ, локализованные в различных типах регуляторных районов (промоторах, энхансерах, сайленсерах, локус-контролирующих районах и т.д.); различной степенью консервативности нуклеотидного контекста и т.д. В то же время, каждый из перечисленных выше методов распознавания ССТФ учитывает определенные особенности контекстной или структурной организации сайтов. Типична ситуация, когда один метод дает хорошие результаты распознавания на одной группе сайтов и низкую точность распознавания на другой. Поэтому представляется перспективным применять для распознавания ССТФ большое разнообразие методов, основанных на различных способах учета значимых особенностей их контекстной и структурной организации и использующих различные методы их выявления. Предложен комплексный подход к распознаванию ССТФ, основанный на использовании нескольких, как ранее известных, так и предложенных в настоящей работе методов распознавания: (i) распознавания сайтов с помощью парного выравнивания потенциального сайта с наиболее похожим представителем из известных сайтов, (ii) многомерного выравнивания потенциального сайта с выборкой сайтов, (iii) весовой матрицы, (iv) информационной меры, а также оценивается средняя точность распознавания ССТФ при выборе лучшего метода для каждого типа ССТФ. Для анализа использовалась экспериментальная информация о структурнофункциональной организации ССТФ, накапливаемая в базе данных ТРРД. На ее основе разработаны методы распознавания 30 ССТФ, описанных в ТРРД. Для каждой выборки сайтов создано 4 вышеперечисленных методов распознавания. Методы интегрированы в программу MMSite, доступную по Интернет (http://wwwmgs.bionet.nsc.ru/mgs/programs/multalig/) и позволяющую осуществлять поиск потенциальных сайтов в неизвестных нуклеотидных последовательностях. В статье приведены результаты анализа промоторных районов генов эукариот, описанных в базе данных ТРРД. 1. Формирование выборок последовательностей ССТФ на основе информации из базы данных ТРРД Нуклеотидные последовательности сайтов связывания транскрипционных факторов экстрагировались из базы данных EMBL на оcнове информации о локализации сайтов, представленной в разрабатываемой нами базе данных TRRD, предназначенной для накопления экспериментальных данных о регуляторных районах, контролирующих транскрипцию генов эукариот. Обработка этих данных осуществлялась с помощью созданной нами программы TRRD-Pars. На основе этой информации были сформированы выборки нуклеотидных последовательностей сайтов связывания 30 транскрипционных факторов. Названия рассмотренных в нашей работе транскрипционных факторов приведены в таблице 1. 46 В качестве негативных выборок при построении методов распознавания сайтов использовались случайные последовательности, способы построения которых описаны ниже. 2. Многомерное множественное выравнивание нуклеотидных последовательностей Первый этап в построении методов распознавания ССТФ состоит в их множественном выравнивании. Традиционные подходы к множественному выравниванию основаны на попарном выравнивании всех последовательностей выборки, построении матрицы сходства между ними, и на ее основе - дерева сходства, пошаговом выравнивании последовательностей, порядок которого определяется деревом. Такой подход к множественному выравниванию исходит из предположения о том, что рассматриваемая группа последовательностей произошла в ходе их дивергентной эволюции от общей предковой формы. Справедливость этого положения показана в многочисленных исследованиях для протяженных последовательностей генов или белков. В то же время, эволюция ССТФ, очевидно, отличается от эволюции протяженных последовательностей ДНК: В любом эукариотическом геноме для транскрипционного фактора присутствует огромное количество сайтов его связывания, которые располагаются в 5’- и 3’-районах генов, не имеющих общего эволюционного происхождения. Поэтому для анализа ССТФ представлялось важным разработать метод, независящий от предположений относительно эволюции последовательностей сайтов. Этот разработанный нами метод, основанный на многомерном выравнивании последовательностей, описан ниже. Метод многомерного выравнивания является обобщением традиционного двумерного выравнивания, которое выполняется в 4 шага: (1) Для выравнивания последовательностей длины L1 и L2 строится двумерная матрица S, размером (L1+1)(L2+1). В случае локального выравнивания элементы первого столбца и первой строки матрицы заполняются нулями. (2) Для заполнения внутреннего элемента определяется максимум из трех значений: (i) значение верхнего элемента минус штраф за делецию, (ii) значение левого элемента минус штраф за делецию, (iii) значение диагонального (верхнего левого) элемента плюс величина сходства оснований, согласно (1): S(i - 1, j - 1) s(i, j ) S (i, j ) S(i - 1, j) d S(i, j - 1) d (1) Здесь d– штраф за делецию, s(i,j) – величина сходства основания первой последовательности в позиции i и основания второй последовательности в позиции j. (3) После заполнения всей матрицы S в случае локального выравнивания производится выбор элемента с наибольшим весом S(m1,m2), 0m1L1,0m2L2. (4) Из выбранного элемента S(m1,m2) восстановлением хода выравнивания получают искомое выравнивание. По аналогии с парным выравниванием, многомерное выравнивание также выполняется в 4 шага: (1)Для выравнивания N последовательностей длин L1, L2, … LN строится многомерная матрица S размером (L1+1)(L2+1) …(LN+1). В случае локального выравнивания все элементы, расположенные на гранях матрицы, заполняются нулями. (2)Для заполнения внутреннего элемента матрицы рассматриваются соседние элементы, число которых равно 2N-1 (поскольку в колонке выравнивания может быть от 0 до N-1 делеций) и определяется максимум из 2N-1 значений, вычисляемых аналогично двумерному случаю. (3)В случае локального выравнивания в матрице S производится выбор элемента с наибольшим весом S(m1,m2,…mN), 0m1L1,0m2L2,….,0mNLN, согласно (2) 47 S(m 1 , m 2 , m N ) max i1 L1, i2 L2, .. iN LN (S(i 1 , i 2 , i N )) (2) (4)Из выбранного элемента S(m1,m2,…mN) восстановлением хода выравнивания получаем искомое выравнивание. Разработанная нами программа многомерного множественного выравнивания MMSite запрашивает параметр n – число последовательностей, которые нужно выравнивать одновременно (1nN, где N – число всех сайтов). Если n<N, то выравнивание производится пошаговым образом, и на каждом шаге производится многомерное выравнивание n из N последовательностей. Таким образом, программа MMSite может реализовать как режим обычного множественного выравнивания, так и многомерного. На основе полученных многомерных выравниваний строились методы распознавания ССТФ. 3. Построение методов распознавания ССТФ Для распознавания ССТФ применялись 4 методов: (i) есовая матрица, (ii) информационная мера, (iii) распознавание по выборке»; (iv) распознавание по представителю. Методы (1) – (2) хорошо известны. Методы (3) и (4) применяются нами впервые. В случае метода (3) осуществляется выравнивания потенциального сайта с выборкой выравненных реальных сайтов, а в случае (4) проводится выравнивание потенциального сайта с каждым из реальных сайтов с последующим выбором лучшего из этих выравниваний. Построение решающего правила для всех перечисленных выше методов было проведено одним и тем же способом. Для примера, рассмотрим процедуру построения решающего правила для распознавания ССТФ с помощью многомерного выравнивания. Обозначим выборку реальных сайтов, содержащую N сайтов, как QN. Из исходной выборки QN, исключался один сайт, который обозначим Rsite. Соответственно, после исключения одного сайта, выборку оставшихся сайтов обозначим QN-1. Для сайта Rsite определялся его вес W(Rsite). Для этого проводится выравнивание сайта Rsite с выборкой QN-1. Вес W(Rsite) определялся по формуле (2). Таким образом, вес W(Rsite) отражает сходство между последовательностью Rsite и выборкой сайтов согласно процедуре многомерного множественного выравнивания. Поочередно, исключая из выборки QN каждый сайт Rsite , получаем распределение веса W(Rsite). Кроме того, строится распределение веса W(RRnd) для случайных последовательностей. Для этого из выборки QN по очереди выбирается одна последовательность Rsite. На ее основе генерируется случайная последовательность RRnd. Производится выравнивание последовательности RRnd с выборкой QN-1. В качестве веса W(RRnd) рассматривается вес этого выравнивания, определенный в соответствии с (2). Таким образом, вес W(RRnd) отражает сходство между случайной последовательностью RRnd и выборкой сайтов согласно процедуре многомерного множественного выравнивания. Для распределений Wsite и Wrnd находили такое пороговое значение веса W0, при котором ожидаемые ошибки распознавания равны, как показано на Рис. 1.21. Рис. 1.21. Схема распределений весов реальных сайтов и случайных последовательностей. 48 Рассмотрим теперь последовательность Х, для которой должен быть решен вопрос о том, является ли она сайтом того типа, который представлен выборкой Q. Построим распределение WX веса последовательности Х. Для этого будем исключать поочередно из выборки QN каждую из последовательностей и будем выравнивать получившиеся выборки QN-1 с последовательностью X. Как и ранее, вес выравнивания WX вычисляется согласно (2). Для полученного распределения Wx получаем среднее значение Wxmean. Используем следующее решающее правило для распознавания сайта: Если Wxmean > W0, то Х-потенциальный сайт; в противном случае Х – несайт. Аналогичным образом строились такие методы распознавания ССТФ, как весовая матрица и информационная мера. По описанной выше выборке QN-1 строилась матрица P относительных частот оснований. Затем проводилось выравнивание распознаваемой последовательности X с выборкой QN-1. Используя это выравнивание и матрицу P, находили веса последовательности X по формулам 3, и 4 для весовой матрицы и информационной меры, соответственно: L W ln( P (ai )) (3) i 1 L W P(ai ) ln( P(ai )) (4) i 1 Здесь L – длина сайта, ai – основание, расположенное в i-й позиции последовательности X, P(ai) – значение элемента матрицы относительных частот P в позиции i для основания ai. 4. Метод поиска потенциальных ССТФ На основе 4 описанных выше методов распознавания разработана программа поиска потенциальных ССТФ в протяженных нуклеотидных последовательностях MMSite. Пользователь задает исследуемую последовательность и имя транскрипционного фактора, сайты связывания которого распознаются в этой последовательности. Программа выдает результаты распознавания в текстовом виде. Распознавание ССТФ, описанных в ТРРД Ошибки первого и второго рода созданных нами методов распознавания сайтов связывания 30 транскрипционных факторов, полученные на контрольных выборках сайтов и случайных последовательностей, не использовавшихся в обучении, приведены в Таблице 1.1. Ошибка первого рода Е1 характеризует долю сайтов, которые не были распознаны, из контрольной выборки реальных ССТФ, согласно (5): E1 n site N site (5) Здесь Nsite(-) - количество реальных сайтов из контрольной выборки, распознанных как не-сайты, N site – количество сайтов в контрольной выборке. Ошибка второго рода Е2 характеризует долю случайных последовательностей распознанных как сайты (из контрольной выборки случайных последовательностей), согласно (6): E2 nrnd N rnd (6) Здесь Nrnd+ - количество случайных последовательностей из контрольной выборки, распознанных как сайты, Nrnd – размер контрольной выборки случайных последовательностей. Для каждого сайта в таблице 1 приведены ошибки первого и второго рода, полученные при его распознавании с помощью каждого из 4-х рассмотренных методов. 49 Таблица 1. Характеристики транскрипционных факторов Фактор 4-х методов M1 M2 M3 M4 E2min E1 E2 E1 E2 E1 E2 E1 E2 25 29 0 52 0 19 25 17 0 распознавания сайтов M(E2min) E2min связывания M(E2min) c-fos_cM1 4 M1 jun_heterodi mers c-myc 0 3 0 21 25 6 0 32 0 M1 2 M1 can 0 8 0 8 0 13 0 18 0 M1 5 M1 cdp 0 42 0 4 33 27 33 27 0 M1 4 M2 ciiib1 0 11 0 11 0 12 0 12 0 M1 11 M1 c_ebp_delta 0 12 0 12 0 12 0 29 0 M1 12 M1 e2f-1_dp-1 0 4 0 14 4 2 0 28 0 M1 4 M1 ... ... ... ... ... ... ... ... ... ... ... ... ... ttf-1 0 9 9 55 27 7 0 78 0 M1 7 M3 usf 0 11 0 15 5 1 0 24 0 M1 1 M3 xhsf1 0 0 0 0 0 28 0 13 0 M1 0 M1 Средняя 4 13 3 21 13 15 11 30 2 6 ошибка Примечание. Данные в таблице приведены не полностью, пропуски обозначены многоточиями. E1 – ошибка первого рода на контроле в процентах E2 – ошибка второго рода на контроле в процентах M1 – метод многомерного выравнивания M2 – метод выравнивания с наиболее похожим представителем M3 – весовая матрица M1 – информационная мера Для каждого сайта в таблице 1 приведены ошибки первого и второго рода, полученные при его распознавании с помощью каждого из 4-х рассмотренных методов. Можно видеть, что для большинства сайтов различные методы характеризуются различными ошибками распознавания. Например, для сайтов связывания фактора Usf метод многомерного выравнивания имеет на контроле ошибку первого второго рода 0% и 11%, метод выравнивания с наиболее похожим представителем 0% и 15%, весовая матрица – 5% и 1%, информационная мера – 0% и 24%. В последних 4-х колонках таблицы для каждого сайта указаны метод с наименьшей ошибкой первого и второго рода соответственно М(E1min) и M(E2min), а также значения этих ошибок E1min и E2min. Например, для сайтов связывания фактора Cdp наименьшую ошибку распознавания первого рода обеспечивает метод М1 (многомерное выравнивание), а наименьшую ошибку распознавания второго рода обеспечивает метод М2 (весовая матрица). Можно также видеть, что среди рассмотренных нами методов нет такого, который бы обеспечивал наименьшую ошибку первого или второго рода E1min и E2min для всех рассмотренных ССТФ. Например, метод М1 (многомерное выравнивание) дает минимальные ошибки E1 для сайтов связывания факторов ap-4, c-myc, cdp, e2f-1, тогда как для сайтов связывания фактора c-ebp-delta наименьшую ошибку первого рода обеспечивает метод весовой матрицы. В нижней строке таблицы 1 приведены ошибки E1 и E2, усредненные по всем исследованным ССТФ. Можно видеть, что средние ошибки первого и второго рода различны для разных методов распознавания. По возрастанию средней ошибки первого рода методы можно расположить следующим образом: выравнивание с наиболее похожим представителем (5%), многомерное выравнивание (7%), информационная мера (12%), весовая матрица (21%). По возрастанию средней ошибки второго рода методы можно расположить следующим образом: многомерное выравнивание (12%), весовая матрица (23%), выравнивание с наиболее похожим представителем (25%), информационная мера (36%). На основе полученных результатов может быть рекомендована следующая стратегия распознавания ССТФ в неизвестных последовательностях. При поиске конкретного сайта 50 рекомендуется выбирать метод, обеспечивающий минимальную ошибку первого или второго рода (E1min или E2min), в зависимости от конкретной задачи, которую решает молекулярный биолог. Например, при аннотации длинных геномных последовательностей желательно использовать метод с минимальной ошибкой второго рода E2min (для того, чтобы избежать предсказания большого количества ложных сайтов). В то же время, если необходимо получить максимальное количество информации о потенциальных сайтах связывания транскрипционного фактора данного типа в короткой последовательности, целесообразно применять метод с минимальной ошибкой первого рода E1min (для того, чтобы избежать возможной потери реальных сайтов). Например, для поиска потенциальных сайтов связывания фактора e2f-1 с минимальной ошибкой первого рода нужно использовать метод многомерного выравнивания или выравнивания с наиболее похожим представителем, тогда как для поиска с минимальной ошибкой второго рода нужно применять метод весовой матрицы. Если необходимо в одной нуклеотидной последовательности распознавать ССТФ разных типов одновременно с минимальной ошибкой первого рода, рекомендуется использовать набор методов, приведенных в таблице 1.1 в колонке М(E1min). Можно видеть, что при таком подходе средняя ошибка первого рода E1min составляет 3%, что существенно ниже ошибки E1min каждого из методов по отдельности. Тот же самый подход может быть использован при поиске множества ССТФ с минимальной ошибкой E2 min: в этом случае рекомендуется использовать множество методов, приведенных в таблице 1.1 в колонке М(E2min). При таком подходе средняя ошибка второго рода E2min составляет 8%, что также существенно ниже ошибки E2min каждого из методов по отдельности. Распределение потенциальных ССТФ вдоль промоторов С помощью разработанных методов распознавания ССТФ мы исследовали промоторы генов в интервале –300, +200 относительно старта транскрипции. Всего было проанализировано 516 промоторов в которых распознавались 30 типов ССТФ методом многомерного выравнивания. Результаты анализа приведены на Рис. 1.22. Распределение аннотированных в ТРРД ССТФ в промоторных районах представлено на Рис. 1.23. Рис. 1.22. Распределение ССТФ, предсказанных методом многомерного выравнивания. Распределение получено для промоторных районов генов эукариот, с позициями -300, +200 относительно точки инициации транскрипции. По оси X отложены позиции промоторного района относительно точки инициации транскрипции (значение 1 по оси X). По оси Y отложена частота встречаемости предсказанных ССТФ в пересчете на одну последовательность промоторного района. Выборка промоторных районов создана на основании информации в TRRD и состоит из 516 последовательностей. 51 Рис. 1.23. Распределение реальных ССТФ в промоторных районах генов эукариот с позициями -300, +200 относительно точки инициации транскрипции (на основе информации из базы TRRD). По оси X отложены позиции промоторного района относительно точки инициации транскрипции (значение 1 по оси X). По оси Y отложена частота встречаемости аннотированных в TRRD ССТФ в пересчете на одну последовательность промоторного района. Выборка промоторных районов (516 последовательностей) создана на основании информации в TRRD. Из рисунков можно видеть, что распределение, потенциальных сайтов, предсказанных методом взвешенной информации, и распределение аннотированных сайтов качественно похожи друг на друга в районе –300 –-1 и существенно отличаются в районе +1 +200. относительно старта транскрипции. Сходство этих распределений выше старта транскрипции говорит в пользу точности разработанных нами методов распознавания ССТФ, которые хорошо предсказывают аннотированные ССТФ. В то же время, аннотированных ССТФ значительно меньше ниже старта транскрипции, чем этого можно ожидать из распределения потенциальных сайтов. Можно предполагать, что в генах эукариот ниже старта транскрипции существует большое число малоизученных ССТФ. Следовательно, перспективно изучать район ниже старта транскрипции экспериментальными методами и искать в нем сайты связывания транскрипционных факторов. Результаты исследования сайтов Одна из проблем, возникающих при построении методов распознавания ССТФ – быстрое появление новых экспериментальных данных о последовательностях сайтов и их локализации в геномной ДНК. Поэтому возникает необходимость создания «технологической линии», включающей аннотацию научной литературы, содержащей информацию о ССТФ, ввод этой информации в компьютерные базы данных, формирование выборок сайтов и их последующий анализ с целью построения методов распознавания. Итогом будет накопление созданных методов в компьютерной базе знаний. Основным источником информации о сайтах и регуляторных районах, контролирующих транскрипцию генов эукариот, является постоянно пополняемая база данных ТРРД. В ней содержится основанная на экспериментальных данных информация о стартах транскрипции генов эукариот, о расположении регуляторных районов (промоторов, энхансеров, сайленсеров) относительно старта транскрипции, а также об относительных позициях ССТФ и ссылки на соответствующие последовательности генов из EMBL. Обработка этих данных осуществляется с помощью программы TRRD-Pars, позволяющей экстрагировать последовательности регуляторных ССТФ из EMBL. На основе формируемых выборок последовательностей строится набор методов распознавания ССТФ: (i) многомерного выравнивания; (ii) выравнивания с наиболее похожим представителем; (iii) весовая матрица, (iv) информационная мера. Метод многомерного выравнивания показал в среднем наиболее низкую ошибку первого рода на контроле. Как показывают полученные нами результаты, использование множества методов для распознавания одного и того же ССТФ, позволяет уменьшать ошибки распознавания первого и второго рода. 52