ОСНОВНЫЕ РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ по Интеграционному проекту СО РАН "Моделирование фундаментальных генетических процессов и систем" в 2001 году В 2001 году работа по проекту осуществлялась в рамках поставленных ранее задач. Проведены исследования по следующим направлениям. 1. Компьютерный анализ и моделирование структурнофункциональной организации ДНК (ИЦиГ СО РАН, ИМ СО РАН, ИВМиМГ СО РАН, ИВТ СО РАН) Цель работы - изучение фундаментальных закономерностей геномной ДНК, изучение природы кодов, определяющих взаимосвязь между последовательностями геномной ДНК и выполняемыми ими функциями, моделирование и распознавание регуляторных районов, контролирующих функцию геномов, исследование нуклеосомной организации ДНК, поддержка и пополнение баз данных и знаний по структурно-функциональной организации ДНК. В ходе исследований по данному направлению получены следующие результаты. Ананько Е.А., Игнатьева Е.В., Подколодная О.А., Степаненко И.Л., Проскура А.Л. Недосекина Е.А. (ИЦиГ СО РАН), Подколодный Н.Л. (ИВМиМГ СО РАН) Развитие Интернет доступной базы данных TRRD (Transcription Regulatory Regions Database), предназначенной для накопления экспериментальной информации по структурнофункциональной организации регуляторных областей эукариотических генов В 2001 году создан новый релиз ТРРД 6.0, который включает экспериментальную информацию о структурно-функциональной организации районов геномной ДНК, вовлеченных в регуляцию транскрипции. Новая версия ТРРД 6.0 доступна по адресу: http://www.bionet.nsc.ru/trrd/. В отличие от выпуска 5.0, включавшего 6 баз, данный выпуск TRRD содержит 7 баз данных: TRRDGENES, TRRDUNITS, TRRDSITES, TRRDEXP, TRRDFACTORS, TRRDBIB, TRRDLCR. Новой является база TRRDLCR, содержащая информацию о локус-контролирующих районах (LCR) генов. В течение 2001 года в рамках проекта было аннотировано 1097 статей, что существенно превышает количество, заявленное в проекте на отчетный период. На основе аннотирования этих статей осуществлен ввод в базу данных TRRD новой информации о 1672 сайтах связывания транскрипционных факторов, 2019 паттернах экспрессии генов. При этом введена информация о регуляции новых 299 генов. Версия базы данных ТРРД 6.0 содержит описание 1300 генов, 1967 регуляторных единиц, 6250 сайтов связывания транскрипционных факторов и 6371 паттернах экспрессии генов. Информация получена при аннотировании 4426 научных статей. Объем информации в TRRD за отчетный период вырос более чем на 30 процентов. В том числе, в TRRDGENES на 30%, в TRRDUNITS на 36%, в TRRDBIB на 33%, в TRRDEXP на 46%. 8 Рис. 1.1. Объект исследования - общая модель регуляции транскрипции генов эукариот. Для представления новых типов информации, важных для описания структурнофункциональных особенностей сайтов связывания транскрипционных факторов, был расширен формат базы данных в версии TRRD 6.0. В частности, введены новые поля в базе TRRDSITES: -IP (important positions); -SC (sequence contradiction); -PC (positions contradiction); В поле IP (important positions), представляется информация о нуклеотидах сайта связывания транскрипционного фактора, важных для его функционирования. Поле заполняется на основании экспериментов с временной трансфекцией, EMSA с мутированными и нормальным фрагментами ДНК исследуемого гена, а также экспериментов по интерференции паттернов метилирования и связывания транскрипционного фактора с фрагментом ДНК. Поле SC (sequence contradiction) заполняется в случае, если при аннотировании обнаруживается противоречие между последовательностью сайта, представленной в статье и соответствующими данными, приведенными в базах данных EMBL/GenBank, которые приводятся в поле SQ. В таком случае последовательность из статьи вносится в поле SC. Поле PC (positions contradiction) служит для представления в базе данных TRRD авторских вариантов позиций сайтов связывания транскрипционных факторов, полученных при аннотировании научных статей, если они отличаются от вариантов, предоставленных в EMBL. Была продолжена работа по развитию системы ввода информации в базу данных TRRD, синтаксического и семантического контроля введенной информации. В процессе этой работы увеличено количество контролируемых словарей и существенно увеличено наполнение уже существующих. Значительно расширены тезаурусы в базе данных TRRD. Тезаурусы, содержащие информацию о тканях и органах организмов, гены которых представлены в TRRD, доступны для пользователей сети Интернет по адресу: http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/thesaurus/. Начата работа по созданию методов классификации транскрипционных факторов. На первом этапе этой работы осуществлено создание словаря синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD. Была продолжена работа по созданию средств, облегчающих пользователю работу с базой TRRD. В настоящее время обеспечены альтернативные варианты поиска информации в TRRD. Во-первых, стандартный поиск, обеспечивающийся системой SRS. Во-вторых, поиск по имени гена и виду организма с помощью специального браузера, который доступен по адресу: (http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/browse.shtml). И, наконец, поиск генов по особенностям их экспрессии с использованием специально созданной поисковой системы, основанной на использовании тезаурусов и иерархически организованных словарей тканей, органов клеток и клеточных линий, а так же словарей 9 синонимов. Эта система позволяет делать запросы к SRS-версии TRRD по введенному слову и по всем связанным с ним словам (дочерним по отношению к слову запроса) в соответствующем словаре, а также по всем синонимам одновременно. При этом автоматически производится линковка двух SRS-баз TRRDEXP4 и TRRDGENES4. Существенно облегчает работу пользователя то, что в результате такого запроса он получает список генов, представленных в базе TRRD с указанием их синонимических названий и вида организма, а не просто паттернов экспрессии, как при работе обычной поисковой системы SRS. Пользователям предоставляется возможность поиска и анализа последовательности ДНК на основе информации, содержащейся в TRRD с помощью следующих специальных программных средств: - программа BinomSite, обеспечивающая поиск в анализируемой последовательности ДНК областей, гомологичных сайтам связывания транскрипционных факторов, представленных в базе данных TRRD (http://wwwmgs.bionet.nsc.ru/mgs/programs/mmsite/); - программа BLAST, обеспечивающая поиск в базе TRRDUNITS последовательностей, гомологичных анализируемой (http://wwwmgs.bionet.nsc.ru/mgs/systems/fastprot/units_blast.html) Была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов генов. В текущей версии программы TRRD Viewer применен новый формат представления данных, что обеспечивает более высокую скорость загрузки и повышенную производительность графических функций в сравнении с предыдущей версией программы. Информация представляется в более удобном и корректном виде, легче обнаруживаются ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux. Создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRDSITES по последовательностям, представленным в базе данных EMBL. В результате работы этой системы в базу ТРРД могут вводиться как авторские варианты структуры и последовательности регуляторных районов, полученные при аннотировании научных статей, так и варианты, привязанные к последовательности, соответствующей регуляторной области, представленной в базе данных EMBL. Входящие в систему программы выполняют следующие функции: - осуществляют семантический анализ описания структуры регуляторных районов и их последовательностей в базе данных TRRD; - производят сопоставление информации о последовательностях, содержащихся в базе данных TRRD, с соответствующей информацией, представленной в базе данных EMBL; - оценивают степень соответствия информации, представленной в TRRD и EMBL; - осуществляют принятие решений по поиску вариантов привязки данных, представленных в TRRD, полученных путем аннотирования публикаций к последовательностям из EMBL. Еще одной функцией этой системы является автоматическая генерация блока полей с нуклеотидными последовательностями регуляторной единицы в базе TRRDUNITS на основе информации из баз TRRD и EMBL/GenBank. Разработано онтологическое описание понятий, информация о которых накапливается в базе TRRD. Создано метаописание данных, представленных в TRRD в формате UML с использованием Rational Rose/2000. Предполагается в дальнейшем использовать это описание для интеграции в единой объектной среде на основе онтологии регуляции транскрипции эукариотических генов и технологий XML и CORBA. Создана программа автоматического аннотирования (разметка структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточках EMBL. Cоздана реляционная версия базы данных TRRD, которая содержит 102 таблицы (52 информационных и 50 таблиц связей). Схема данных реляционной версии TRRD доступна по адресу: http://www.bionet.nsc.ru/trrd/RelScheme/ 10 Реляционная версия базы данных TRRD реализована в среде ORACLE8i. Разработан wrapper для преобразования данных из флэт файла TRRD в формат XML. Разработаны программные средства для загрузки XML файла базы TRRD в реляционные таблицы. Разработан интерфейс пользователя для выполнения удаленных запросов к реляционной версии базы данных TRRD, ориентированный на решение конкретных задач биоинформатики, в частности, создания выборок последовательностей сайтов связывания транскрипционных факторов и протяженных регуляторных районов. Sequence DNA sequence Nucleotide +dna_sequences +chromosome n +dna Chromosome Genome DNA n telomere GeneCluster Centromere non-coding DNA Gene DNA structure Spacer A-DNA Heterochromatin Terminator sequence Chromatin Repeats B-DNA Z-DNA Transcription start site Exon Intron Gene Regulatory region Euchromatin H-DNA EST nucleosome SNP chromosomal proteins Transcription factor binding site Regulatory unit MAR LCR histone Nucleosomal DNA Histone H1 core Nucleosomal DNA Linker Nucleosomal DNA Enhancer Promoter Repressor element Silencer Insulator CorePromoter Initiator TATA box Схема. Фрагмент онтологического описания структур в разделе ДНК Степень новизны полученных результатов База данных TRRD является уникальным информационным ресурсом, не имеющим в мире аналогов, который содержит информацию о структурно-функциональной организации протяженных транскрипционных регуляторных областей генов эукариот и экспрессии этих генов. Результатом работы над проектом в 2001 году явилось следующее: -создан новый релиз базы данных TRRD (TRRD 6.0); -введен большой объем новой уникальной информации в базу данных TRRD; -на основе аннотирования новой литература продолжалось пополнение уникальных словарей и тезаурусов в базе данных TRRD; -создана усовершенствованная версия программы ввода данных и заполнения базы TRRD; -создан словарь синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD; 11 -создана специальная поисковая система, для поиска генов в базе данных TRRD по особенностям их экспрессии; На основе правил, подготовленных экспертами, создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRD по последовательностям, представленным в базе данных EMBL. Такого рода семантическая интеграция сделана впервые. - Создана оригинальная программа для графического представления информации, содержащейся в TRRD – TRRD Viewer, которая позволяет представлять информацию о регуляторных районах генов и входящих в них сайтах, описанных в TRRD, в форме иерархически организованной карты с возможностью масштабирования изображения. - впервые создана реляционная версия базы данных TRRD в среде ORACLE8i. За рубежом информация по различным аспектам регуляции транскрипции генов эукариот представлена в ряде молекулярно-биологических информационных ресурсов. В частности, в базе данных EPD представлена данные о стартах транскрипции, тканеспецифичности, индуцибельности и функциональной классификации промоторов генов, в базе TRANSFAC содержатся данные о транскрипционных факторах и их сайтах связывания, база COMPEL содержит информацию о композиционных элементах, в регуляторных районах генов. Однако ни одна из перечисленных зарубежных баз данных не дает иерархического описания структурно-функциональной организации регуляторных районов генов эукариот. Это делает базу данных TRRD уникальной по сравнению с имеющимися зарубежными аналогами. TRRD содержит самую крупную в мире коллекцию аннотированных природных регуляторных районов генов позвоночных, в том числе сайтов связывания транскрипционных факторов. Большое разнообразие типов информации в TRRD, высокая степень их структуризации, быстрые темпы роста объема делают эту базу данных важнейшим и уникальным информационным ресурсом как для функциональной аннотации вновь секвенированных геномных последовательностей человека и других высших организмов, для интерпретации молекулярных механизмов мутационного нарушения функции генов, для разработки стратегии генотерапии, и трансгенеза, а так же для конструирования искусственных систем продуцентов биологически активных веществ. Наконец, наличие данных о паттернах экспрессии генов, и функциональных характеристиках их регуляторных районов и регуляторных элементах, описанных в TRRD (например, сайтах связывания транскрипционных факторов) впервые дает возможность анализа молекулярно-генетических систем организмов на уровне генных сетей. Методы и подходы, использованные в ходе выполнения проекта Для интеграции полнотекстовых (не формализованных или частично формализованных) баз данных нами используется система Sequal Retrieval System (SRS) v.6. Основными достоинствами системы SRS является возможность быстрого прототипирования и погружения в среду SRS разрабатываемых информационных ресурсов, возможность интеграции с другими молекулярно-генетическими базами данных, реализованными под SRS. Система SRS использует для сетевого доступа стандартный CGI интерфейс к WWW серверу. Для описания схемы баз данных, установленных под SRS, использовался объектноориентированный язык Icarus. Использовалась технология создания словарей и тезаурусов, включающих различного вида понятия в области регуляции экспрессии генов и способы использования их для унификации запросов к базе данных. Реляционная версия базы данных TRRD реализована в среде ORACLE8i. В качестве обменного формата использовалось XML представление. Для загрузки данных из флэт файла использовался специально разработанный загрузчик, который предварительно преобразовывал данные в XML формат. TRRDViewer реализован ввиде Java апплета (jdk 1.1.8). Программа синтаксической и семантической проверки базы данных TRRD реализована в среде Visual C++. 12 Доступ к базе данных TRRD и другим информационным ресурсам, созданным в рамках проекта, осуществляется через http сервер (http://www.bionet.nsc.ru/trrd/). Поплавский А.С. (ИЦиГ СО РАН), Подколодный Н.Л. (ИВМиМГ СО РАН) Разработка графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК В рамках проекта была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК. Разработана программа визуализации регуляторных районов из базы данных TRRD, отличающаяся от предыдущей версии TRRD_Viewer быстрой загрузкой и повышенной производительностью графических функций. Также, новый формат данных позволяет отображать информацию в более удобном и корректном виде, легче обнаруживать ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux. Рис. 1.2. Пример визуализации регуляторного района гена бета-глобина мыши (Mus musculus). Разработана программа автоматического аннотирования (разметки структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточке банка данных EMBL. 13