ОНТОЛОГИИ В БИОИНФОРМАТИКЕ Подколодный Н.Л. ИВМиМГ СО РАН ИЦиГ СО РАН Что такое БИОИНФОРМАТИКА? Биоинформатика и вычислительная биология использует методы прикладной математики, статистики, информатики, computer science, искусственного интеллекта, химии и биохимии для решения биологических проблем Роль биоинформатики в постгеномную эру Биоинформатика 90-х Первичные базы данных, содержащие данные по геномике и протеомике. Понимание функций и полезности отдельных генов и белков Биоинформатика сейчас Вторичные базы данных (знаний), аккумулирующие биологические знания. Понимание функций и полезности на уровне молекул, клетки и организма Биоинформатика в будущем Компьютерное представление клетки и организма. Понимание базовых принципов высшей сложности биосистем Биоинформатика сейчас Биоинформатика в будущем Высокопроизводительные экспериментальные установки Много данных, много форматов Microarray Two-Hybrid Mass Spectrometry Genetics Экспрессия генов, взаимодействия, функция, модификация белков … Научные публикации PubMed Извлечение знаний Базы данных Интеграция данных Что надо пользователю? Пользователь хочет найти, идентифицировать, отобрать, получить и использовать данные (часто из разных источников) Собственник / администратор Описать, обеспечить доступ к данным, интегрировать данные Управлять доступом администрировать Полезные свойства службы метаданных Фундаментальные проблемы в интеграции знаний Гетерогенные программные системы hardware platforms Операционные системы Сетевые протоколы Языки программирования & форматы данных Гетерогенная структура и семантика данных Конфликт Конфликт Конфликт Конфликт Конфликт имен измерений представления вычислений уровней описания Онтологии в биоинформатике TAMBIS KEGG BioPAX Дескриптивная логика Решетка понятий и отношений Catalog Тезаурусы: BT/NT, Формальное is-a Parent/Child, Disjointness, фреймы (слоты) неформальное is-A Inverse, Part_of DB Schema RDF(S) Ontylog Термины/ глоссарий Formal instances MeSH, Gene Ontology, UMLS Meta Value Restriction Snomed OWL CYC IEEE SUO Общие логические ограничения фреймы EcoCyc Простые таксономии Развитые онтологии Ontology Dimensions based on McGuinness and Finin Кто цитирует GO? 450 Gene Expression studies Clinical applications Other GO Tools Biological Databases GO Annotation Predictions Data and Text mining OBO Ontologies EST annotation Proteomics studies Protein Annotation GO Consortium Genome Annotation 1063 публикаций GO annotations Comparative genomics and evolutionary analysis из 284 журналов Supporting predictions Network modeling and analysis overviews of GO 0 50 100 150 200 250 300 350 400 450 http://www.geneontology.org/cgi-bin/biblio.cgi 500 EcoCyc онтология Возможности: EcoCyc: Encyclopedia of Escherichia coli K12 – гены и метаболизм Биологи могут отображать структуру хромосом и генов у E.coli описание биохимических реакций описание метаболических путей и генетической регуляции Особенности реализации онтологии: Использование фреймов Обеспечение точных определений при описании понятий и отношений между ними Статическое описание – иерархия задается модельером, а не выводится системой. Развитие: BioCyc, MetaCyc, HumanCyc и т.д. EcoCyc онтология Иерархия наиболее важных EcoCyc классов и их взаимоотношений is_a is_a is_a is_a is_a Foundational Model of Anatomy ontology Включает: 75,000 анатомических классов 130 000 уникальных терминов более 205,000 фреймов и 174 уникальных слотов, которые используется для представления различных типов отношений, атрибутов и атрибутных отношений. Сеть отношений FMA содержит: более 2.5 миллиона экземпляров отношений. cвыше 1,000,000 экземпляров классов около 450,000 связей между классами. BioPAX = Biological Pathway Exchange Language Результатом онтологического анализа предметной области является: (1) словарь терминов, их точных определений и взаимосвязей между ними; (2) описание правил и ограничений, согласно которым на базе введенной терминологии формируются достоверные утверждения, описывающие состояние системы; (3) модель, которая на основе существующих утверждений позволяет сделать соответствующие выводы, позволяющие вносить изменения в систему для повышения эффективности её функционирования. BioPAX Ontology: Top Level Subclass (is_a) Contains (has_a) Pathway Множество или серия взаимодействий, часто формирующих сеть, которую биологи считают полезной сгруппировать вместе по организационным, историческим, биофизическим или другим причинам. Например: Glycolysis, MAPK, Apoptosis Interaction Взаимодействие между двумя или множеством сущностей. Например: protein-protein interaction, biochemical reaction, enzyme catalysis Physical Entity Сущность с физической структурой. Например: Small molecules, Proteins, DNA, RNA BioPAX Ontology: Physical Entities PhysicalEntity is_a is_a is_a Complex Protein is_a RNA is_a DNA Small Molecule BioPAX Ontology: Interactions Interaction is_a Взаимодействие между физическими сущностями Physical Interaction is_a Регуляция или модификация Control is_a Превращение Conversion is_a is_a Catalysis is_a Modulation is_a is_a BiochemicalReaction is_a ComplexAssembly Transport is_a TransportWithBiochemicalReaction utilityClass онтологии BioPAX CML, SMILE, InChI формат Дополнительные характеристики в контексте взаимодействий Gene Network Reverse Engineering Use Case Примеры проектов по развитию онтологий, осуществляющихся в ИЦиГ СО РАН Пример разработки онтологии: генетика развития растений В настоящее время основная масса данных по генетике растений представлена только в виде научных публикаций. Формализация этих данных, накопление в специализированных базах данных и их последующий анализ является важнейшей задачей биоинформатики. Функционирование генов на различных уровнях: мРНК, белок, клетка, ткань, орган, организм. Для разных стадий развития Уровень экспрессии Молекулярная функция Клеточная функция Влияние на ткань Влияние на орган Влияние на организм Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008 AGNS - Arabidopsis GeneNet Supplementary DataBase http://wwwmgs.bionet.nsc.ru/agns База данных по экспрессии генов в норме и при мутациях (Expression DataBase) База данных фенотипических аномалий (Phenotype DataBase) База данных публикаций Стадии развития Морфология (Reference DataBase) Главными особенностями AGNS являются: - слабоструктурированные данные. - многообразие и неоднозначность морфологических понятий. - сложные взаимосвязи морфологических понятий на разных стадиях развития. Проблемы использования таксономии для описания морфогенеза Использование двух несвязанных таксономий с основным отношением «part_of» при дальнейшем анализе данных приводит к неправильным логическим построениям, противоречащим биологии морфогенеза. Например, к утверждению, что растение в разные моменты развития имеет один и тот же набор органов. Развитие Stages < P1 Shoot Apex Stages >= P1 Shoot Apex SAM Leaf Primordium SAM Leaf Primordium Для системных исследований процессов развития необходимо построение терминологического описания морфогенеза, как целостной предметной области, необходимо учесть «динамическую природу» отношения «part_of», так как один анатомический элемент может быть частью другого на одной стадии, но не быть таковым на следующей стадии. Онтология морфогенеза При создании онтологии использовались следующие предикаты: Anatomy_Element1 Development_Stage1 Has_Development_Stage2 (Anatomy_Element x Development_Stage) Before2 (Development_Stage x Development_Stage) Occurs_In2 (Development_Stage x Development_Stage) + axioms: (1) xs( Anatomy _ Element ( x) Has _ Development _ Stage( x, s)) (2) s(Occurs _ In( s, s ) Before ( s, s)) (3) x, s1 , s2 (Has _ Development _ Stage( x, s1 ) & Has _ Development _ Stage( x, s2 ) & Occurs _ In(s1 , s2 )) (4) s1 , s2 ( Before(s1 , s2 ) & Occurs _ In(s1 , s2 )) (5.1) s1 , s 2 , s3 ( Before(s1 , s 2 ) & Before(s 2 , s3 ) Before(s1 , s3 )) (5.2) s1 , s 2 , s3 (Occurs _ In(s1 , s2 ) & Occurs _ In(s2 , s3 ) Occurs _ In(s1 , s3 )) Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008 Онтология морфогенеза как инструмент для формулирования сложных запросов к базе данных Примеры запросов реализованных с использованием онтологии морфогенеза: • • • • • • • S - стадия развития; найти все стадии раньше/позже S A - анатомический элемент, S - его стадия развития; найти элементы, принадлежащие A на стадии S Найти элементы, содержащие A на стадии S Найти анатомические элементы, из которых развивается А Найти анатомические элементы, которые развиваются из А А, B - анатомические элементы; найти стадии, которые претерпевает A, будучи частью B Является ли A частью B на некоторой стадии развития B? (подругому: является ли A частью B когда-либо?) Мутации как причина нарушения развития Типы аномалий в развитии: Остановка в развитии группы клеток (клетки): - терминация развития растения; - пропуск стадии в развитии растения Ускорение развития группы клеток (клетки): - Орган развивается по другому пути (из листа превратился в цветок). - Преждевременное развитие органов на более ранних стадиях Аномалии листа растения: Centric Dentate Filament Lobed Misshapen Narrow Radialized Rounder Stunted Variable Различные типы отношений между аномалиями • <быть одинаковым с> • <быть альтернативным к> • <быть следствием> • <исключаться аномалией> • <быть составной частью аномалии> • <быть противоположной к> Нами сформулировано 21 правило для автоматического установления отношений между двумя заданными аномалиям. Формирование гипотез на основе данных AGNS Сопоставление данных: о нормальном развитии, о фенотипах мутантов, о времени и месте экспрессии генов позволяет выявить: стадию пре-детерминации фенотипической аномалии; анатомический элемент, где эта пре-детерминация происходит; определить роль гена в формировании признака на стадии его пре-детерминации. ANDS: Associative Network Discovery System Основные возможности: Автоматическое извлечение знаний о молекулярно-генетических ассоциациях и взаимодействиях из текстов научных статей и баз данных. Автоматическая реконструкция семантических сетей молекулярно-генетических ассоциаций и взаимодействий в клетке. ANDVisio: приложение для построения ANDCell: База знаний, содержащая факты о молекулярно-генетических ассоциаций и взаимодействий в клетке Типы отношений Direct interaction Catalytic reaction Cleavage Treatment Co-expression Expression regulation Function/activity regulation Degradation/stability regulation Transport/release regulation семантических ассоциативных сетей по запросу пользователя Объекты Proteins Genes Metabolites Pathways Cell components MicroRNAs Cells Organisms Diseases Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A., Ignatieva E.V., Podkolodny N.L., Ivanisenko V.A. DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTION OF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGS OF THE FIFTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp. 15-18. ANDS: Онтология взаимоотношений между объектами Direct interaction Cleavage Upregulation Catalytic reaction Conversion Co-expression Treatment Regulation Function/activity Expression Transport/release Pathways Association Downregulation Degradation/stability Diseases ANDS: Система извлечения и интеграции знаний о молекулярных взаимодействиях в клетке из фактографических и текстовых баз данных Источники данных PubMed PubMed База База патентов патентов Фактографи Фактографи ческие ческие БД БД Реконструкция ассоциативных семантических сетей Экстракция данных Текстовые данные Фактографические данные Извлечение Предсказание Словари Формирование словарей Извлечение информации о молекулярных взаимодействиях и генетической регуляции в клетке Синтаксические и семантические правила Генерация новых знаний Интеграция гетерогенных данных Анализ генных сетей -Топологические измерения -Топологические модели -Кластерный анализ -Поиск структурных мотивов -Анализ путей -Анализ регуляторных циклов Анализ ассоциативных семантических сетей •Статистический анализ •Преобразование сетей •Логический вывод Биологическая интерпретация и генерация гипотез - Выявление новых путей передачи сигналов, регуляторных, транспортных и метаболических путей в клетке. Хранилище данных Анализ противоречий -Выявление молекулярных механизмов патологических процессов -Поиск фармакологических мишеней -выбор генов-кандидатов для генотипирования Методы предсказания молекулярных взаимодействий База знаний Онтология Представление знаний -создания эффективных диагностических систем - идентификация важных для продуктивности сельскохозяйственных культур генов -Анализ и интерпретация результатов высокопроизводительных экспериментальных технологий 3 Функциональная схема программно-информационного комплекса новых знанийOF A Aman E.E., DemenkovРис. P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A., Ignatieva E.V., Podkolodny для N.L., генерации Ivanisenko V.A. DEVELOPMENT COMPUTER SYSTEM FORвTHE AUTOMATED RECONSTRUCTION OF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGS OF THE FIFTH INTERNATIONAL области биоинженерии, биотехнологии, агробиологии и биомедицины. CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp. 15-18. ANDS: Словари названий молекулярно-генетических объектов Protein names 370097 Gene names 2474201 Disease names 46109 Metabolite names 79914 Organism names 428439 MicroRNA names 4515 90 000 the Gene Ontology Pathway names Cell component names Cell names (42864 – GO; 47136 – PubMed) 5249 396841-PubMed ANDS: Статистика по типам взаимодействий association 3423732 activity downregulation 44314 involvement 728947 activity upregulation 40564 interaction 242580 expression downregulation 33680 expression regulation 155835 miRNA regulation 23576 pathway regulation 104983 conversion 23519 transport regulation 64801 activity regulation 16982 pathway upregulation 64701 degradation downregulation 8455 pathway downregulation 64289 degradation upregulation 8265 treatment 51162 coexpression 6617 catalyze 49164 cleavage 2170 expression upregulation 46578 degradation regulation 1026 catalyze modification 430 Total 5206370 ANDS: Text-mining module: relation extraction from text PMID: 11834451 We have reported previously that insulin inhibits the stimulatory effect of high glucose levels on angiotensinogen (ANG) gene expression in rat immortalized renal proximal tubular cells (IRPTCs) via the mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway. Interaction participants: [Glucose]+[mitogen-activated protein kinase signal transduction pathway]->Angiotensinogen glucose Interaction type: expression upregulation ANG mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway Red – object names Green – organizm name Blue – pathway name Interaction attribute: cell type: immortalized renal proximal tubular cells organism: rat Orange – cell name Magenta – interaction types keywords ANDS: Примеры типов отношений между макромолекулами в ассоциативной семантической сети 1. физические взаимодействия. 2. химические взаимодействия или реакции. •Превращения •каталитические реакции •расщепление 3. регуляторные взаимодействия. •регуляция экспрессии генов •регуляция активности или функции белка, гена, клеточной компоненты или молекулярно-генетического процесса. •регуляция транспорта белков или низкомолекулярных веществ •регуляция стабильности или деградации молекулярных объектов. •регуляция молекулярно-биологических процессов 4. коэкспрессия, то есть одновременная экспрессия нескольких генов, которая была вызвана общими регуляторными механизмами, активизирующими экспрессию генов при меняющихся условиях в клетке. Система реконструкции механизмов регуляции транскрипции Задачи: создание онтологии предметной области (сущности, их взаимоотношения, процессы, их стадии, объекты, их роли в процессах). накопление информации об известных механизмах регуляции транскрипции. выявление групп коэкспрессирующихся генов (со сходной картиной регуляции транскрипции в клетках или тканях на определенной стадии развития). обнаружение закономерностей организации транскрипционных регуляторных районов у групп коэкспрессирующихся генов. реконструкция гипотетических механизмов регуляции транскрипции с учетом: • данных о ролях и структурах регуляторных белков, присутствующих в заданных клетках или тканях на определенной стадии развития. • закономерностях строения регуляторных районов коэкспрессирующихся генов. N.L. Podkolodnyy, S.S.Nechkin, E.V. Ignatieva, E.A. Ananko, O.A. Podkolodnaya БАЗА ДАННЫХ ДЛЯ ИССЛЕДОВАНИЯ ОСОБЕННОСТЕЙ ОРГАНИЗАЦИИ ТРАНСКРИПЦИОННЫХ РЕГУЛЯТОРНЫХ РАЙОНОВ КОЭКСПРЕССИРУЮЩИХСЯ ГРУПП ГЕНОВ // // PROCEEDINGS OF THE SIXTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. 2008 Интеграция гетерогенных источников данных Гены Структурно-функциональная организация районов регуляции транскрипции EntrezGene Полногеномные последовательности EntrezGenome TRRD Entrez Chromosomes Gene ontology GO terms CGAP Уровень экспрессии UniGene Transcription factors Genes Transcription Start Sites Уровни экспрессии Выборки промоторов Tissues Sources of short DNA sequences EMBL/GenBank DNA sequences Система реконструкции механизмов регуляции транскрипции. 4 июля 2008г. Анализ структуры промоторов коэкспрессирующихся генов Пример: Регуляция транскрипции гена интерферона человека. Пошаговая сборка белковых комплексов, включающих хроматин-модифицирующие и базальные транскрипционные факторы на промоторном районе Стадия 1: сборка энхансосомы Участники: Нуклеосома 1 GCN5 Complex ATF2 NF-KB Энхансосома HMGI(Y) IRF1 Нуклеосома 2 •Белки (транскрипционные факторы): ATF2, NF-KB, IRF1, HMGI(Y) •Участок ДНК (энхансер), свободный от нуклеосомной укладки Результат: образуется ДНК-белковый комплекс, способный притягивать мультибелковый комплекс GCN5 Пример: Регуляция транскрипции гена интерферона человека. Стадия 2: Ацетилирование гистонов с участием комплекса GCN5 Участники: Нуклеосома 1 Ac ATF2 NF-KB Энхансосома GCN5 Complex HMGI(Y) IRF1 Нуклеосома 2 CBP •Гистон-ацетилазный комплекс: GCN5 •N - концевые участки гистоновых белков Ac Результат: ДНК-белковый комплекс приобретает конформацию, оптимальную для привлечения белка-коактиватора CBP Пример: Регуляция транскрипции гена интерферона человека. Стадия 3: Привлечение комплекса CBP/ Pol II SWI/SNF Нуклеосома 1 •Комплекс: ДНК / энхансосома ATF2 CBP NF-KB Энхансосома Участники: HMGI(Y) IRF1 Pol II Holoenzyme •Белок-коактиватор: CBP •Белковая машина: холоэнзим, включающая белок Pol II Результат: Создается возможность для привлечения SWI/SNF комплекса Нуклеосома 2 Пример: Регуляция транскрипции гена интерферона человека. Стадия 4: Привлечение комплекса SWI/SNF Участники: Нуклеосома 1 •Хроматин-ремоделирующая белковая машина SWI/SNF. •Комплекс ДНК/энхансосома/ CBP SWI/SNF ATF2 CBP NF-KB Энхансосома HMGI(Y) IRF1 Pol II Holoenzyme SWI/SNF Нуклеосома 2 Результат: Создается возможность для функционирования белковой машины SWI/SNF Пример: Регуляция транскрипции гена интерферона человека. Стадия 5: Ремоделирование хроматина (нуклеосомной укладки) с участием хроматин-ремоделирующей белковой машины SWI/SNF Участники: Нуклеосома 1 Хроматин-ремоделирующая белковая машина SWI/SNF. Нуклеосомы SWI/SNF ATF2 CBP NF-KB Энхансосома Pol II Holoenzyme HMGI(Y) IRF1 SWI/SNF Нуклеосома 2 Результат: Нуклеосомы разрыхляются, TATA бокс становится доступным для взаимодействия с TFIID. Пример: Регуляция транскрипции гена интерферона человека. Стадия 6: Привлечение белка TFIID Участники: Нуклеосома 1 ATF2 •Промотор гена, включающий ТАТА бокс CBP NF-KB Энхансосома HMGI(Y) IRF1 TFIID Нуклеосома 2 Pol II Holoenzyme •Базальный транскрипционный фактор TFIID. Результат: Становится возможным формирование преинициационного комплекса Пример: Регуляция транскрипции гена интерферона человека. Стадия 7: Формирование преинициационного комплекса Участники: Нуклеосома 1 •Комплекс ДНК/белок: ТАТА бокс/ TFIID •Белковая машина: холоэнзим ATF2 CBP NF-KB Энхансосома HMGI(Y) IRF1 TFIID Нуклеосома 2 Результат: Становится возможной инициация транскрипции Пример: Регуляция транскрипции гена интерферона человека. Стадия 8: Инициация транскрипции Участники: •РНК полимераза Pol II •Матричная цепь ДНК Результат: TFIID Синтезируются первые 2-9 нуклеотидов РНК Спасибо за внимание!