Семинар № 5 Биоинформатика • • • • Что такое биоинформатика? Программы и базы данных Аннотация генов Задача выравнивания последовательностей • Филогенетические деревья • Задачи биоинформатики Что такое биоинформатика? Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач (синоним – вычислительная молекулярная биология). Направления: • • • математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика). разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем Что такое биоинформатика? На конец 2011 года число проаннотированных бактериальных геномов – 1826. Нужна автоматизация!!! Программы и базы данных Поиск публикаций: • SCHOLAR – scholar.google.com • PubMed – www.ncbi.nlm.nih.gov/pubmed/ • MOLBIOL – molbiol.ru • Чтение и хранение статей – программа MENDELEY Базы данных и инструменты их анализа: • NCBI – www.ncbi.nlm.nih.gov - все последовательности (США) • EMBL-RBI – www.ebi.ac.uk – все последовательности (Евросоюз) • ExPASy Proteomics Server – au.expasy.org • UniProt – www.uniprot.org • KEGG – Kyoto Encyclopedia of Genes and Genomes (Япония) • Protein Data Bank – www.pdb.org Взаимосвязи метаболитов Анализ генетических последовательностей Основные задачи: •Выравнивание и определение сходства двух последовательностей •Построение множественных выравниваний •Распознавание генов •Предсказание сайтов связывания регуляторных белков •Предсказание вторичной структуры РНК Как определить ген по белку? Для E.coli, чей геном отсеквенирован в 1997 году, до сих пор неизвестны функции 25% найденных генов! Зачем это надо Триклозан – антибактериальный препарат, входящий в мыло «Safeguard», считавшийся универсальным. Его мишенью является белок, закодированный в гене fabI. Этот белок катализирует одну из реакций синтеза жирных кислот – необходимого компонента любой клетки. При этом у животных нет аналога этого белка, поэтому такой препарат безопасен для человека. Компьютерный анализ бактериальных геномов показал, что стрептококки не имеют белка fabI, а его функцию выполняет совсем другой белок fabR. Поэтому триклозан не действует на стрептококки. Аннотация геномов Аннотация генома – предсказание и нахождение участков, кодирующих РНК и / или белки, регуляторных участков, и т.д. Первый геном – фаг ΦX174 (1977 год) Методы аннотации: •Поиск в геноме участков РНК из транскриптома и участков белков из протеома •Сравнение с известными геномами (выравнивание) •Алгоритм GenMark – использование скрытых марковских моделей (HMM) •Поиск регуляторных участков типа промоторов. Генетический код: синонимы TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L L L L I I I M/ start V V V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S S S P P P P T T T T A A A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R R R S S R R G G G G Открытые рамки считывания Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе) Сигналы на границах генов dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG … после выравнивания dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM cons. num. ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG tacataaaggaggtttaaaaat 0000000111111000000001 5755779156663678679890 C белок N трансляция мРНК 5’ 3’ сплайсинг 3’ д транскрипция а д а экзон 5’ интрон пре-мРНК межгенный экзон интрон экзон межгенный ДНК Вычислительная эволюционная биология Задачи: •Изучение эволюции организмов путем анализа изменений в ДНК, а не признаков в строении и физиологии; •Сравнение геномов для изучения механизмов эволюционных событий (дупликация генов, перенос генов, и т.д.); •Построение математических моделей популяций для предсказания поведения системы во времени; •Построение системы отслеживания и анализа публикаций о генетических особенностях большого числа видов. New ATP-dependent transporters + CbiN CbiM Ni2+ Co2+ NikM + NikN + NikL, NikK + NikL Анализ экспрессии генов и белков Измерение активности генов в различные периоды развития организма – многие гены работают только в какой-то определенный период или при определенных условиях. Взаимодействия белок-белок и белок-ДНК Белок-белок Белок-ДНК Сравнительная геномика Сравнительная геномика изучает связь структуры генома и его функций. Метод – поиск схожести и различий в белках, РНК и регуляторных участках у разных организмов. Структурная биология Определение оптимальной вторичной и третичной структуры для белков, РНК, ДНК и их комплексов. Пример: Rosetta@Home — вычисление третичной структуры белков из их аминокислотных последовательностей. Структурная биология Задачи: • определение (предсказание) участков белковой молекулы, важных для той или иной функции данного белка (затем экспериментальная проверка); • сравнительный анализ структур родственных белков, классификация белков на основе их пространственной структуры; • анализ структур комплексов двух или нескольких молекул белка, комплексов молекул белка с другими молекулами; предсказание воздействия молекул химических веществ (в частности, потенциальных лекарств) на молекулы белков; • предсказание структуры белка по структуре белка с похожей последовательностью Структурная биология в фармацевтике Если малая молекула может существенно изменить структуру белка бактерии или вируса, при этом не взаимодействуя с белками человека – то такой белок является потенциальной мишенью, а малая молекула – лекарством. Основные биоинформационные программы •ACT (Artemis Comparison Tool) — геномный анализ •Arlequin — анализ популяционно-генетических данных •BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей •BioNumerics — коммерческий универсальный пакет программ •BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей •ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей … http://ru.wikipedia.org/wiki/Биоинформатика Перспективы