РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ (МСХА имени К. А. ТИМИРЯЗЕВА) ________________________________________________________________________________________________________________________________________________________________________________ СМИРЯЕВ А.В., ПАНКИНА Л.К. ОСНОВЫ БИОИНФОРМАТИКИ МОСКВА, 2013 УДК 002:57.001.573 ББК 32.81:28.0вб С50 Учебное пособие одобрено и рекомендовано методической комиссией агрономического факультета РГАУ-МСХА им. К.А. Тимирязева Протокол № 23 от 17.03.2008 Рецензент – А.А. Миронов доктор биологических наук, профессор; А.Б. Рахманинова, кандидат биологических наук, доцент (факультет биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова) Смиряев А.В., Панкина Л.К. С50 Основы биоинформатики. Учебное Пособие. Издание 2-е исправленное – М., ФГОУ ВПО РГАУ – МСХА им. К.А. Тимирязева, 2013. 120 с. ISBN 978-5-9675-0214-9 В учебном пособии изложены методические основы биоинформатики – генетико–математические модели, методы, алгоритмы и компьютерный сервис. Рассмотрены основные задачи биоинформатики, ее значение для геномики растений, молекулярная филогенетика, выравнивание последовательностей, анализ вторичной структуры РНК и белков. Пособие предназначено для подготовки магистров сельского хозяйства по направлениям «Агрономия», а также для курсов повышения квалификации специалистов в области генетики, селекции и биотехнологии. 2 1. Введение. Биоинформатика как наука возникла в 80–х годах прошлого века на стыке молекулярной биологии, генетики, математики и компьютерных технологий. Важной предпосылкой послужила разработка быстрых методов секвенирования: появилась необходимость в хранении, систематизации и анализе большого объема новых экспериментальных данных. Биоинформатика – это наука, использующая методы прикладной математики, прежде всего статистики, и информатики для решения проблем молекулярной биологии, возникающих, в частности при моделировании процессов эволюции и оптимизации селекционного процесса. Биоинформатику часто называют вычислительной молекулярной биологией. Она занимается системным анализом нуклеотидных последовательностей ДНК и РНК, а также аминокислотных последовательностей и структурой самих белков. В настоящее время эта наука успешно развивается, что отразилось в большом количестве созданных за последние годы баз данных по биоинформатике. Журнал Nucleic Acids Research первый выпуск каждого года посвящает описаниям баз данных по молекулярной биологии, а июльский выпуск – программному обеспечению для анализа данных. По данным этого журнала за 2007 год общее количество серверов, перечисленных в каталоге ссылок по биоинформатике, более 1000. Целью данного пособия является ознакомление студентов, изучающих генетику, селекцию и биотехнологию, с методическими основными биоинформатики. Более подробно рассмотрены модели, методы и алгоритмы выравнивания последовательностей, а также молекулярной филогенетики. Возможности предсказания пространственной структуры белков и РНК, ввиду их сложности, приведены без подробного рассмотрения. Для того чтобы успешно овладеть представленным материалом студент должен знать основы общей генетики, теории вероятностей, математической 3 статистики, моделирования, популяционной генетики, теории эволюции, информатики. Основные задачи биоинформатики. Биоинформатика – это быстро развивающаяся наука: постоянно возникают новые проблемы, задачи, подходы и методы. И все же среди задач можно выделить: 1. Поиск сходства нуклеотидных или аминокислотных последовательностей; 2. Анализ генома (определение белок – кодирующих участков, а также участков, кодирующих тРНК и рРНК; поиск участков ДНК, которые отвечают за регуляцию – сайты связывания регуляторных белков и др.); 3. Предсказание вторичной структуры РНК; 4. Предсказание структуры белков по их аминокислотным последовательностям; 5. Филогенетическое сравнение форм – выяснение их родства. 6. Создание и поддержание баз данных, инструментов для работы с ними, а также методов обработки массовых экспериментов. Наряду с этим существуют задачи, связанные с протеомикой, анализом экспрессии, регуляции и др. Анализ эукариотического генома включает определение экзон – интронной структуры и функций кодирующих генов. Затем выявляются альтернативные изоформы кодируемых мРНК и белков, регуляторные сигналы и др. На каждом этапе необходимо применение генетико–математических моделей, методов и специальных компьютерных программ. Для предсказания кодирующей части генов используют программы, в основе которых лежит сравнение изучаемой последовательности с последовательностями известных белков, мРНК или ДНК, кодирующей гомологичные гены. Однако такие программы не всегда могут обнаружить 4 гены, специфичные для нового генома, поэтому возникает необходимость дополнительно использовать сложный статистический анализ. Зная предполагаемую структуру гена, можно провести анализ структуры и функции кодируемого им белка. Отдельным пространственной разделом структуры биоинформатики белков. Точных является предсказание методов предсказания трехмерной структуры белка по его аминокислотной последовательности пока нет. Однако существуют базы данных, которые содержат экспериментально полученную информацию о трехмерной структуре многих белков. На основе этой информации можно предсказать пространственную структуру гомологичного белка. Предсказание пространственной структуры РНК сложнее, чем белков, и для этой цели разработаны специальные методы биоинформатики. Решение поставленных задач невозможно без использования баз данных. Но поскольку молекулярно–генетических баз данных большое количество, многие имеют свой формат хранения данных и средства доступа к содержащейся в ней информации, то существует проблема интеграции. Возникает задача создания стандартов и программных средств, которые позволят пользователю быстро находить информацию на основе компьютерного анализа многих баз данных. Поскольку решение поставленных задач предполагает использование различных программ и алгоритмов для анализа последовательностей, то возникает полученных задача статистической выводов. Для оценки этого достоверности, можно использовать надежности известные статистические критерии. Конкретизируем применение биоинформатики на примере задач геномики растений. 5 Значение биоинформатики для геномики растений. Геномика – направление современной молекулярной биологии и генетики, изучающее геномы видов. Выделяют структурную, функциональную и сравнительную геномику. Цель структурной геномики – изучение содержания и организации геномной информации. Ее основная задача – секвенирование геномов и картирование. В настоящее время секвенирование геномов идет быстрыми темпами, и здесь возникает задача определения белок–кодирующих участков, участков, кодирующих тРНК и рРНК, секвенированных последовательностей нуклеотидов в молекуле ДНК. Значительную трудность представляет определение экзон – интронной структуры генов. Геномы растений очень разнообразны по размерам, что связано с различиями в числе хромосом, плоидностью и наличием протяженных межгенных повторяющихся последовательностей. Эти особенности структурной организации хромосом растений существенно затрудняют состыковку секвенированных фрагментов ДНК в последовательно расположенные блоки (контиги) при построении полных физических карт хромосом. Однако установлено, что у таксономически близких видов растений наблюдается высокая степень консерватизма в составе генов, их линейном расположении и ориентации в хромосомах. Поэтому сравнив вновь полученные сегменты геномов с гомологичными сегментами какого–либо стандартного секвенированного генома (например, Arabidopsis thaliana) можно получить информацию о структурно–функциональной организации геномов. Несмотря на секвенирование все большего числа геномов, конкретные функции подавляющего функциональной большинства геномики – генов изучение пока неизвестны. реализации Цель наследственной информации, закодированной в геноме (от гена к признаку). Ее основная задача – предсказание функции генов. Для определения предположительной функции гена по выявленной нуклеотидной последовательности моделируют 6 трансляцию предполагаемого гена в аминокислотную последовательность белка. Затем осуществляют поиск в базах данных гомологичных белков (или консервативных белковых участков – доменов) с известной функцией. Информацию о характере функционирования генома можно получить с помощью анализа баз данных кДНК и EST (частично секвенированных последовательностей кДНК) Получение EST и кДНК осуществляется на основе мРНК. В качестве источника мРНК используются разные части растений или культуры клеток. Анализируют функции генов растений, выращенных в определенных условиях (при воздействии стрессовых факторов, высоких и низких температур, разных условий освещения) или растений, находящихся на определенных стадиях развития. Поэтому, при наличии представительных баз данных по частоте встречаемости EST, соответствующих одному и тому же гену, можно судить о специфичности генной экспрессии. Сравнение баз данных EST разных видов растений позволяет выявлять гены, контролирующие особенности метаболизма, как общие, так и специфические для разных видов. Например, по данным 2007 года база Sputnik (http://mips.gsf.de/proj/sputnik/) содержит сведения о 4 млн. EST из 65 видов растений. Основной задачей сравнительной геномики является сравнительный анализ структур геномов разных организмов. Сопоставление у разных видов нуклеотидных последовательностей отдельных участков ДНК и аминокислотных последовательностей функционально похожих белков позволяет выявить сравнительный возможности общие структурный проводить структурные анализ фрагменты. геномов филогенетические разных Кроме того, растений дает исследования и выяснять закономерности эволюции растений для решения вопросов геносистематики и ботаники. Вопросы: 1. Что такое биоинформатика, определение, для каких целей ее можно использовать? 7 2. Перечислите основные задачи биоинформатики. 3. Что такое геномика растений? 4. Каковы основные цели структурной, функциональной и сравнительной геномики растений? 5. Как можно использовать биоинформатику для решения задач геномики растений? 2.Базы данных. База данных – это компьютерная системы хранения, поиска и выдачи нужной информации. К основным базам данных по биоинформатике относятся крупнейшие хранилища первичных структур ДНК и аминокислотных последовательностей (EMBL, GenBank, UniProt, SWISS– PROT и др.). В последнее время появилось много специализированных баз данных. Некоторые из них хранят информацию, полученную с помощью компьютерных методов обработки, результаты теоретических предсказаний. Существуют специализированные базы данных по отдельным регуляторным мотивам нуклеотидных последовательностей (например, энхансеры сплайсинга, процессинга/экспорта и т.д.), базы данных по экспрессии генов, библиотеки геномов, карт, последовательностей РНК, белков, белковых мотивов, по продукции белков. Есть базы данных по протеомике, структурам белков, мутациям, метаболическим путям и регуляции, по трансгеннным организмам, биохимии, а также по научной литературе к отдельным темам молекулярной биологии и генетики, по программному обеспечению для анализа данных. Базы данных можно отнести к следующим типам: 1) Архивные. К архивным относятся, например, базы данных GeneBank, EMBL, PDB. Любой исследователь может поместить туда свою информацию. За содержание каждой записи в таких базах отвечает сам исследователь. 8 GenBank – база данных генетических последовательностей, основанная в 1982 году. Это аннотированная коллекция всех общедоступных последовательностей ДНК, РНК и белков, снабженных литературными ссылками, и другой биологической информацией. Эта база является частью объединения International Nucleotide Sequence Database Collaboration, которое объединяет три крупнейшие коллекции нуклеотидных последовательностей: DDBJ (DNA Data Bank of Japan), EMBL (European Molecular Biology Laboratory) и GenBank (National Center for Biotechnology Information). Эти три организации ежедневно обмениваются новой информацией. Большинство журналов требуют предварительной посылки новых секвенированных последовательностей в любую из этих трех баз данных до опубликования статьей о них. В статьях, посвященных очередной порции последовательностей, должен упоминаться лишь номер последовательности в базе данных GenBank. Адрес DDBJ: http://www.ddbj.nig.ac.jp/ Адрес GenBank: http://www.ncbi.nlm.nih.gov/Genbank/ EMBL (European Molecular Biology Laboratory) – эта база данных содержит разнообразную информацию о каждом фрагменте последовательностей, включая литературные ссылки, перекрестные ссылки на документы других баз данных и др. Адрес EMBL: http://www.ebi.ac.uk/embl/ Еще одна архивная база данных – PDB (Brookhaven Protein DataBank) – содержит данные о коллекции экспериментально определенных трехмерных структур биологических макромолекул (белков и нуклеиновых кислот). С 2002 года в основном депозитарии PDB хранятся структуры, экспериментально определенные с помощью рентгеноструктурного, ядерно–магнитнорезонансного и др. методов. Теоретические структуры выделены в отдельную подбазу PDB. Адрес: http://www.rcsb.org/pdb/ 9 2) Курируемые базы данных. За содержание записей в таких базах данных отвечают кураторы. Информацию для курируемых баз данных отбирают эксперты из архивных баз. К курируемым базам относятся, например, SwissProt. Эта база данных белковых последовательностей существует с 1986 года и поддерживается двумя институтами: Swiss Institute of Bioinformatics (SIB) и European Bioinformatics Institute (EBI). Адрес: http://www.ebi.ac.uk/swissprot/ 3) Автоматические базы данных. В таких базах данных записи генерируются (моделируются) компьютерными программами. К ним относится, автоматическая база формальная трансляция например предсказаний всех TrEMBL (Translated последовательностей кодирующих EMBL) белков. – Это нуклеотидных последовательностей из банка EMBL. В 2002 году в результате объединения SwissProt, TrEMBL и PIR был создан банк данных UniProt (Universal Protein Resourse). Это основное хранилище белковых последовательностей и их функций. UniProt состоит из трех частей: UniProt Knowlegebase – является центральной базой данных и обеспечивает доступ к обширной курируемой информации по белкам, включая их функцию, классификацию и перекрестные информационные ссылки; UniProt Archive – UniParc. Отражает хронологию данных определения о всех белковых последовательностях; UniProt Reference – UniRef. Содержит базы данных, которые объединяют последовательности в кластеры для ускорения поиска. Адрес UniProt: http://www.ebi.uniprot.org/index.shtml 10 4) Производные базы данных. Они получаются в результате компьютерной обработки данных из архивных и курируемых баз данных. Это, например, SCOP, PFAM, GO и др. SCOP (Structural Classification Of Proteins) – база данных по структурной классификации белков. Адрес: http://scop.protres.ru/ PFAM (Protein families database of alignments and HMMs) – это большая коллекция семейств белков и доменов, построенных на основании экспертной оценки множественных выравниваний (см. раздел 3). В банке существуют две основные части: содержащая PFAMA, подробно аннотированные белковые семейства, и PFAMB, содержащая различные множественные выравнивания. Адрес: http://www.sanger.ac.uk/Pfam/ GO (Gene Ontology consortium database). Целью создателей базы было установление контроля за единообразием в описаниях функций, биологических процессов и клеточных компонентов, относящихся к продуктам генов. Унификация описаний в различных базах данных облегчает поиск в них нужного гена. GO – независимая база данных: другие базы данных сотрудничают с ней, помещая ссылки на унифицированные термины GO, либо поддерживают поиск с использованием терминов базы GO, а также стимулируют ее дополнение и уточнение. Адрес: http://www.geneontology.org/ 5) Интегрированные базы данных. Они объединяют информацию из разных баз. Например, введя имя гена, можно найти всю, связанную с ним информацию. К таким базам относится ENTREZ (Molecular Biology DataBase and Retrieval System). Эта интегрированная база данных содержит нуклеотидные и аминокислотные последовательности, которые собираются из крупнейших 11 специализированных хранилищ – баз данных. Основой является GenBank, кроме того, информация пополняется из dbEST, dbSTS, SwissProt, PIR, PDB, PRF, GSDB. Данные интегрированную базу из перечисленных данных после 1) ресурсов поступают присвоения в уникального идентификатора последовательности, 2) перевода документов в единый стандарт хранения, 3) проверки данных, 4) проверки всех ссылок по базе данных MedLine, 5) проверки названий организмов по таксономической классификации GenBank Taxonomy. Адрес ENTREZ: http://www.ncbi.nlm.nih.gov/Database/index.html Описания многих баз данных по биоинформатике можно найти на русскоязычном сайте, который находится по адресу: http://www.jcbi.ru/index.html При подаче запросов в большинство существующих программ последовательности должны быть представлены в стандарте IUB/IUPAC. Этот стандарт предусматривает условные обозначения нуклеиновых кислот и аминокислот, представленные в таблицах 2.1, 2.2. Таблица 2.1. Обозначения, принятые для нуклеиновых кислот по стандарту IUB/IUPAC. Обозна– чение Название Обозна– чение Название Обозна– чение Название А adenine R B G, T, C С cytosine Y D G, A, T G T U M guanine thymine uracil A, C (amino) W K S V G, A (purine) T, C (pyrimidine) A, T G, T (keto) G, C A, C, G H N A, C, T A, G, C, T 12 Таблица 2.2. Обозначения, принятые аминокислот по стандарту IUB/IUPAC. Обозначение G H I K L M Название (англ.) glycine histidine isoleucine lysine leucine methionine Название (рус.) * translation stop стоп–кодон глицин гистидин изолейцин лизин лейцин метионин в Обозначение U V W Y Z однобуквенном коде Название Название (англ.) (рус.) selenocysteine селеноцистеин valine валин tryptophan триптофан tyrosine тирозин glutamate or глютамат или glutamine глютамин any X любая Вопросы: 1. Что такое база данных? 2. Приведите классификацию баз данных в биоинформатике и охарактеризуйте каждый тип. 3. В чем отличие интегрированных баз данных от других типов? 3. Выравнивание. 3.1. Основные определения. Напомним, что мутации – основной источник первичной изменчивости для эволюции. Именно благодаря мутациям в популяциях возникает полиморфизм. Выделяют четыре основных типа мутационных изменений последовательностей ДНК без изменения групп сцепления: замена одного нуклеотида на другой, делеция нуклеотидов, вставка нуклеотидов и инверсия группы нуклеотидов. При сравнении последовательностей мы, по существу, ищем свидетельства того, что они произошли из одной общей последовательности путем мутаций и отбора. Вставки и делеции вместе называются разрывами (gaps). При сравнении цепочек нуклеотидов они обозначаются знаком «–». Для определения родства двух заданных последовательностей необходимо провести их выравнивание. Выравнивание (аlignment) – это сопоставление двух и более последовательностей для определения их уровня идентичности 13 с учетом как замен, так и вставок/делеций. Другими словами это способ написать последовательности друг под другом так, чтобы гомологичные (т.е. имеющие общее эволюционное происхождение) буквенные обозначения стояли друг под другом. Если выравниваются две последовательности, то такое выравнивание называется парным (рair sequence alignment). А если проводят выравнивание трех или более последовательностей одновременно – множественным (multiple sequence alignment). Различают полное и частичное выравнивание. Полное или глобальное выравнивание (global alignment) – это выравнивание нуклеотидных или белковых последовательностей по их полной длине. Например, для двух аминокислотных последовательностей: x) HEAGAWGHEE и y) PAWHEAE результат полного выравнивания может иметь вид HEAGAWGHE –E – –P– AW– HEAE Частичное или локальное выравнивание (local alignment) – выравнивание части нуклеотидных или белковых последовательностей. Для вышеприведенных последовательностей x и y локальное выравнивание: ….AWGHE…. ….AW– HE… Используются разные алгоритмы и методы выравнивания. Эмпирическим показателем количественной оценки качества выравнивания является его вес (score). Чем выше вес, тем больше сходство между последовательностями и выше качество выравнивания. Оптимальное выравнивание (optimal alignment) – это выравнивание нуклеотидных или белковых последовательностей с самым высоким весом и имеющее биологический смысл. Вес выравнивания рассчитывается исходя из количества замен, с учетом разрывов и т.н. матрицы замен. 14 3.2. Матрицы замен. Чтобы вычислить вес (score) всего выравнивания необходимо определить частный вес каждой пары замен при выравнивании последовательностей. Аминокислоты с близкими биохимическими свойствами, такими как заряд, полярность и т.д. характеризуются большей вероятностью парных замен. Некоторые аминокислоты, например цистеин, глицин, триптофан очень редко заменяются в процессе эволюции. Для того чтобы учесть неравную вероятность замен были разработаны специальные матрицы, которые получили название матрицы замен. Эти матрицы содержат оценки частных весов для любой пары замены аминокислоты (или нуклеотида) i на аминокислоту (или нуклеотид) j. Первыми матрицами были матрицы аминокислотных замен РАМ (Percent accepted, 1978 г.). Для их создания были использованы эволюционно близкие последовательности различных белков, таких как гемоглобин, цитохром с, фибриноген и т.д. Были посчитаны относительные частоты замен между различными аминокислотами и построены филогенетические деревья. Для оценки весов использовались средние значения частот, вычисленные на большом наборе данных. С одной стороны такой подход не позволяет учесть индивидуальные особенности каждого белка, но с другой стороны, он позволяет применить метод весов к различным белкам. По этим данным была построена эмпирическая матрица нормированных весов аминокислотных замен. Наиболее широко используемая матрица – это РАМ250 (табл.3.1) 15 Таблица. 3.1 Матрица аминокислотных замен РАМ250 A R N D C Q E G H I L K M F P S T W Y V A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -4 1 1 1 -6 -3 0 R N D C Q E G H I L K M F P S T W Y V 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 2 2 -4 1 1 0 2 -2 -3 1 -2 -4 -1 1 0 -4 -2 -2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 4 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 5 -2 -3 -4 -2 -3 -5 -1 1 0 -7 -5 -1 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 6 -3 4 2 -3 -3 -2 -2 -1 2 -5 0 -5 -1 0 0 -3 -4 -2 6 0 -2 -2 -1 -4 -2 2 6 1 0 -6 -5 -1 3 1 -2 -3 -1 3 -5 -3 0 17 0 -6 10 -2 4 9 -5 -3 -2 0 7 -1 Вес S(i, j) в ячейке i, j таблицы 3.1 больше нуля означает, что аминокислота i заменяется на j чаще, чем в среднем по всем заменам. То есть эти аминокислоты сравнительно легко заменяют друг друга, т.к. они функционально эквивалентны или по другим причинам. Вес меньше нуля указывает на пары аминокислот, которые сравнительно редко заменяют друг друга. Недостатком матриц РАМ является то, что они не очень надежно работают на больших эволюционных расстояниях. Другим широко используемым семейством матриц весов являются матрицы BLOSUM, предложенные в 1992 г. Они построены на основе выравниваний последовательностей с определенной степенью сходства. В матрицах BLOSUM значение веса S (i, j) для каждой ячейки i, j получено из наблюдений частот замен в частичных выравниваниях близких белков. Каждая матрица соответствует специфическому порогу сходства. Например, 16 при построении матрицы BLOSUM62 были использованы последовательности, имеющие более чем 62% сходства. В табл. 3.2 показана матрица замен на пороговом уровне 50% сходства BLOSUM50. Таблица 3.2. Матрица замен BLOSUM50. A R N D C Q E G H I L K M F P S T W Y V A 5 R -2 N -1 D -2 C -1 Q -1 E -1 G 0 H -2 -1 I L -2 K -1 M -1 F -3 P -1 S 1 T 0 W -3 Y -2 V 0 7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1 -3 -1 -3 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0 -4 -2 -3 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1 -5 -3 -4 13 -3 -3 -3 -3 -2 -2 -3 -2 -2 -4 -1 -1 -5 -3 -1 7 2 -2 1 -3 -2 2 0 -4 -1 0 -1 -1 -1 -3 6 -3 0 -4 -3 1 -2 -3 -1 -1 -1 -3 -2 -3 8 -2 -4 -4 -2 -3 -4 -2 0 -2 -3 -3 -4 10 -4 -3 0 -1 -1 -2 -1 -2 -3 2 -4 5 2 -3 2 0 -3 -3 -1 -3 -1 4 5 -3 3 1 -4 -3 -1 -2 -1 1 6 -2 -4 -1 0 -1 -3 -2 -3 7 0 -3 -2 -1 -1 0 -1 10 -1 -1 -4 -3 -3 5 2 -4 -2 -2 5 -3 -2 0 15 2 8 -3 1 5 8 -4 -3 -2 1 4 1 Матрицы, построенные при пороговых значениях 62 и 50%, широко используются для парного выравнивания и поиска последовательностей – гомологов в базах данных. Матрицы с меньшими пороговыми значениями соответствуют большим временам раздельной эволюции. Поэтому их используют для выравнивания более удаленных друг от друга последовательностей. Основными отличиями матриц РАМ и Blosum являются: 1) использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 17 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков). При средней степени сходства последовательностей наиболее часто используются матрицы Blosum 62 и PAM160. При выравнивании близкородственных последовательностей следует использовать матрицы Blosum с большим порядковым номером и матрицы PAM с меньшим номером. 3.3. Штрафы за разрывы. Разрыв (gap) – прочерк (–), который вводят в выравнивание для компенсации вставки (выпадения) нуклеотидов или аминокислот в одной последовательности относительно другой. Для предотвращения накопления слишком большого числа разрывов в выравнивании при введении очередного разрыва из общего веса выравнивания вычитается установленный штраф. Дополнительный штраф может применяться для контроля длины разрыва, то есть числа подряд идущих пробелов. Самый простой вид штрафа – так называемый линейный штраф, пропорциональный длине разрыва: R(g)= – gd (3.1) где g – длина разрыва; d – штраф за одиночный разрыв. Другой вид, так называемый аффинный штраф за разрыв определяют по формуле: R(g)= – d – (g – 1)e, где g – длина разрыва; d – штраф за открытие разрыва; е – штраф за его продолжение. Обычно штраф за продолжение разрыва (е) меньше штрафа за открытие (d); тогда длинные вставки и делеции аффинной функцией штрафа наказываются меньше, чем линейной. Это желательно, когда известно заранее, что ожидаемая частота разрывов в один и несколько остатков 18 примерно одинакова. Типичные значения штрафов за разрывы, используемые на практике, равны d = 8 для линейного штрафа, или d = 12, e = 2 для аффинного случая. 3.4. Алгоритмы выравнивания. Если длина обеих последовательностей одинакова (n) и разрывы не допускаются, то существует только одно возможное глобальное выравнивание. Однако если разрывы разрешены, то существует уже глобальных выравниваний двух последовательностей длиной n. Например, при n=9 N≈109. Перебрать все варианты выравниваний для выявления оптимального физически невозможно, даже при небольших значениях п. Поэтому для нахождения оптимального выравнивания были разработаны специальные алгоритмы. Далее рассмотрим разные типы выравниваний. Они зависят от того, какого рода последовательности необходимо выровнять. Алгоритмы нахождения оптимального выравнивания основаны на методе динамического программирования, описанном ниже. Но реализация этого метода немного отличается для разных типов выравниваний. Для того чтобы проиллюстрировать работу разных методов выравнивания, возьмем две короткие аминокислотные последовательности, x) HEAGAWGHEE и y) PAWHEAE. Для вычисления веса выравнивания будем использовать матрицу BLOSUM50 (табл. 3.2). Воспользуемся формулой (3.1) – линейной функцией штрафа за разрывы. Штраф за удаление одного остатка примем d = 8. В таблице 3.3 две тестовые последовательности x и y изображены так, чтобы показать соответствующие веса матрицы BLOSUM50 для всех возможных пар аминокислот этих последовательностей. Веса выравнивания идентичных (консервативных) остатков выделены жирным шрифтом. 19 Цель алгоритма выравнивания состоит в том, чтобы включить в выравнивание пары остатков с максимальной суммой их весов из матрицы 3.3, одновременно минимизируя потери этой суммы из-за разрывов. Таблица 3.3. Веса S (i, j) из матрицы BLOSUM50 для всех возможных пар аминокислот для двух последовательностей примера. H E A G A W G H E E y x P –2 –1 –1 –2 –1 –4 –2 –2 –1 –1 A –2 –1 0 –3 0 –2 –1 –1 5 5 W –3 –3 –3 –3 –3 –3 –3 –3 –3 15 H 0 –2 –2 –2 –3 –2 0 0 10 10 E 0 –1 –3 –1 –3 –3 0 6 6 6 A –2 –1 0 –3 0 –2 –1 –1 5 5 E 0 –1 –3 –1 –3 –3 0 6 6 6 Глобальное выравнивание: алгоритм Нидлмана–Вунша. Рассмотрим построение оптимального глобального выравнивания двух последовательностей x – длиной n и y – длиной m. Проблема пошаговой процедуры выравнивания в том, что на каждом ее «шаге» накопленная сумма весов зависит от выбранных вариантов (замены, вставки – разрывы) на предыдущих «шагах». Поэтому даже при небольших значениях n и m прямой перебор и сравнение эффективности всех сочетаний вариантов на всех «шагах» общего выравнивания затруднен – слишком велико число сочетаний. Алгоритм решения этой задачи основан на методе динамического программирования. Его суть в следующем. Для каждого сочетания i, j длин коротких фрагментов последовательностей x и y, начиная с i = 1, j = 1, подбирается условно оптимальное выравнивание – с максимальным весом. Условно оптимальное потому, что рассматриваются все пары длин i, j, среди которых наверняка будут лишние – они не войдут в полное оптимальное выравнивание последовательностей x и y. Всего таких условно оптимальных выравниваний n x m. То есть алгоритм динамического программирования состоит в пошаговом построении оптимального выравнивания большей 20 длины, используя полученные на предыдущем «шаге» условно оптимальные выравнивания фрагментов меньшей длины. Для этого строится матрица F размера (n+1) x (m+1). Элемент F(i, j) этой матрицы содержит вес наилучшего условного выравнивания между фрагментом x1...i длины i последовательности х и фрагментом y1...j длины j последовательности у. Например, примем F(0, 0) = 0 для исходного (нулевого) шага алгоритма. F(i, 0)= – id для ситуации «i разрывов (–) подряд, вводимых при выравнивании в последовательность x на первых i «шaгах»». F(0, j)= – jd для ситуации «j разрывов (–) подряд, вводимых при выравнивании в последовательность y на первых j «шaгах»». Заполняется матрица с верхнего левого угла к нижнему правому. Для того чтобы определить значение F(i, j) для очередного шага необходимо рассмотреть квадрат из четырех ячеек (рис. 3.1). F(i–1, j–1) F(i, j–1) F(i–1, j) F(i, j) Рис 3.1. Квадрат из трех «предыдущих» и одной «последующей» ячейки для определения значения F(i, j). Если F(i – 1, j – 1), F(i – 1, j) и F(i, j – 1) на предыдущем шаге известны, то можно вычислить F(i,j) по формуле: Первая строка соответствует изменению веса выравнивания из-за несовпадения (или совпадения) остатка в i–ой позиции последовательности x 21 и j–ой – y. Вторая строка – штраф за разрыв в последовательности y, третья – в x. Рассматриваем каждый квадрат из 4–х ячеек и определяем «последующее» значение F(i, j), применяя уравнение (3.2) пока вся матрица F(i, j) не будет заполнена. После каждого вычисления максимального значения F(i , j) ставим только одну стрелку из трех, обозначенных на рис 3.1, направленную в ту «предыдущую» ячейку, которую использовали для получения этого значения F(i , j). Среди прочих будет правая нижняя ячейка матрицы для i=n, j=m. Наилучшим весом всего оптимального выравнивания x и y является значение F(n, m) в этой ячейке. Для того чтобы прочитать само оптимальное выравнивание, необходимо восстановить последовательность выбора вариантов (замен, вставок – разрывов), которая привела к максимальному весу F(n, m). Процедура восстановления выборов называется процедурой обратного прохода. Она осуществляет восстановление выравнивания, от правой нижней ячейки матрицы (n, m), двигаясь по шагам строго по указателям – стрелкам, которые были оставлены при построении матрицы F(i, j). На каждом шаге обратного прохода добавляют пару символов аминокислот или «–» слева к текущему выравниванию. А именно добавляем: аминокислоты xi и yj (из i–ой и j–ой позиций x и y), если стрелка указывает на ячейку (i – 1, j – 1); xi и символ разрыва «–», если стрелка указывает на ячейку (i – 1, j); «–» и yj, если – на (i, j – 1). В конце концов, достигнем левого верхнего угла матрицы, где i=j=0. Оптимальное глобальное выравнивание построено. Рассмотрим пример. Построим глобальное выравнивание для последовательностей x) HEAGAWGHEE и y) PAWHEAE. Линейный штраф за удаление одного остатка (разрыв) d = 8. Построим матрицу F(i, j) динамического программирования (рис 3.2). 22 y x 42 1 Рис. 3.2. Матрица F(i,j), динамического программирования глобального выравнивания двух модельных последовательностей x и y. Под матрицей – полученное оптимальное выравнивание с весом 1 (по Р Дурбин и др.,2006). Вначале заполняем первую верхнюю строчку и первый столбец этой матрицы. Для этого не требуется сравнения трех вариантов – стрелок, так как стрелка на каждом шаге всегда одна – с включением разрыва (рис 3.2). Затем, используя формулу 3.2, начинаем заполнение матрицы F(i, j) с верхнего левого квадрата из четырех ячеек. Т.е. со сравнения первых букв двух последовательностей. Рассмотрим этот квадрат. j=0 j=1 y P i=0 x 0 –8 i=1 H –8 F(1, 1) Определим значение F(i, j)= F(1, 1). Для нашего случая F(i – 1, j – 1)= F(0,0)=0; S(1, 1)= S(Н, Р)= –2 (из матрицы табл. 3.3); F(i – 1, j)= F(0, 1)= –8; F(i, j – 1)= F(1, 0)= –8. Тогда, используя формулу 3.2, получаем: 23 Видно, что максимальное значение F(1, 1) равное –2 было получено на шаге из F(1, 1) в ячейку таблицы F(0, 0). Поэтому от ячейки F(1, 1) нужно поставить стрелку, указывающую на ячейку F(0, 0). Рассмотрим следующий квадрат из четырех ячеек. j=0 j=1 y P i=0 x 0 –8 i=1 H –8 –2 i=2 E –16 F(2, 1) Определим значение F(2, 1). Значение F(i – 1, j – 1)= F(1, 0)= –8; S(2, 1)= S(Е, Р)= –1 (из матрицы табл. 3.3); F(i – 1, j)= F(1, 1)= –2; F(i, j – 1)= F(2, 0)= –16. Применяя формулу 3.2, получаем: Максимальное значение F(2, 1) равно –9. Подобным образом заполняют все ячейки матрица. После этого остается прочитать само выравнивание, реализовав процедуру обратного прохода. На рис.3.2 показана матрица динамического программирования глобального выравнивания двух последовательностей с указателями (стрелки выделены жирным шрифтом) для процедуры обратного прохода. Значения F(i, j), соответствующие оптимальному выравниванию (на каждом оптимальном шаге) выделены жирным шрифтом. Оптимальное глобальное выравнивание имеет вес 1 24 (на рис. 3.2 в кружке). Оно выстраивается справа налево, читая по шагам указания жирных стрелок. Результат указан под матрицей. Процедура обратного прохода, описанная здесь, находит только одно выравнивание с наилучшим весом; но если в некий момент (шаг) максимум величины F(i, j) достигается двумя или даже тремя способами (это в принципе возможно), то делается случайный выбор оптимального шага. В такой ситуации оптимальные выравнивания могут отличаться, но их вес при этом не изменится. Локальное выравнивание: алгоритм Смита–Уотермана. В предыдущем примере было рассмотрено глобальное выравнивание двух последовательностей. Но на практике намного чаще возникают ситуации, когда необходимо найти оптимальное выравнивание подпоследовательностей (subsequences) двух исходных последовательностей х и у. Такое выравнивание называется локальным. Подобная задача возникает, например, когда нужно сравнить длинные участки последовательности геномной ДНК, или если мы подозреваем, что у двух белковых последовательностей есть общий домен или домены. Домен (domain) – это определенный участок аминокислотной последовательности, который кодирует составную часть различных белков и, возможно, обладает собственной функцией. Как правило, доменам свойственна высокая степень консервативности. Информация о доменах используется при планировании экспериментов для проверки и предсказания функции и структуры белков, а также для идентификации новых членов белковых семейств. Кроме того выравнивание подпоследовательностей – это самый чувствительный способ обнаружения общего сходства при сравнении двух сильно дивергировавших последовательностей. Выравнивание подпоследовательностей из х и у с самым большим весом называется наилучшим локальным выравниванием. Алгоритм Смита– Уотермана нахождения оптимального локального выравнивания (или их 25 множества) тесно связан с алгоритмом глобального выравнивания, но существуют два отличия. Во-первых, для каждого элемента матрицы динамического программирования включена дополнительная возможность выбора (формула 3.3). Она позволяет элементу F(i, j) принять значение, равное нулю, если все другие значения в формуле 3.3 меньше нуля: Выбор нуля соответствует началу нового локального выравнивания, начиная с пары остатков с номерами i, j двух последовательностей x и y. В алгоритме заложено правило перехода к новому локальному выравниванию. Например, если наилучшее выравнивание на очередном шаге приобретает отрицательный вес, лучше начать новое выравнивание, чем продолжать старое. Тогда, в частности, из-за гарантированно отрицательных значений F(–id, 0) и F(–jd, 0) матрицы глобального выравнивания (включение разрывов), элементы верхней строчки и левого столбца таблицы F(i, j) локального выравнивания определяют равными нулю (рис.3.3.): F(0, 0) = 0; F(i, 0)= 0, a F(0, j)= 0 Второе отличие локального по сравнению с глобальным выравниванием состоит в том, что в первом случае выравнивание может заканчиваться в любом месте таблицы F(i, j). Наилучшим весом локального выравнивания считается наибольшее значение весов всей матрицы F(i, j). Для использованных выше двух последовательностей x и y максимальным значением веса во всей матрице является 28 (помечено кружком на рис.3.3.). Стандартную процедуру обратного прохода нужно начинать с F(9, 5), т.е. с аминокислот Е, Е последовательностей x и y. Обратный проход заканчивается, когда встречаем нулевой элемент таблицы (помечен квадратом), что соответствует началу лучшего локального выравнивания. 26 y x Рис. 3.3 Матрица динамического программирования для поиска оптимального локального выравнивания последовательностей x и y (по Р Дурбин и др.,2006). Внизу рисунка 3.3 показано это оптимальное локальное выравнивание с весом 28. В данном случае локальное выравнивание оказалось частью (подмножеством) глобального (рис. 3.2.), однако это не всегда так. Иногда локальное выравнивание может совпасть с глобальным. Отдельное от первого «менее оптимальное» локальное выравнивание длиной 3 можно выделить двигаясь от F(3, 6) до F(1, 4). Его вес равен 21. Выравнивание нуклеотидных последовательностей. Для белок–кодирующих последовательностей аминокислотное выравнивание обычно лучше нуклеотидного, в частности, поскольку первые эволюционируют медленнее. Но во многих ситуациях не обойтись без выравнивания нуклеотидных последовательностей. Для этой цели разработаны различные подходы и алгоритмы. Одним из самых популярных является алгоритм Нидлмана – Вунша, рассмотренный выше. 27 Множественное выравнивание. Множественное выравнивание (multiple sequence alignment) – это выравнивание набора из трех и более последовательностей одновременно, при котором элементы в одинаковых позициях группируются в колонки. Основная цель множественного выравнивания – это выявление доменов, содержащихся в изучаемой последовательности. Множественное выравнивание может быть как полным, так и частичным. Пример – результат множественного выравнивания пяти нуклеотидных последовательностей приведен на рисунке G G G G C – C G C C – C T A C C C A C A A T G – G A A A – C C A – A C C C C C C C A A – C A A A A A G G G G G Разработаны различные алгоритмические подходы для построения множественного выравнивания. Наиболее часто используется так называемое прогрессивное выравнивание. При использовании этого подхода сначала выбираются две наиболее похожие последовательности, которые выравниваются стандартным алгоритмом парного выравнивания. Это выравнивание фиксируется. Далее выбирается третья последовательность, которая «подравнивается» к первому выравниванию, затем 4–я и т.д. до тех пор, пока не будут выровнены все последовательности. Одной из наиболее широко используемых реализаций алгоритма прогрессивного множественного выравнивания является программа CLUSTAL. Программы серии CLUSTAL. Первая программа серии Clustal была разработана в 1988 году. Затем ее усовершенствовали путем добавления прогрессивного выравнивания, то есть созданием множественного выравнивания в результате серий попарных выравниваний, следуя ветвлению направляющего дерева, построенного методом UPGMA (см. раздел 6.3.). 28 В 1992 году появилась второе поколение программ Clustal. Программа, названная ClustalV. В 1994 году появилось третье поколение программ под названием ClustalW. Благодаря усовершенствованному алгоритму она стала значительно проще в работе. Появилась возможность выбирать матрицы сравнения аминокислот и нуклеотидов, а также устанавливать штрафы за внесение пробелов. Следует отметить высокую совместимость программ этого поколения с другими пакетами. Это было достигнуто за счет представления результатов выравнивания в специальном формате FASTA (см. ниже). Последним представителем серии является программа ClustalX, для которой характерен более удобный интерфейс и более легкая оценка результатов выравниваний. Именно последние программы серии Clustal позволяет создавать наиболее биологически корректные множественные выравнивания дивергировавших последовательностей. Программа доступна CLUSTALW, на сервере EBI (http://www.ebi.ac.uk/clustalw/index.html). Стартовая страница CLUSTALW приведена на рисунке 3.5. Первоначально необходимо ввести в окно программы изучаемые аминокислотные или нуклеотидные последовательности в одном из 7 возможных форматов (NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF, GDE). Наиболее часто используется формат FASTA. Последовательность в этом формате начинается с названия, перед которым ставят символ “>”. Не рекомендуется применение названий длиннее 80 знаков (включая пробелы). Затем с новой строки вводят саму последовательность. Основные установки CLUSTALW, значение которых влияет на качество построенного выравнивания, приведены ниже. 29 Рис. 3.5. Стартовая страница CLUSTALW. ALIGNMENT - выбор алгоритма выравнивания. Опции для парного выравнивания: KTUP - определяет длину начального слова при построении парного выравнивания; WINDOW LENGTH - длина сегмента, включающего «наилучший» выровненный сегмент. Для увеличения скорости получения решения надо уменьшать этот параметр, для увеличения точности выравнивания надо увеличивать этот параметр. SCORE - определяет минимальный вес выравнивания; TOPDIAG - число непрерывно совпадающих k-плетов на участке парного выравнивания (если k=1, то это просто длина совпадающего сегмента). Для увеличения скорости надо уменьшать этот параметр, для увеличения точности надо увеличивать этот параметр. PAIRGAP - штраф за разрыв при построении парного выравнивания. Опции для множественного выравнивания последовательностей. 30 MATRIX - выбор матрицы замен, для построения выравнивания; GAP OPEN - штраф за начало разрыва; END GAPS - штраф за окончание разрыва; GAP EXTENSION - штраф за длину разрыва. В поле [PHYLOGENETIC TREE] можно выбрать установки для построения филогенетического дерева родства последовательностей. При использовании данной программы выравнивание состоит из трех этапов: 1) парное выравнивание, 2) построение направляющего дерева и 3) собственно множественное выравнивание. 1) В ходе парных выравниваний предварительно сравниваются все возможные пары набора последовательностей. На основании проведенных сравнений вычисляются показатели сходства в соответствии с выбранными матрицами. В наиболее широко используемой матрице сравнений нуклеотидов DNA identity совпадение нуклеотидов оценивается в 1 балл, а несовпадение – –10000 баллов. Такой высокий штраф за несоответствие облегчает внесение пробелов. Для сравнения аминокислот используют матрицы PAM, Blosum и Gonnet. Матрицы PAM и Blosum были описаны выше. Матрицы Gonnet представляют собой усовершенствованный вариант матриц РАМ, основанный на большей базе данных. Использование этой матрицы наиболее целесообразно для инициальных парных сравнений. 2) Построение на основании попарных сравнений т.н. направляющего дерева (guide–tree) методом NJ (см. разделы 6.1 и 6.3.). 3) Множественное выравнивание является основой программ Clustal, однако детали его сложны. Каждый этап множественного выравнивания состоит из сопоставления двух последовательностей или выравниваний, выполняемого в соответствии с ветвлением полученного дерева NJ. Полученное множественное выравнивание может быть отображено в черно–белой или цветной гамме. Идентичные аминокислотные остатки или нуклеотиды отмечаются звездочкой (*), консервативные двоеточием (:), а полуконсервативные – точкой (.). 31 замены – Основным предназначением выравниваний, проведенных с помощью программ Clustal, является вычисление на их основании т.н. эволюционных расстояний между аминокислотными или нуклеотидными последовательностями (см. раздел 5.2), определение типа аминокислотных замен, поиск функционально важных участков и т. д. В ходе выравнивания также выявляются консервативные участки последовательностей, которые могут являться элементами вторичной структуры, сайтами связывания лигандов и другими функциональными мотивами. Эта информация используется для предсказания вторичной и третичной структуры и функции белков, а также для идентификации новых представителей белковых семейств. Кроме того, программы семейства Clustal используются для построения дендрограмм, показывающих филогенетические отношения сравниваемых последовательностей (см. раздел 6). 3.5. Программный поиск сходных аминокислотных или нуклеотидных последовательностей. Важным звеном исследований молекулярной биологии является сравнение аминокислотных и нуклеотидных последовательностей, которое позволяет идентифицировать семейства генов, относить к ним секвенированные последовательности, устанавливать их структурные и функциональные взаимоотношения. Разработано большое количество программ для сравнения последовательностей с последующим определением их сходства, но наиболее часто используются программы серии BLAST. Пакет программ BLAST В этот пакет входят программы для нахождения выравнивания между заданной локального последовательностью и последовательностями из базы данных. Его можно использовать как для 32 случая ДНК, так и для белковых последовательностей. Доступная версия программы находится на сервере NCBI (http://www.ncbi.nlm.nih.gov/BLAST/). На рисунке 3.6 показана стартовая страница BLAST. Рис. 3.6. Стартовая страница BLAST. Семейство программ серии BLAST можно разделить на 7 основных групп: 1. Геномные программы – предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированного генома (Arabidopsis thaliana, Oryza sativa, Apis mellifera и др.). 33 2. Нуклеотидные нуклеотидной – предназначены последовательности с для базой сравнения данных изучаемой секвенированных нуклеиновых кислот и их участков. Туда входят: • blastn – медленное сравнение с целью поиска всех сходных последовательностей; • megablast – быстрое сравнение с целью поиска высоко сходных последовательностей; • dmegablast – быстрый поиск очень похожих, но не идентичных последовательностей; 3. Белковые – предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их участков. Туда входят алгоритмы: • blastp – медленное сравнение с целью поиска всех сходных последовательностей; • psi–blast – сравнение с целью поиска последовательностей, обладающих незначительным сходством; • phi–blast – поиск белков, содержащих определенный пользователем паттерн и др. 4. blastx – сравнивает транслированную последовательность с базой данных белковых последовательностей. 5. tblastn – сравнивает аминокислотную последовательность с базой данных транслированных нуклеотидных последовательностей. 6. tblastx – сравнивает транслированную последовательность ДНК с базой данных транслированных нуклеотидных последовательностей. 7. Специализированный • cdart – сравнение с целью поиска гомологичных белков по доменной архитектуре; • VecScreen – определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.; • bl2seq – локальное выравнивание двух последовательностей и др. 34 Принцип работы BLAST. Сначала алгоритм BLAST создает таблицу всех «близких» слов фиксированной длины (по умолчанию – длины 3 для белковых последовательностей, 11 — для нуклеотидных), которые бы локально выравнивались с заданной последовательностью. При этом вес выравнивания должен быть выше некого порогового значения. Затем алгоритм сканирует базу данных, и всякий раз, когда находит слово из списка, начинает процесс «расширения совпадения», чтобы увеличить возможный участок выравнивания без разрывов, в обоих направлениях, до достижения максимального веса. После этого вычисляется статистическая значимость найденных совпадений, и если она превышает определенный порог, то выдается результат. Результат поиска, например в blastn, включает в себя: 1) Графическое изображение обнаруженных гомологов; 2) Список гомологов с оценкой значимости находки; Для каждой обнаруженной последовательности необходимо определить значимость сходства с изучаемой последовательностью. Для этого программа вычисляет вес (score) выравнивания и величину E (expected value, E–value). E–value – это ожидаемое количество последовательностей с весом выравнивания равным или большим веса для анализируемой последовательности, которые, вероятно, будут обнаружены при поиске в базе данных. Чем выше вес, тем больше сходство двух последовательностей. Чем меньше величина Е, тем достовернее выравнивание. При этом следует учитывать, что гомология ниже 50 % при больших значениях E–value, как правило, несущественна. 3) Локальные парные выравнивания нуклеотидной последовательности с последовательностями гомологов. 35 Вопросы: 1. Что такое выравнивание, каковы его цели и задачи? Назовите основные типы выравниваний. 2. Для чего нужны матрицы замен? 3. Чем отличается линейный штраф за разрывы от аффинного? 4. Опишите алгоритм глобального выравнивания Нидлмана – Вунша. 5. Для чего используется локальное выравнивание по алгоритму Смита – Уотермана? Его отличия от глобального выравнивания. 6. Для каких целей используют программы серии CLUSTAL? 7. Перечислите основные группы программ серии BLAST, для каких целей они применяются? 4. Предсказание структуры генов эукариот. 4.1. Краткие сведения о структуре генов. Гены эукариот можно разделить на две группы: белок–кодирующие и РНК–кодирующие. Белок–кодирующие гены транскрибируютя в матричную РНК (мРНК), которая затем транслируется в аминокислотную последовательность белка. РНК–кодирующие гены кодируют разные виды РНК: транспортные РНК (тРНК), рибосомальную РНК (рРНК), малые ядерные РНК (мяРНК) и др. В отличие от прокариот гены эукариот устроены сложнее, в составе геномов значительно больше ДНК. Так, при изучении геномов растений возникают трудности, которые связанные с огромными размерами геномов. Для отдельных видов растений они достигают десятков и даже сотен миллиардов пар нуклеотидов (п.н.). Геномы основных хозяйственно важных растений (кроме риса, льна и хлопка) по размерам либо близки к геному человека, либо превышают его во много раз (таблица 4.1). 36 Таблица 4.1. Размеры гаплоидных геномов различных организмов (по Зеленину А.В., 2003). Организм Размер генома, млн. пар нуклеотидов Кишечная палочка (Escherichia coli) 4,5 Пекарские дрожжи (Saccharomyces cerevisiae) 13,55 Круглый червь (Caenorhabditis elegance) 97 Цветковое растение класса двудольных 125 (Arabidopsis thaliana) Фруктовая муха дрозофила (Drosophila melanogaster) Лен *(Linum L.) 180 350–680 Рыба фугу (Fugu rubripes) 365 Рис (Oriza sativa, 420–470 Oriza sativa L.ssp indica, 420 Oriza sativa L. Ssp japonica) 466 Хлопок (Gossipium L.) 2100–3100 Кукуруза (Zea mays) 2500 Мышь (Mus musculus L.) 3000 Человек (Homo sapiens) 3200 Рожь (Secale cereale) 6000–7000 Ячмень (Hordeum vulgare) « Диплоидная пшеница (Triticum monococcum) « Тетраплоидная пшеница (Triticum durum) 12000–13000 Гексаплоидная пшеница (Triticum aestivum) 16000–18000 Лилейные(Lilium L.) 50000–125000 * Причина различий размеров геномов – в полиплоидии. Наблюдаются резкие колебания чисел хромосом у различных растений – от двух у некоторых видов до нескольких сотен у других, причем не 37 удается выявить строгой корреляции между размером генома и числом хромосом. Кроме того, растения отличаются изобилием полиплоидных форм с близкими, но не идентичными геномами (аллополиплоидия) и др. Отличительным свойством эукариотических генов является экзонинтронная организация их структуры. Белок–кодирующий последовательность из ген эукариот сочетаний – четырех это длинная нуклеотидов, линейная содержащая транскрибируемую часть ДНК, а также 5’ и 3’ нетранскрибируемые фланкирующие районы, которые необходимы для регуляции транскрипции и процессинга прематричной РНК (пре–мРНК). Гены эукариот разделены на серию отрезков, при этом кодирующие белок фрагменты (экзоны) чередуются с некодирующими фрагментами (интронами). Во время транскрипции считывается вся протяженность гена, содержащая как экзоны, так и интроны. Затем в ходе созревания мРНК (или процессинга) в молекуле РНК вырезаются и удаляются участки, считанные с интронов, а те фрагменты, что были считаны с экзонов, соединяются в одну общую последовательность. Происходит их сшивка (сплайсинг). Все экзоны можно разделить на 4 класса: 5’–экзоны, внутренние экзоны, 3’–экзоны и экзоны, находящиеся в составе безинтронных генов. Процесс сплайсирования происходит на коротких участках мРНК, называемых сайтами сплайсинга. Выделяют донорный сайт, акцепторный сайт и сайт ветвления. Каждый тип сайта описывается определенной консенсусной последовательностью. Число, внутренняя локализация интронов и их длина характерны для каждого гена. Экзоны, как правило, имеют небольшую длину, от 100 до 600 п.н., а длина интрона может варьировать в широких пределах – от нескольких десятков пар нуклеотидов до многих десятков тысяч. Обычно интрон начинается с динуклеотида GT и заканчивается AG, что обеспечивает правильный сплайсинг. 38 В некоторых клетках в мРНК информация считывается не со всех экзонов данного гена, а только с некоторых. В клетках другого типа – с другого набора экзонов. В результате с одного гена считывается несколько вариантов мРНК. Эти разные мРНК образуются в результате удаления фрагментов, соответствующих разным экзонам, и соответственно их сплайсинга, который в данном случае называется альтернативным. Каждая из таких мРНК транслируется в определенной группе клеток, в результате чего синтезируется один из вариантов белка, в других клетках – другой набор экзонов и соответственно другой белок. Один активирующий сигнал включает только один ген, но за счет альтернативного сплайсинга синтезируется много различных белков. Экзон–интронная структура гена эукариот и альтернативный сплайсинг обеспечивают огромную емкость кодирования генетической информации. Регуляция транскрипции у эукариот также имеет особенности. Вопервых, у эукариот функционируют три разных типа РНК-полимераз: I, II, III. Во-вторых, РНК-полимераза эукариот не может самостоятельно инициировать транскрипцию. Для ее активирования необходимо большое число белков, называемых общими факторами транскрипции, которые должны объединяться в комплекс, прежде чем транскрипция начнется. Формирование комплекса – это многоступенчатый процесс. Во многих случаях регуляторные белки действуют, влияя главным образом на процесс сборки транскрипционного комплекса. И, в-третьих, большинство регуляторных белков могут влиять на скорость транскрипции, даже если эти белки связываются с участками ДНК, расположенными за тысячи пар нуклеотидов от промотора. Это значит, что любой конкретный промотор может находиться под контролем неограниченного числа регуляторных последовательностей, разбросанных по геному. Существуют энхансерные последовательности, которые служат в качестве специфических участков (сайтов) связывания особых регуляторных белков, усиливающих или активирующих процесс транскрипции. 39 4.2. Методы предсказания структуры генов эукариот. Одной из задач биоинформатики является выявление генов в анализируемой последовательности. Анализ структуры гена включает в себя определение его границ, а также границ, содержащихся в нем экзонов и интронов. Существует большое количество программ, занимающихся распознаванием экзон-интронной структуры генов. Одними из первых подходов анализа пре-мРНК были методы, основанные на поиске коротких сайтов сплайсинга. Затем для анализа и учета межпозиционных взаимозависимости стали использовать более сложные способы описания сайтов сплайсинга, такие как марковские модели и нейронные сети. В последние годы появилось большое количество методов предсказания структуры генов, основанных на теории скрытых марковских моделей (HMM). В этом случае последовательность ДНК гена рассматривается как набор подпоследовательностей–состояний (интрон, экзон и т.д.). Состояния называются скрытыми, поскольку в исследуемой ДНК заранее неизвестно где находятся границы перехода из одного состояния в другое. Границы выявляют по вероятностям сочетаний соседних нуклеотидов. Для этого подпоследовательностей (с на основе известными обучающей границами) выборки оцениваются вероятности переходов между соседними нуклеотидами внутри каждого состояния, а также вероятности переходов между состояниями. В результате получают настроенную НММ, по которой и ведут анализ новых последовательностей. На данный момент существует достаточно много программ распознавания генов, основанных на теории скрытых марковских моделей. Одной из них является программа GenScan. Адрес GENSCAN: http://genes.mit.edu/GENSCAN.html 40 Эта программа первоначально была обучена для распознавания генов у позвоночных животных. Версия программы для позвоночных надежно работает на последовательностях Drosophila, версии для Arabidopsis и кукурузы хорошо работают на этих объектах. Другая программа для распознавания генов – GENIE. Эта программа может использовать для распознавания отдельных элементов гена различные методы. В частности, для распознавания сайтов сплайсинга использовались модели нейронных сетей, а для распознавания кодирующих районов – марковские модели. Объединение всех этих элементов в единую модель гена производилось с помощью скрытых марковских моделей. Программа GENIE предназначена для анализа мультиэкзонных генов. Она обучена на человеческих генах, но авторы полагают, что хорошие результаты могут быть получены и для анализа генов других позвоночных. Если задать опцию "беспозвоночные", то программа более надежно выявляет элементы генов у Drosophila и других беспозвоночных. Адрес GENIE: http://www.fruitfly.org/seq_tools/genie.html Для значительного использовать повышения информацию об качества распознавания известных можно гомологичных последовательностях, представленных в банках данных. Одним из таких подходов является метод, реализованный в программе TwinScan. Адрес TwinScan: http://www.bioinformatics.ubc.ca/resources/tools/twinscan Алгоритм этой программы состоит из нескольких шагов. Сначала производится выравнивание анализируемой последовательности с гомологами определенного вида из базы данных. В выравнивании отмечаются пропуски, несовпадения, совпадения. По этой цепочке находят наиболее вероятную структуру гена (интроны, зкзоны) с помощью скрытой марковской модели. Она заранее настраивается на основе информации о выравнивании последовательностей генов этих видов, представленных в базах данных. 41 Кроме использования скрытых марковских моделей можно использовать известный метод дискриминантного анализа, реализованный в программе MZEF. Здесь по обучающей выборке генов рассчитываются вероятностные веса всех входящих в ген элементов (сайты сплайсинга, интроны, экзоны и т.д.). На основании этой информации строится дискриминантная функция, наилучшим образом разделяющая разные элементы обучаюших данных. Далее эта функция используется для анализа новых генов. Программа MZEF использует квадратичный дискриминантный анализ и предназначена для поиска внутренних экзонов. Адрес MZEF: http://www.cshl.edu/OTT/html/mzef.html Определенное распространение при распознавании генов получило также использование нейронных сетей. Одним из представителей этого подхода является метод, реализованный в программе GRAIL. Здесь производится расчет разнообразных свойств тестовых последовательностей экзонов. Затем, на основе этих свойств настраивается модель нейронной сети и по ней далее производится распознавание экзонов в новых последовательностях. После этого проводят «сшивку» предсказанных экзонов с помощью метода динамического программирования. Адрес GRAIL: http://compbio.ornl.gov/Grail–1.3/ Вопросы: 1. Назовите основные особенности генов эукариот. 2. Какие трудности возникают при анализе геномов растений? 3. Перечислите основные методы предсказания структуры генов эукариот. 5. Анализ генетических расстояний. 5.1. Эволюционные замены в последовательностях ДНК. Рассмотрим типы замен в нуклеотидных последовательностях, возникающих в процессе эволюции. Замены делятся на два класса: транзиции 42 и трансверсии. К транзициям относят замены одного пурина на другой пурин (аденин ↔ гуанин) или одного пиримидина на другой пиримидин (тимин ↔ цитозин). Все остальные варианты нуклеотидных замен называются трансверсиями. Для белок–кодирующих генов замены, приводящие к синонимичным кодонам, называются синонимичными, а при замене кодона на несинонимичный кодон – несинонимичными или аминокислотными замещениями. Мутации, приводящие к появлению стоп– кодонов (UAA, UAG, UGA), называются нонсенс–мутациями. В связи с известными свойствами генетического кода синонимичные замены возможны только в третьей и, реже, в первой позициях триплета. Все нуклеотидные замены во второй позиции либо несинонимичны, либо приводят к стоп – кодонам. В биоинформатике весьма важно, какие упрощающие модельные предположения используются при изучении процесса эволюции. Если предположить, что кодоны имеют равную частоту в ДНК, нет влияния отбора и вероятность любой замены одинакова для каждого нуклеотида, то соотношение синонимичных, несинонимичных и нонсенс–мутаций, как определил М. Ней, должно быть 25%, 71% и 4%, соответственно. Конечно, на практике это соотношение не выполняется, в частности, для районов, находящихся под действием отбора. Нуклеотидная последовательность может или кодировать или не кодировать белок. Некодирующие последовательности, которые составляют большую часть ДНК, могут быть разных типов: промоторы, повторы, транспозоны и др. Частоты нуклеотидных замен различны для разных районов ДНК. Если бы появление одного из четырех нуклеотидов в любой позиции последовательности было равновероятно, то, при отсутствии отбора в белок–кодирующих последовательностях, триплеты, кодирующие одну и ту же аминокислоту, встречались бы в ДНК с равной частотой. Но в реальности существуют механизмы, вызывающие «перекос» частот нуклеотидов и кодонов в ДНК. 43 В частности, одна и та же аминокислота кодируется кодонами с разной частотой – некоторые кодоны используются чаще других. Так, аргинин почти всегда кодируется GGU и GGC, а кодоны CGA, CGG, AGA и AGG встречаются редко. Подобные предпочтения при закреплении кодонов в ДНК, кодирующих аминокислоты, показаны для многих про– и эукариот. Например, у E.coli и дрожжей для генов с высоким уровнем экспрессии существует корреляция между частотами встречаемости кодонов в ДНК и концентрацией соответствующих тРНК в клетке. То есть концентрация тРНК, соответствующая часто используемому кодону в клетке, больше, чем концентрация тРНК, соответствующая редко используемому кодону. Однако это правило не работает для генов с умеренным уровнем экспрессии. В этом случае вероятность выбора разных кодонов в кодирующих участках ДНК для одной аминокислоты практически одинакова. Возможно, нуклеотидные замены происходят более или менее равновероятно, но у активно экспрессирующихся генов кодоны, не соответствующие избыточной тРНК, удаляются отбором, как неэффективные для синтеза белка. В умеренно экспрессирующихся генах давление отбора не настолько сильно, поэтому появляется возможность использования разных кодонов. На предпочтение в использовании кодонов кроме избыточности тРНК также оказывает влияние направленное мутационное давление. Показано, что относительная концентрация нуклеотидов G и С (GC содержание) у бактерий варьирует в широких пределах от 25% до 75%. Предполагается, что такая изменчивость возникает главным образом благодаря различиям между скоростями некоторых мутаций в нуклеотидных последовательностях разных видов. Например, у бактерии Mycoplasma capricolum мутационное давление GC→AT настолько велико, что в третьей молчащей позиции кодона почти всегда находятся нуклеотиды А или Т. 44 В настоящее время подобных сведений для растений и животных недостаточно, поэтому обычно при моделировании процессов эволюции используют простые «усредненные» предположения. 5.2. Методы оценки расстояний. Рассмотрим статистические методы для расчета так называемых эволюционных расстояний между двумя формами (популяциями, видами и т.п.) через частоту замен нуклеотидов в двух однотипных выравненных последовательностях, извлеченных из этих форм. Для простоты предположим, что разрывов (–) нет. Эволюционные расстояния являются основой для построения филогении и расчета времени расхождения сравниваемых форм. То есть для однотипных нуклеотидных последовательностей 2–х форм (например, один локус с известной функцией), расстояние измеряется количеством замен на сайт. Упрощенно, чем больше замен на сайт обнаружено, тем раньше разошлись две формы в процессе эволюции (концепция молекулярных часов). Оценки эволюционных расстояний могут быть также использованы при подборе пар сортов для гибридизации. Чем они больше, тем более несходны сорта по общему аллельному составу. Следовательно, их потомство, как ожидается, проявит больший полиморфизм. Выше упоминалось, что разные типы последовательностей могут эволюционировать по–разному в зависимости от их функции. Кроме того, частоты мутационных событий различны для разных районов ДНК. В кодирующих районах скорость нуклеотидных замен отличается в первой, второй и третьей позициях кодона: она максимальна в третьей позиции и минимальна во второй. Все это желательно учесть при моделировании процесса эволюции. 45 Для оценки эволюционных расстояний разработано много различных методов. Прежде чем использовать тот или иной метод, необходимо уяснить в каких именно случаях он применяется. Расстояние р Различия между двумя нуклеотидными последовательностями равной длины n позволяют оценить так называемое расстояние р, непосредственно через долю (частоту) несовпадений между ними. где nd – это число различающихся нуклеотидов двух однотипных последовательностей; Следует подчеркнуть, что истинное эволюционное расстояние теоретически следует оценивать по всему геному двух форм. Из-за ограниченности числа n оценка истинного эволюционного расстояния р несет ошибку выборочности. Дисперсию ошибки оценки вычисляют по формуле Для вычисления р заменяется на долю . Оценки р достаточно, например, при сравнении сортов, но не для изучения процесса эволюции. Доля несовпадений (р) лишь приблизительно оценивает частоту замен нуклеотидов на сайт. Иногда необходимо учесть различие частот мутаций разных типов в сравниваемых последовательностях, возможность обратных мутаций и пр. Рассмотрим две однотипные нуклеотидные последовательности: Х и Y. В любой позиции каждой из них для 4–х оснований (А, Т, С, G) возможны 42=16 разных комбинаций нуклеотидов, которые представлены в таблице 5.1. Первая буква обозначает нуклеотид последовательности Х, а вторая буква – Y в этой же позиции. Из 16 комбинаций нуклеотидов выделяют четыре пары 46 одинаковых нуклеотидов (АА, ТТ, СС, и GG), четыре пары транзиций (AG, GA, ТС, и CT) и восемь пар трансверсий. Суммарные частоты одинаковых пар в Х и Y обозначим I, частоты транзиций – Р, а частоты трансверсий – Q. p=P+ Q Таблица 5.1. Типы пар нуклеотидов, находящихся в одной позиции последовательностей Х и Y, и обозначения частот их встречаемости. Пояснения в тексте. Нуклеотидная пара Частота Нуклеотидная пара Частота Идентичные нуклеотиды Трансверсии АА I1 AT Q 11 ТТ I2 TA Q 12 СС I3 AC Q 21 GG I4 CA Q 22 Сумма I TG Q 31 Транзиции GT Q 32 AG Р11 CG Q 41 GA Р12 GC Q 42 TC Р21 Сумма Q CT Р22 Сумма Р Видим, что число трансверсий в два раза больше, чем транзиций. Следовательно, если бы разные нуклеотидные мутантные замены возникали равновероятно, то, для близких последовательностей недавно разошедшихся форм, величина Q была бы в два раза больше Р. Но транзиции, как правило, происходят чаще трансверсий, поэтому Р обычно больше Q. Оценки можно получить последовательностей. непосредственно Доля при анализе двух транзиций/трансверсий и сравниваемых для близких последовательностей оценивается по выборке экспериментальных пар нуклеотидов как 47 Для многих ядерных генов величина R находится в интервале 0,5 – 2. Дисперсию ошибки оценки При вычислении вычисляют по формуле вместо R, P и Q используются их оценки. Для небольшого числа нуклеотидов (n) сравниваемых последовательностей дисперсия может быть очень большой. Кроме того, расстояние р эффективнее использовать для близких последовательностей. Для более удаленных последовательностей эта оценка занижена, так как не учитывает обратные и параллельные мутации. Последние возникают когда у двух разных последовательностей за время их раздельной эволюции одна и та же замена происходит в одном сайте. Поэтому для более корректных оценок эволюционного расстояния были предложены разные модели. В таблице 5.2 представлены некоторые модели, отличающиеся предположениями о неравных скоростях замещения нуклеотидов. Таблица 5.2. Некоторые модели нуклеотидных замен при точковых мутациях. A A T C G – α α α A T C G – β β α T C Модель Джукса – Кантора α α – α α – α α Модель Кимуры β β – α α – β β вероятностей G A α α α – – αgA αgA αgA α β β – – βgA βgA α1gA (скоростей) T C Модель Таджимы – Нея αgT αgC – αgC αgT – αgT αgC Модель Тамуры – Нея βgT βgC – α2gC α2gT – βgT βgC G αgG αgG αgG – α1gG βgG βgG – В ячейках указана вероятность замены нуклеотида из i–ой строки на нуклеотид из j –го столбца. gA, gT, gC, gG – частоты нуклеотидов A, T, C, G в 48 двух сравниваемых формах. При получении оценок их заменяют на соответствующие частоты в двух сравниваемых последовательностях. Модель Джукса – Кантора. Эта модель для оценки эволюционного расстояния по нуклеотидным заменам была предложена в 1969 году. В ней предполагается одинаковая частота нуклеотидных замен для разных сайтов: вероятность замены данного нуклеотида на один из трех возможных за фиксированный промежуток времени постоянна и равна α (табл. 5.2). Можно показать, что ожидаемое число (d) произошедших нуклеотидных замен на сайт в рамках данной модели выражается через р следующим образом: Напомним, что р – доля разных нуклеотидов в последовательностях X и Y. Ограничение параметра d: р < . Выборочная дисперсия ошибки оценки вычисляется по формуле: То есть эволюционное расстояние в этой и трех других моделях (табл. 5.2.) фактически оценивается по d, но в разных предположениях. Модель Кимуры. Поскольку скорость транзиций, как правило, больше, чем трансверсий, то М. Кимура в 1980 г. разработал метод оценки эволюционного расстояния через число нуклеотидных замен на сайт, в предположении, что скорость транзиций отличается от скорости трансверсий. 49 Пусть α – скорость транзиций на сайт в год; 2β – скорость трансверсий на сайт в год (табл. 5.2). Тогда суммарная скорость замен на сайт в год равна α + 2β. Ожидаемое число нуклеотидных замен на сайт в рамках этой модели: = – (1/2)ln(1–2P– Q) – (1/4)ln(1–2 Q) Значения Р и Q (табл. 5.1.), как отмечено выше, оценивают непосредственно по двум сравниваемым последовательностям X и Y. Показано, что параметры P и Q связаны с t – временем, прошедшим после дивергенции двух последовательностей следующим образом: Дисперсию ошибки вычисляют по формуле: где Модель Таджимы – Нея (1984). Здесь учитываются нуклеотидные частоты (gA, gT, gC, gG) в двух сравниваемых формах (табл 5.2). Поэтому модель используют в том случае, когда эти четыре частоты значительно различаются, но в мутационном процессе нет сильно выраженных предпочтений транзиций или трансверсий. Оценку эволюционного расстояния двух сравниваемых форм через число нуклеотидных замен d на сайт вычисляют по формуле: где , 50 Здесь xij (i < j) – частоты пар нуклеотидов i, j (то есть частоты AT, AG и т.д.) в ДНК двух сравниваемых форм; gi – частоты четырех нуклеотидов: A, T, C, G. Формула для дисперсии ошибки имеет вид: Модель Тамуры – Нея (1993 г.). Эту модель используют, когда нуклеотидные частоты (gA, gT, gC, gG) различаются и есть выраженные предпочтения транзиций или трансверсий, а также содержания GC в последовательностях. Для этой модели выражение для и оценки дисперсии сложное и вычисляется с помощью программ MEGA и MEGA2. Учёт нуклеотидных различий между полиморфными формами. Рассмотренные выше модели оценки числа нуклеотидных замен между двумя последовательностями от разных форм, видов, популяций и т.п. не учитывали их возможный внутренний полиморфизм. Однако, для того, чтобы оценить размах дивергенции ДНК, например, между двумя популяциями эффект их внутреннего полиморфизма необходимо учитывать. Предположим, что для фрагмента ДНК (локуса) имеется q различных аллелей, и из популяций X и Y выбраны mx и my последовательностей. Пусть и – частоты в выборках i–го аллеля для популяции X и Y соответственно. Среднее количество нуклеотидных замен для случайно выбранной пары аллелей в популяции X (dx – нуклеотидное разнообразие) можно вычислить как 51 где – оценка числа нуклеотидных замен на сайт между i–м и j–м аллелями. В частности, если все последовательности ДНК в X различны, то = 1/mx. Нуклеотидное разнообразие для Y оценивается аналогично. Среднее количество нуклеотидных замен на позицию между аллелями популяций Х и Y вычисляется как где – оценка нуклеотидных замен между i–м аллелем из X и j– м аллелем из Y. Или иначе где – ^ оценка количества нуклеотидных замен между i–ой последовательностью (не аллелем), взятой из популяции X и j–ой последовательностью из популяции Y. Пусть имеется mX и mY последовательностей, взятых из популяций X и Y. Тогда общее количество нуклеотидных замен между двумя популяциями Дисперсия вычисляется по формуле вычисляется по формуле Для надежной оценки несходства между полиморфными популяциями или сортами желательно оценивать и усреднять эволюционные расстояния по нескольким локусам. 52 Интерпретация разрывов при оценке эволюционных расстояний. При наличии инсерций /делеций после выравнивания нуклеотидных последовательностей возникает проблема их учета при расчете dij, в частности, для последующего построения филогении. Кроме того, ошибочная информация или ее отсутствие для конкретного сайта приводят к тем же сложностям при интерпретации выравнивания, что и разрывы. Эти сайты становятся неинформативными. В результате такие сайты не учитываются при вычислении эволюционного расстояния, однако есть несколько способов это сделать. Во-первых можно не учитывать такие сайты совсем. Такой способ называется полное удаление (complete–deletion). Поскольку разные районы ДНК эволюционируют по–разному, то этот способ предпочтительнее. С другой стороны, если во всех последовательностях встречаются делеции нескольких нуклеотидов, расположенные относительно случайно, то можно посчитать попарные расстояния, не учитывая только разрывы в рассматриваемой паре последовательностей. Этот способ называется попарное удаление (pairwise– deletion). В качестве иллюстрации рассмотрим три фрагмента ДНК: 1) A–AC–GGAT–AGGA–ATAAA 2) AT–CC?GATAA?GAAAAC–A 3) ATTCC–GA?TACGATA–AGA Знак (–) обозначает разрыв, а знак (?) – неинформативный сайт в выравнивании. В таблице 5.3 приведены результаты вычисления расстояний двумя способами, т.е используя полное и попарное удаление. Таблица 5.3. Определение расстояния р с использованием полного и попарного удаления. Способ учета разрывов Полное удаление Попарное удаление Сравниваемые последовательности 1) ACGAAGAAAA 2) ACGAAGAAСA 3) ACGAAGAAAA Попарное сравнение 1) и 2) последовательностей Расстояние р 1/10 1) A–AC–GGAT–AGGA–ATAAA 2) AT–CC?GATAA?GAAAAC–A 3) ATTCC–GA?TACGATA–AGA 1) и 3) 2) и 3) 1) и 2) 1) и 3) 2) и 3) 0/10 1/10 2/12 3/13 3/14 53 При использовании первого способа не учитываются все разрывы и неинформативные сайты. Таким образом, для сравнения остается только 10 нуклеотидов, и расстояния р между последовательностями 1) и 2), 1) и 3), 2) и 3) оцениваются как 0,1; 0 и 0,1 соответственно. В случае попарного удаления число сравниваемых нуклеотидов для каждой пары будет разным, также как и расстояние р. Еще один подход для расчета dij после выравнивания нуклеотидных последовательностей – рассматривать разрыв (–) как еще один (5–й) символ (кроме A, T, C, G) и дополнять модели замен соответствующими вероятностями. Недостаток этого подхода заключается в том, что возникновения разрывов считаются независимыми событиями, даже если оно образуют серии. 5.3. Пример – сопоставление оценок эволюционного расстояния. Рассмотрим пример, представленный в работе М. Нея и С. Кумара. Для оценки эволюционного расстояния между человеком и макакой резус были использованы последовательности гена цитохрома b митохондриальной ДНК. Общее число сравненных нуклеотидов в гене: 375 кодонов x 3=1125. В таблице 5.4. приведены числа для десяти различных типов нуклеотидных пар двух последовательностей. Численности пар в первой, второй и третьей позициях кодона приведены отдельно. По этим данным были вычислены оценки числа нуклеотидных замен, используя рассмотренные выше модели. Например, суммарное число различий (nd) по первой позиции всех кодонов двух последовательностей nd=21+22+5+1+5+4=58. Можно оценить число замен на сайт отдельно для первой позиции кодонов с использованием расстояния р: 54 Таблица 5.4. Наблюдаемое число различных и идентичных нуклеотидных пар между митохондриальными генами цитохрома b человека и макаки резус. Транзиции Трансверсии Идентичные пары Сумма nd Позиция в кодоне Первая TC AG 21 22 5 1 5 4 68 93 100 56 58 375 Вторая 20 3 6 1 0 2 140 87 71 45 32 375 Третья 60 16 6 5 49 2 11 122 102 2 138 375 Суммарно 101 41 17 7 54 8 219 302 273 103 228 1125 TA TG CA CG TT CC AA GG (n) Дисперсия ошибки оценки : Среднеквадратическая ошибка вычисляется как: Также вычисляются значения для второй и третьей позиций кодонов. Аналогично – для d в предположении справедливости каждой из 4–х моделей таблицы 5.2. В таблице 5.5. приведены оценки p и d. Таблица 5.5. Оценки числа замен на сайт в процентах со среднеквадратическими ошибками. Позиция в кодоне Расстояние Модель Джукса– Кантора Модель Кимуры Модель Таджимы–Нея Модель Тамуры–Нея Первая 15,5±1,9 17,3±2,4 17,8±2,5 18,0±2,6 17,9±2,5 Вторая 8,5±1,4 9,1±1,6 9,2±1,7 9,2±1,7 9,3±1,7 Третья 36,8±2,5 50,6±4,9 52,3±5,4 66,5±9,4 87,9±3,9 Видно, что наименьшее значение р получено для второй позиции кодона, а наибольшее – для третьей. Это свидетельствует о том, что 55 синонимичные замены в основном происходят в третьей позиции. Для второй позиции оценки числа нуклеотидных замен, полученные разными методами, почти совпадают. Самое большое значение dij для третьей позиции было получено по модели Тамуры–Нея. Оно больше расстояния р более чем в два раза и значительно превышает другие расстояния, что связано как максимально подробным учетом характеристик мутаций, так и с особенностью эволюции цитохрома с. Вопросы: 1. Перечислите основные типы мутационных изменений последовательностей ДНК без изменения групп сцепления. 2. Что такое транзиции, трансверсии, синонимичные и несинонимичные замены, нонсенс мутации? 3. В чем сложность моделирования процессов эволюции в связи с использованием частот нуклеотидов и кодонов в ДНК? 4. Что такое эволюционное расстояние и для чего его можно использовать? 5. Какими способами можно оценить различия между двумя нуклеотидными последовательностями равной длины при сравнении двух сортов растений? 6. Как можно оценить величину R при сравнении двух близких последовательностей? 7. В чем отличие разных моделей оценки эволюционных расстояний? 8. Опишите модель учета нуклеотидных различий между полиморфными формами. 9. Опишите способы учета разрывов при оценке эволюционных расстояний. 56 6. Молекулярная филогенетика. Филогенетика изучает эволюционные связи между организмами (формами). Молекулярная филогенетика – это изучение филогенеза путем анализа нуклеотидных и аминокислотных последовательностей, то есть моделирование и анализ эволюционных процессов на молекулярном уровне. Филогенетические связи сравниваемых форм можно представить в виде так называемых филогенетических деревьев, отражающих графически их генетическую близость и общность происхождения. Раньше для построения филогенетических деревьев использовались классические методы сравнительной физиологии и сравнительной морфологии современных и ископаемых организмов. Но генетические изменения морфологических и физиологических признаков слишком сложны для количественного анализа. Изучение ископаемых остатков тоже не может дать полной информации об эволюции. Поэтому результаты анализа часто оказывались противоречивыми. Благодаря достижениям молекулярной генетики появилась возможность изучать эволюционные связи между организмами сравнивая их ДНК. Преимущество этого подхода состоит в том, что ДНК подходит для сравнения форм любых групп организмов (бактерии, растения, животные), что невозможно при классическом подходе. Кроме того, эволюционные изменения ДНК носят довольно регулярный характер, поэтому для их описания можно применить математические модели. Еще одно преимущество использования ДНК состоит в том, что геномы организмов, состоящие из длинных нуклеотидных последовательностей, содержат намного больше филогенетической информации, чем морфологические признаки. Если идентифицировать гены, отвечающие за формирование определенного признака и изучить их эволюционные изменения, то иногда удается выявить мутационные изменения, которые привели к появлению этого признака. Возможно восстановление филогенетического дерева не 57 только для сравнения родства видов, но и для различных аллелей внутри одного вида. Кроме того, филогенетический анализ полиморфизма аллелей может выявить размер генетического обмена между популяциями, другими формами, сортами и т.п. 6.1. Филогенетические деревья. Итак, эволюционные отношения между генами или формами можно представить в виде филогенетического дерева. Каждое дерево состоит из так называемых узлов и ветвей, соединяющих узлы. Различают наружные (терминальные) и внутренние узлы. Наружные узлы обозначают таксоны или другие формы вне рассмотрения, а внутренние узлы объединяют родственные таксоны среди сравниваемых. Ветви также бывают наружными и внутренними. Длина ветви численно характеризует изменения, которые произошли между таксонами в процессе эволюции или селекции. Все филогенетические деревья можно разделить на две категории: деревья с корнем и деревья без корня. Корень – это общий предок всех рассматриваемых форм. Соответственно, для деревьев с корнем подразумевается наличие какой–либо априорной информации об общем предке сравниваемых форм, а для деревьев без корня – отсутствие данных о таком предке. Характер ветвления филогенетического дерева называется его топологией. Построенное дерево можно представить в виде кладограммы или филограммы. На кладограмме представлена только топология, а длина ребер игнорируется. На филограмме длина ребер пропорциональна эволюционному расстоянию между узлами. Большинство методов филогении рассчитаны на бинарные деревья. У бинарного дерева каждая эволюционная ветвь может делиться лишь на две дочерние. Даже для небольшого числа m – сравниваемых аллелей, организмов, форм или таксонов существует целый набор потенциальных деревьев 58 (топологий) с корнями и без (табл. 6.1). Например, для четырех таксонов (m=4) существует 15 топологий для деревьев с корнями и 3 для деревьев без корней (рис 6.1). Табл. 6.1 Показатели, характеризующие бинарные деревья с корнем и без для m таксонов. Показатель Бинарное дерево с корнем Бинарное дерево без корня 2m–2 2m–3 m–2 m–3 2m–1 2m–2 m–1 m–2 Число возможных топологий Общее число ветвей Число внутренних ветвей Общее число узлов Число внутренних узлов a bc d a c b d a d b c b a c c b a c d a b d a d d b b c d a b c a d a b c c d a c b d a c c a b d b a c d c a b d b d a c a b a b b d c d d c Рис. 6.1 Возможные топологии деревьев с корнями (первые 15) и без для 4 таксонов (a, b, c, d). 59 Хорошо видно, что с ростом m число возможных топологий быстро возрастает. Так, при m=10 существует 34459425 топологий бинарных деревьев с корнем и 2027025 бинарных деревьев без корня. И только одна из всех топологий является истинной. Понятно, что для больших значений m нахождение истинной единственной топологии, то есть установление истинного родства сравниваемых форм является трудноразрешимой генетико–статистической задачей. 6.2. Деревья видов и деревья генов. Филогенетическое дерево, отражающее эволюционную историю группы видов (популяций, сортов и т.п.), называют деревом видов или популяционным деревом. Для этого дерева время расхождения между двумя видами соответствует моменту наступления их репродуктивной изоляции. Но дерево, построенное для видов на основе одного гена (дерево гена), может не соответствовать дереву видов. Так, если локус полиморфен, то расхождение генов обычно происходит раньше, чем расхождение популяций или видов, и топология дерева генов может отличаться от топологии дерева видов (рис 6.2). Но возможна и обратная ситуация, когда локус начинает дивергировать вследствие видообразования. На рисунке 6.2. представлены три возможных варианта деревьев генов для трех видов (X, Y, Z) при наличии полиморфизма и не противоречащее им единственное видовое дерево. Прямоугольники А и В обозначают предковые виды, а X, Y, Z – ныне существующие виды. Топология (но не время расхождения) деревьев гена a, b и видового дерева d совпадают, а топология дерева c отличается от дерева d. Показано, что для близкородственных видов или внутривидовых популяций дерево видов может достаточно часто отличаться от дерева гена. Достоверное дерево видов (d) для подобных ситуаций можно получить, анализируя аллельные варианты большого числа независимо эволюционировавших, то 60 есть не сцепленных локусов. Также следует отметить, что короткие последовательности могут привести к неправильной топологии дерева гена. Это связано с тем, что аминокислотные и нуклеотидные замены носят случайный характер, и число замен в ветви, ведущей к Z на топологиях а и b, может быть случайно меньше, чем в ветви, ведущей к X или Y. Итак, подобных ошибок можно избежать, анализируя достаточно длинные аминокислотные или нуклеотидные последовательности нескольких локусов. (а) (b) А (c) А (d) А А В В В В X Y Z X Y Z X Y X Z Y Z Рис 6.2 Возможные деревья генов при возникновении полиморфизма в локусе (a, b и c) и видовое дерево (d) для видов X, Y, Z. Пояснения в тексте. При сравнительном анализе нуклеотидных и аминокислотных последовательностей возникла необходимость разделения гомологичных последовательностей на ортологичные и паралогичные. Гомологичные последовательности называют ортологичными, если к их разделению привел процесс видообразования. То есть, если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами. Гомологичные последовательности называют паралогичными, если к их разделению привело удвоение гена. То есть, если в пределах одного 61 организма вида–предка в результате хромосомной мутации произошло удвоение (дупликация) гена, то его копии называют паралогами. Ортологи обычно выполняют идентичные или сходные функции. Однако это не всегда справедливо в отношении паралогов. Ввиду отсутствия давления отбора на одну из копий гена, подвергшегося удвоению, эта копия получает возможность беспрепятственно мутировать далее, что может привести к возникновению новых функций. Одна из проблем биоинформатики состоит в следующем. Когда геномы двух видов секвенированы и обнаружены гомологичные гены, невозможно сразу сделать вывод о том выполняют ли эти гены сходную функцию, поскольку они могут оказаться паралогами, функции которых дивергировали. Если вывод о функциях сделать удалось и необходимо восстановить филогению видов, несущих гомологичные гены, то используются ортологичные гены, поскольку именно они отражают процесс видообразования. Но если требуется определить филогению событий дупликации, то следует строить филогению паралогов. 6.3. Методы построения деревьев. Основной задачей филогенетического анализа является восстановление истинного филогенетического дерева. Эта задача включает в себя подбор топологии и оценивание длин ветвей дерева. Статистические методы для построения филогенетического дерева по данным молекулярной генетики можно разделить на три группы: 1) методы расстояний; 2) методы парсимонии; 3) методы максимального правдоподобия. Методы расстояний. В этой группе существует несколько методов для построения филогении. В них для каждой пары изучаемых таксонов или других форм вычисляются эволюционные расстояния, и по ним строится филогенетическое дерево. 62 Обобщенного статистического критерия для выбора подходящей меры расстояний не существует. Но в работе М. Нея, С. Кумара (2004) сформулированы эмпирические правила – рекомендации, которым можно следовать при построении филогении: 1. Если d – оценка числа нуклеотидных замен на сайт, определенная по модели Джукса – Кантора меньше или равна 5%, то, вне зависимости от наличия предпочтения транзиций/трансверсий и (или) разной скорости замен для разных сайтов, следует использовать расстояние р или модель Джукса – Кантора. Расстояние р особенно подходит для коротких последовательностей. 2. Если 5% < d < 30% и отношение числа транзиций/трансверсий (R) не слишком велико (R < 5), то для достаточно длинных последовательностей можно использовать расстояние, определенное по модели Джукса – Кантора. Если доли транзиций и трансверсий существенно различны, то для достаточно длинных последовательностей следует использовать расстояние, определенное по модели Кимуры. 3. Если 30% < d < 100% и нуклеотидные частоты (А, Т, С, G) значительно различны, но нет сильно выраженных предпочтений транзиций/трансверсий, следует использовать расстояние, определенное по модели Таджимы – Нея. Если есть выраженные предпочтения транзиций/трансверсий и содержания GC, следует использовать расстояние, определенное по модели Тамуры – Нея. 4. Если d > 100% для большого числа попарных сравнений, восстановленное дерево филогении обычно не достоверно по целому ряду причин (например, большая дисперсия и ошибки выравнивания последовательностей). Такие данные лучше не использовать. Хотя можно попробовать не рассматривать фрагменты, эволюционирующие с повышенной скоростью, и проанализировать только медленно эволюционирующую часть данных; так часто поступают с вариабельным районом генов иммуноглобулина. Также можно попытаться найти другие гены, эволюционирующие медленнее. 5. Многие меры расстояний для оценки числа нуклеотидных замен на 63 сайт (d) нельзя применять, когда последовательности находятся на больших расстояниях. Это происходит потому, что формула для вычисления расстояния, как правило, содержит логарифм, и аргумент логарифма становится отрицательным. Следовательно, лучше избегать строить филогению по сильно дивергировавшим последовательностям, а если это все же необходимо, то в качестве меры расстояния лучше использовать расстояние р с меньшей дисперсией и без логарифма. 6. Для эволюционно удаленных видов лучше использовать расстояние между аминокислотами. Невзвешенный парно–групповой метод расстояний. Самый простой метод в этой группе – это невзвешенный метод попарной группировки с использованием среднего арифметического (НПГМ или UPGMA). В этом методе сначала для каждой пары таксонов (i, j), согласно выбранной модели замен, определяются эволюционные расстояния (dij). Затем используют кластерный анализ по dij, алгоритм которого состоит в следующем. Два таксона, имеющие минимальное расстояние объединяют, создавая новый узел (кластер). Расстояние между любыми двумя кластерами (А и В) вычисляется по формуле где r и s – число таксонов в кластерах А и В, a dij –расстояние между таксоном i кластера А и таксоном j кластера В. Точка ветвления (уровень, время расхождения) двух кластеров вычисляется как dAB / 2. После этого матрица расстояний пересчитывается, и процесс кластеризации повторяется, пока не произойдет объединение всех таксонов. В результате получаем дерево с корнем. Рассмотрим алгоритм этого метода на модельном примере для пяти таксонов. На первом этапе в методе UPGMA строится матрица попарных эволюционных расстояний (d) в процентах между каждой парой i, j (табл 6.2.). 64 Таблица 6.2. Матрица попарных эволюционных расстояний 5 таксонов. Таксон 2 3 4 5 1 d12=5 d13=7 d14=10 d15=13 2 3 4 d23=8 d24=12 d34=11 d25=15 d35=15 d45=13 Кластеризация таксонов начинается с пары, имеющей наименьшее расстояние. Для рассмотренной матрицы наименьшее расстояние d12=5. Тогда объединяются таксоны 1 и 2, а точка ветвления (узел) для них находится на уровне b = d12 / 2=5 / 2=2,5. Предполагается, что таксоны 1 и 2 одинаково удалены от точки ветвления. Таким образом, таксоны 1 и 2 объединяются в один составной таксон, или кластер. Обозначим его u [и = (1 – 2)]. Матрица расстояний пересчитывается по формуле (6.1). Расстояние между этим кластером и и каждым из остальных таксонов с номером k (k ≠ 1, 2) вычисляется как duk= (d1k + d2k) / 2. В частности: du3= (d13 + d23) / 2=(7+8) / 2=7,5; du4= (d14 + d24) / 2=(10+12) / 2=11; du5= (d15 + d25) / 2=(13+15) / 2=14. Получаем новую матрицу попарных эволюционных расстояний (табл. 6.3.): Таблица 6.3. Матрица расстояний для 4–х кластеров. Таксон 3 4 5 u=(1–2) 3 4 du3=7,5 du4=11 d34=11 du5=14 d35=15 d45=13 Теперь наименьшее расстояние в матрице du3=7,5. Тогда в новый кластер [v = (1 – 2 – 3)] объединяются таксоны и (1, 2) и 3, а точка ветвления вычисляется как b = du3/2 = [(d13 + d23)/2] / 2=7,5 / 2=3,75. Расстояние между кластером v и оставшимися таксонами (k) пересчитывается: dv4 = (d14 + d24 + d34) / 3= (10+12+11) / 3=11; dv5 = (d15 + d25 + d35) / 3= (13+15+15)=14,33. Получаем новую матрицу (табл. 6.4.) 65 Таблица 6.4. Матрица расстояний для 3–х кластеров. Таксон u=(1–2–3) 4 dv4=11 5 dv5=14,33 4 d45=13 Наименьшее расстояние dv4=11. Поэтому объединяем v = ( 1 – 2 – 3 ) и таксон 4 с точкой ветвления b = dv4/2 = [(d14 + d24 + d34) /3] / 2)=11/2=5,5. Последний таксон 5 – объединяется со всеми остальными, и точка ветвления вычисляется как b = [(dl5 + d25 + d35 + d45) / 4] / 2)=(13+15+15+13) / 8=7. Расстояние между кластером и (1 – 2) и таксоном 3 равно 7,5. Взяв половину этого значения 7,5 / 2=3,75, получаем время до их общего предка. Расстояние до кластера u (1–2), равно 3,75 – 2,5=1,25. Расстояние от таксона 4 до кластера v (1 – 2 – 3) равно 5,5 – 3,75=1,75. Расстояние от таксона 5 до кластера, объединяющего 4 таксона (1–2–3– 4) равно 7 – 5,5=1,5. Полученное дерево представлено на рис 6.3. 2,5 1,25 1,75 1,5 2,5 3,75 5,5 7,0 1 2 3 4 5 Рис 6.3. Дерево, построенное по методу UPGMA с указанием длин ветвей. Метод UPGMA восстанавливает не только топологию дерева, но и длину ветвей. Поскольку предполагается, что эволюционные изменения происходят с равной частотой во всех сравниваемых последовательностях, то длины ветвей равны половине генетического расстояния между двумя кластерами. Например, расстояние между 1 и 2 таксоном d12=5, тогда длина ветви с момента их разделения от общего предка равна d12 / 2=5 / 2=2,5. Для деревьев, восстановленных методом UPGMA, подразумевается аддитивность длин ветвей. Длины ветвей данного дерева называются 66 аддитивными, если расстояние между любыми двумя таксонами равно сумме длин ветвей на пути, соединяющем эти таксоны. Так как построение дерева основано на ограниченном наборе данных о последовательностях нуклеотидов, то важно оценить достоверность построенного дерева. Для этого применяется тест бутстреп, о котором будет сказано ниже. Метод UPGMA может использоваться для анализа молекулярных данных, если скорость нуклеотидных замен для гена более– менее постоянна. Если скорость замен варьирует, или когда длина и число сравниваемых последовательностей невелико, то может быть получена неправильная топология дерева. Для дерева, построенного по методу UPGMA длину ветвей можно рассматривать как время расхождения таксонов, отмеренное «молекулярными часами», идущими с постоянной скоростью. То есть сумма времен по любому «пути» от любого узла к терминальным таксонам слева – направо на рис.6.3 постоянна и не зависит от выбора пути. Таким образом, если все же гипотеза молекулярных часов справедлива, то, при достаточном объеме данных для анализа, метод UPGMA правильно восстановит дерево. Если рассматривать небольшой промежуток времени эволюции, то ее скорость конечно не будет постоянна. Действительно, новые мутации возникают непрерывно, но случайно. Одни из них могут элиминироваться отбором, другие фиксироваться в популяции случайно (из-за дрейфа генов) или под давлением позитивного отбора. Если на дереве можно найти такую точку, что расстояния от нее до всех терминальных таксонов одинаковы, то такое дерево называется ультраметрическим. Ультраметрическое дерево можно «укоренить» в эту точку. Таким образом, если алгоритм предполагает точность «молекулярных часов», то реконструированное им дерево укорененное ультраметрическое. Таковым является дерево рис.6.3. Если же алгоритм не опирается на «молекулярные часы», то полученное дерево всегда не ультраметрическое и, 67 как правило, не укорененное (например, метод NJ, описанный ниже, не предполагает точности «молекулярных часов» и строит дерево без корня). Метод наименьших квадратов (НК). Если для разных таксонов скорость замен варьирует, то метод UPGMA использовать нельзя, так как он может привести к неправильной топологии. Для этого случая подходит метод наименьших квадратов, поскольку он допускает разную скорость эволюции для ветвей филогенетического дерева. Итак, оценивается родство между группой таксонов на основе последовательностей, полученных из этих таксонов. В стандартном методе наименьших квадратов, для каждой из возможных топологий филогенетического дерева, вычисляется остаточная сумма квадратов: где dij – наблюдаемое расстояние между последовательностями i, j, а еij – ожидаемое расстояние между таксонам i, j. еij являются суммой оценок всех длин ветвей дерева, которые соединяют два таксона. Алгоритм вычисляет значения Rs для всех вероятных топологий. Наиболее вероятной считается та топология, для которой значение Rs минимально. Используют также взвешенный метод наименьших квадратов, где Как стандартный, так и взвешенный методы наименьших квадратов часто приводят к явно неправильной топологии, поскольку при наименьшем Rs некоторые из подобранных чисто математически длин ветвей могут оказаться отрицательными. Поэтому один из возможных путей улучшения этих методов – при вычислении ввести запрет на отрицательную длину ветвей. 68 Итак, чтобы для каждой топологии вычислить Rs необходимо подобрать длины ветвей и вычислить еij – их сумму для каждой пары таксонов (i, j). Простой метод оценки был предложен Фитчем и Марголишем. Рассмотрим модельный пример. Одна из возможных топологий для трех таксонов приведена на рисунке 6.4. x y 1 [a = 1] [a' = (a – b)] 2 [b = 2] [b' = 3] z 3 [c = (3–4–5)] [c' = (4–5)] Рис. 6.4. Дерево для трех таксонов примера. Пояснения в тексте. Эволюционные расстояния dij между таксонами 1 и 2, 1 и 3, 2 и 3 должны быть связаны с длиной ветвей этого дерева системой из трех линейных уравнений: где x, y и z – неизвестные длины ветвей для таксонов 1, 2 и 3. Решив эти уравнения, получаем оценки для длин ветвей: x=(d12+d13 – d23)/2 y=(d12 – d13+d23)/2 (6.4) z=(–d12+d13+d23)/2 Итак, даны три таксона. Пусть эволюционные расстояния между каждой парой таксонов: d12=5; d13=7; d23=8. Использую формулу (6.4) получаем оценки длин ветвей x, y и z. x=(d12+d13 – d23)/2=(5+7–8)/2=2 y=(d12 – d13+d23)/2=(5–7+8)/2=3 z=(–d12+d13+d23)/2=(–5+7+8)/2=5 После того как оценены длины ветвей x, y, z можно определить (еij) – ожидаемые расстояния между таксонами i, j. Это расстояние определяется 69 через сумму оценок всех длин ветвей, соединяющих два таксона. Затем можно вычислить значение Rs по формуле (6.2) или (6.3). При m = 3 Rs = 0. Полученное решение – единственное. Но при m > 3 число расстояний dij становится больше числа ветвей дерева без корня (табл. 6.1). Число линейных уравнений, связывающих dij и длины ветвей, становится больше числа неизвестных – длин ветвей. Следовательно, при m > 3 необходимо применять специальные алгоритмы и методы оценки длины ветвей. Рассмотрим такой алгоритм на примере для 5 таксонов. Матрицу попарных расстояний возьмем из примера построения дерева UPGMA (табл.6.2). Наименьшее расстояние в этой матрице между таксоном 1 и 2 (d12=5). Обозначим таксоны 1 и 2 через а и b соответственно, а 3 остальных – как с (рис. 6.4). Тогда dab=5; dас=(7+10+13)/3=10; dbc=(8+12+15)/3=11,67. Теперь, используя уравнения (6.5), можно вычислить значения x, y и z (рис. 6.4): x=(dab+dac – dbc)/2=(5+10–11,67)/2=1,67 y=(dab – dac+dbc)/2=(5–10+11,67)/2=3,34 z=(–dab+dac+dbc)/2=(–5+10+11,67)/2=8,34 x и y – оценки числа нуклеотидных замен – длины ветвей до таксонов 1 и 2 (а и b); z – расстояние между составным таксоном с и точкой ветвления для кластера 1–2. Теперь объединим таксоны 1 и 2 и обозначим составной таксон (ab). Пересчитаем расстояния между таксоном (аb) и каждым из остальных (входивших в с) и снова выберем два таксона с наименьшим расстоянием. Обозначим их через а' и b' и объединим оставшиеся таксоны в составной таксон с'. Новые значения x', y' и z' вычисляются как раньше (x, y, z). Мы уже вычисляли расстояние между кластером (1–2) и остальными таксонами при построении дерева UPGMA (7,5;11;14 – табл.6.3). Наименьшее расстояние в новой матрице между кластером (ab) и таксоном 3. Тогда (ab) и таксон 3 будут представлять новые таксоны а' и b', а в таксон с' 70 объединятся таксоны 4 и 5 (рис.6.4.). Теперь da'b'=7,5; dа'с'=(10+12+13+15)/4=12,5; db'c'=(11+15)/2=13. Определяем значения x', y' и z': x'=(da'b'+da'c' – db'c')/2=(7,5+12,5–13)/2=3,5 y'=(da'b' – da'c'+db'c')/2=(7,5–12,5+13)/2=4 z'=(–da'b'+da'c'+db'c')/2=(–7,5+12,5+13)/2=9 Теперь можно «развернуть» полное дерево для 5 таксонов. На рисунке 6.5 представлена полученная топология. В скобках указаны буквенные обозначения ветвей (a, b, c, d, e, f ,g). (c)1 (e)2,75 (a)1.67 (b)3,34 (d)4 (f)4,75 (g)8,25 1 2 3 4 5 Рис. 6.5. Полученное дерево без корня для 5 таксонов модельного примера. Длины ветвей с и d для дерева на рис 6.5 вычисляются как: da'b'=(a+b)/2+c+d da'c'=(a+b)/2+c+z' db'c'=d+z' Уже известно, что (a+b)/2=2,5 и z'=9. Тогда d=13–9=4; с=7,5–2,5–4=1. Объединим таксоны a'b' Наименьшее расстояние в новой матрице между (a'b') и таксоном 4. Тогда (a'b') и таксон 4 будут представлять новые таксоны а'' и b'', а в таксон с'' попадает таксон 5. Теперь da''b''=11; dа''с''=(14+15)/2=14,5; db''c''=13. Определяем значения x'', y'' и z'': x''=(da''b''+da''c'' – db''c'')/2=(11+14,5–13)/2=6,25 y''=(da''b'' – da''c''+db''c'')/2=(11–14,5+13)/2=4,75 z''=(–da''b''+da''c''+db''c'')/2=(–11+14,5+13)/2=8,25 Длины ветвей e и f определим, используя формулы: da''b''=(a+b)/2+c+e+f 71 da''c''=(a+b)/2+c+z''+e db''c''= z''+f Откуда f=13–8,25=4,75; е=14,5–8,25–1–2,5=2,75 Длина ветви g = z'' Теперь можно вычислить еij – ожидаемые расстояния между таксонами i, j, используя рис 6.5. е12=a+b=1,67+3,34=5,01 е13=a+c+d=1,67+1+4=6,67 е14=f+e+c+a=4,75+2,75+1+1,67=10,17 е15=g+e+c+a=8,25+2,75+1+1,67=13,67 е23=d+c+b=4+1+3,34=8,34 е24=f+e+c+b=4,75+2,75+1+3,34=11,84 е25=g+e+c+b=8,25+2,75+1+3,34=15,34 е34=f+e+d=4,75+2,75+4=11,5 е35=g+e+d=8,25+2,75+4=15 е45=g+f=8,25+4,75=13 Далее можно определить Rs по формуле (6.2) и (6.3). 1,0936 Для метода взвешенных наименьших квадратов (формула 6.3): Следует обратить внимание на несходство полученных оценок длин ветвей дерева, построенного методами UPGMA (рис. 6.3.) и НК (рис. 6.5.). Чтобы найти дерево методом наименьших квадратов, нужно рассмотреть все возможные топологии. Однако на практике их число 72 огромно и для вычисления Rs рассматривается лишь небольшой процент всех возможных топологий. В методе Фитча и Марголиаша первая топология выбирается как было описано выше (например, для 5 таксонов рис. 6.5), а дальнейшие получаются из нее с использованием различных алгоритмов обмена ветвей. Эти алгоритмы будут описаны при рассмотрении метода парсимонии. Метод минимума эволюции (ME). В этом методе для каждой из возможных топологий вычисляется сумма (S) оценок длин всех ветвей дерева: где – оценка длины i–ой ветви, получаемая как в предыдущем разделе ; Т – общее число ветвей (2m–3 для дерева без корня, где m – число последовательностей нуклеотидов, то есть число сравниваемых форм). В методе ME, как и в НК, рассматриваются все возможные топологии и среди них выбирается топология с наименьшим значением S. Показано, что метод ME приводит к правильной топологии при достаточно большом числе нуклеотидов или аминокислот (п) в анализируемых последовательностях и несмещенных оценках dij – числа замен на сайт в качестве меры расстояния. Метод объединения соседей (ОС или NJ). Метод объединения соседей был предложен Сейтоу и Неем (1987). Он также основан на принципе минимума эволюции. В этом методе не рассматриваются все возможные топологии, но на каждом этапе объединения таксонов используется принцип минимума эволюции. В итоге получаем наилучшее дерево без корня. 73 Соседями называются два таксона на дереве без корня, соединенные через один внутренний узел. Топологию дерева можно определить, последовательно разъединяя старых соседей. На начальном этапе предполагается конфигурация звезды (рис. 6.6.А), т.е. формально все таксоны – соседи. Если оценить длины ветвей такого дерева и вычислить сумму длин ветвей (S0), она наверняка будет больше, чем сумма для истинного дерева, или построенного методом NJ в конечном итоге. Но, если отделить, например, пару соседей 1 и 2 (рис. 6.6.В), то новая сумма (S12) длин всех ветвей уже будет меньше, чем S0. Поскольку заранее не известно, какие именно пары таксонов являются соседями, рассматриваются все потенциальные пары и вычисляется частная сумма длин всех ветвей (Sij) при отделении i–гo и j–го таксона. Затем выбирается пара таксонов i, j с наименьшим значением Sij. Найденные соседи объединяются в один кластер, и вся процедура повторяется до полного построения дерева. 3 2 1 4 2 5 1 3 3 2 4 5 1 6 6 4 5 6 3 2 3 4 2 1 3 4 1 5 5 6 6 4 2 1 5 6 Рис. 6.6. Иллюстрация расчета по методу ближайших соседей (по М. Ней, С. Кумар, 2004). 74 Исходная S0 для конфигурации звезды выражается как где ; m – число таксонов Если отделяем таксоны 1 и 2, то сумма длин ветвей дерева В на рис. 6.6. равна где Аналогично для любой пары отделенных таксонов. Вычисляют все значения Sij и выбирают наименьшее. Отделяют соответствующую пару (i, j), определяя таким образом новый узел А, который соединяет таксоны i и j. Рис. 6.6 С соответствует этому этапу, если i=1, j=2. Длины ветвей от этого узла А до таксонов i и j вычисляют по формулам: Затем определяют расстояние между новым узлом (А) и каждым из остальных k таксонов: Алгоритм отделения соседей и вычислений повторяется пока все таксоны не будут объединены в одно дерево без корня. Построенное дерево и будет деревом NJ. Рассмотрим модельный пример. Эволюционные расстояния в процентах для 6 таксонов представлены в табл. 6.5 Общая сумма расстояний T=162. Для дерева с топологией звезды получаем оценку S0=32,4. 75 Таблица 6.5 Реализация метода NJ. Цикл 1. Матрица расстояний dij Таксоны 1 2 3 4 1 2 9 3 12 7 4 15 10 5 5 20 15 10 11 6 16 11 6 7 Sij 5 1 2 3 4 5 8 29,5 32,5 33,0 33,5 33,5 32,5 33,0 33,5 33,5 32,0 32,5 32,5 32,0 32,0 30,5 Вычислим Sij, отделяя попарно все таксоны i и j. Например, для таксонов 1 и 2 (топология В на рис. 6.6): d12=9, R1=9+12+15+20+16=72, R2=9+7+10+15+11=52, Результаты вычислений Sij для всех пар таксонов представлены в табл.6.5. Находим наименьшее значение S12=29,5. Следовательно, таксоны 1 и 2 являются соседями. Обозначим новый узел А их эволюционного расхождения и оценим длины ветвей до этих таксонов: bA1=7, bA2=2. Вычислим расстояние между новым узлом А и другими таксонами (k). Например, расстояние между узлом А и таксоном 3 равно Также вычисляются расстояния между узлом А и остальными таксонами. Полученные расстояния представлены в табл.6.6. Теперь можно определить новые значения Sij по расстояниям табл. 6.6. Для этого вычисляем новые значения Т, Ri и Rj. В цикле 2 находим пару новых соседей. Это таксоны 5 и 6, так как у них минимальное значение Sij, S56=19,3 (топология С на рис. 6.6). Создаем 76 новый узел В и вычисляем длины ветвей от узла В до таксонов 5 и 6. b5B=6, b6B=2. Таблица 6.6. Реализация метода NJ. Цикл2. Таксоны 3 4 5 6 А 5 8 13 9 dij 3 5 10 6 Sij 4 5 11 7 8 А 19,7 20,3 21,0 21,0 3 4 5 20,3 21,0 21,0 20,7 20,7 19,3 Таблица 6.7. Реализация метода NJ. Цикл 3. Таксоны 3 4 В А 5 8 7 dij 3 5 4 Sij А 11,0 11,5 11,5 4 5 3 4 11,5 11,5 11,0 В цикле 3 (табл.6.7.) «сближаем» пару новых соседей – кластер А и таксон 3, создавая новый узел С (топология Е на рис. 7.6.), далее – таксоны 4 и В, получая узел D. Таким образом, процедура объединения соседей завершена. Теперь можно оценить длины ветвей b4D=3, bCD=1 и bBD=2. Полученное дерево представлено на рис. 6.6F. Метод максимальной парсимонии (экономии) (МР). Впервые метод MP для построения деревьев по аминокислотным последовательностям применили Эк и Дайхоф (1966). Позднее был разработан более строгий алгоритм MP для нуклеотидных последовательностей. Метод максимальной парсимонии находит дерево (или деревья), которое включает наименьшее количество замен, необходимых для объяснения различий между изучаемыми таксонами. МР близок по смыслу к МЕ, но метод оценки длины ветвей в МР отличается. 77 В этом методе предполагается, что нуклеотидные или аминокислотные замены равновероятны. Для каждой топологии, независимо в каждом сайте, определяется «оптимальный» нуклеотид или аминокислота предкового таксона. Критерий – наименьшее суммарное (по сайтам и ветвям) число замен. Наилучшей среди всех возможных считается топология, требующая наименьшего количества замен. Метод MP должен строить правильное (реализованное) дерево для каждого сайта, если в процессе эволюции не было обратных и параллельных замен, а также при условии достаточно большого числа нуклеотидов (n) в последовательностях. Однако на практике эти условия не всегда выполняются, и тогда метод MP может приводить к неправильной топологии. Если, кроме того, скорость нуклеотидных замен существенно различается для разных линий, то, даже если число нуклеотидов в последовательностях стремится к бесконечности, метод MP приводит к неправильной топологии. Но метод MP имеет ряд преимуществ по сравнению с другими методами построения деревьев. Если расстояние между последовательностями невелико (d ≤ 10%), скорость замен примерно постоянна, и число рассмотренных нуклеотидов достаточно велико, то вероятность восстановления правильной топологии больше для метода MP, по сравнению с методами, основанными на расстояниях. В методе MP сайты, содержащие одинаковый нуклеотид (или аминокислоту) для всех таксонов (постоянные сайты), не рассматриваются, а учитываются только вариабельные сайты. Но не все вариабельные сайты информативны для поиска топологии MP. Любой сайт, для которого существуют синглетоны – одиночные замены – неинформативен, потому что нуклеотидные замены в этом сайте можно объяснить одним и тем же числом замен в любых топологиях (пример приведен ниже). Такие сайты называются сайты–синглетоны. Чтобы сайт был информативен для поиска дерева максимальной парсимонии, в нем для сравниваемых последовательностей необходимы, по крайней мере, два разных типа нуклеотида, представленные, по 78 крайней мере, дважды (пример приведен ниже). Именно такие сайты и называются информативными для парсимонии. Необходимо отметить, что сайты–синглетоны информативны для построения топологии другими методами, и даже постоянные сайты содержат филогенетическую информацию для методов расстояний и максимального правдоподобия. Рассмотрим пример поиска дерева максимальной парсимонии для однотипных нуклеотидных последовательностей из 4 таксонов (таблица 6.8). Таблица 6.8. Последовательности семь нуклеотидных таксонов. Сайты Таксоны 1 2 3 4 5 1 T T C G T 2 T C T T T 3 T C A C C 4 T C A A C сайтов из 4–х 6 G T T G 7 A A C C Для 4–х таксонов можно построить три дерева без корня (рис. 6.7 a). Сначала необходимо идентифицировать сайты информативные для парсимонии. Если рассмотреть первый сайт, то из табл. 6.8 видно, что он не информативен поскольку все последовательности идентичны по Т – нет замен. Сайт 2 тоже не информативен, потому что единственная мутация в ветви, ведущей к таксону 1, для любого из трех деревьев дает одинаковую топологию (это сайт – синглетон). В сайте 3 существуют три различных нуклеотида (рис.6.7.b), но он тоже не информативен: для построения любого из трех возможных деревьев необходимы минимум 2 замены (обозначены ) . То же можно сказать и о сайте 4, только там необходимы минимум 3 замены. Сайт 5 – информативный (рис 6.7с). Он содержит два разных типа нуклеотида, представленные дважды. Для этого сайта дерево А требует только одной замены между двумя внутренними узлами дерева, тогда как деревья В и С требуют по две замены. Сайт 6 тоже информативен, поскольку для него дерево С требует только одну замену, а деревья А и В – по две (рис. 7.7d). Информативным является и сайт 79 7. Для этого сайта дерево А требует одну замену, а деревья В и С – по две замены (рис. 6.7е). Дерево А a) Общее 1 2 С 1 2 1 2 4 3 4 4 3 Т С С G T G A С A А А Т Т Т Т Т С С С G Т G Т G G Т T G G T A A A A С A С А С G G A Т G Т e) Сайт 7 Т Т А А Т С А А С Т d) Сайт 6 Т А А Т С А Т с) Сайт 5 Дерево С 3 А С b) Сайт 3 Дерево В С A A С A С С Рис. 6.7. Анализ деревьев без корня методом МР. Пояснения в тексте. Итак, выявлены информативные сайты и рассчитано по каждому из них минимальное количество замен для каждого дерева. Теперь для каждого дерева по отдельности необходимо просуммировать минимальное количество замен во всех информативных сайтах. Эта сумма (L) называется длина дерева. В данном примере для информативных сайтов дерево А требует 4, дерево В – 6, а дерево С – 5 замен. Деревом максимальной парсимонии считают топологию с наименьшей длиной 80 (L), то есть дерево, требующее наименьшее суммарное количество замен. Таким образом, деревом максимальной парсимонии будет дерево А. Если число таксонов (m) невелико (скажем, т < 10), еще возможно вычислить длины деревьев для всех топологий и найти дерево MP. Этот тип поиска дерева MP называется полный перебор (exhaustive search). Поскольку число топологий быстро возрастает с ростом т (табл. 6.1), то для больших т рассмотреть все топологии почти невозможно. Поэтому, величины L можно вычислить только для нескольких вероятных топологий. Этот тип поиска называется поиск специфичных деревьев (specific–tree search). Если поиск специфичных деревьев также невозможен, существует два метода поиска дерева MP при т > 10. Один из них – метод сцепления ветвей (branch–and–bound method). В этом методе деревья с длиной L большей, чем для уже рассмотренных деревьев, не учитываются, а дерево MP определяется среди группы деревьев предположительно меньшей длины. Но даже этот метод требует очень много машинного времени, если т ≥ 20. В таком случае следует использовать т.н. эвристический поиск (heuristic search). Но и в этой стратегии поиска рассматривается только часть всех возможных деревьев, и нет гарантии, что будет найдено правильное дерево MP. Предложен ряд алгоритмов, повышающих вероятность найти такое дерево MP. Очень часто метод максимальной парсимонии находит несколько деревьев с одинаковой минимальной длиной (L), то есть все они одинаково парсимоничны. В этом случае результат можно представить в виде «обобщенного» дерева. Такое обобщенное дерево называется деревом консенсуса. Чаще всего используются 2 типа деревьев консенсуса: 1) Дерево абсолютного консенсуса; Абсолютный консенсус сравниваемых деревьев достигается образованием мультифуркаций (разделения таксона больше чем на два вида – потомка) в тех узлах дерева, где характер ветвления сравниваемых деревьев не совпадает. 81 Пусть деревья А, В и С одинаково парсимоничны (рис. 6.8). Деревом абсолютного консенсуса для них будет дерево D. 2) Дерево консенсуса большинства. Для построения такого дерева выбирают тот характер ветвления, который встречается у 50% и более рассматриваемых деревьев. Для деревьев А, В и С деревом 50% консенсуса большинства является дерево Е (рис. 6.8). A a 3 b c d e B f a b D a 3 b c d e c C d e f a a b c e f e f F E f b c d d e f a b c d Рис. 6.8 Примеры деревьев консенсуса для одинаково парсимоночных деревьев А, В и С: D – дерево абсолютного консенсуса; Е – дерево 50%–го консенсуса большинства; F – дерево 70% консенсуса большинства Процент консенсуса можно увеличить. Например, если использовать 70% консенсус, то ни один из 3–х характеров ветвления (А, В и С Рис.6.8) не будет принят. В этом случае деревом 70% консенсуса большинства будет дерево F. Оно совпадает с деревом абсолютного консенсуса. Если число обратных и параллельных замен достаточно велико, то методы МР часто приводят к неправильной топологии. В таких ситуациях можно использовать взвешенную парсимонию. То есть заменам в медленно– эволюционирующих сайтах можно придать больший вес при анализе. Например, учитывая различную скорость эволюции в разных позициях кодона, заменам в кодонах можно придать соответствующие веса: w1 = 3, w2 = 5, и w3 = 1, так как скорость эволюции максимальна для сайтов в третьей позиции и минимальна во второй. 82 Можно ввести разные веса для разных типов замен. Например, если транзиции встречаются в два раза чаще трансверсий, можно ввести вес для трансверсий w = 2. Метод максимального правдоподобия (ML). В статистике этот метод широко используется, когда можно построить так называемую функцию правдоподобия от неизвестных параметров. Затем подбирают значения параметров, доставляющие максимум этой функции. Впервые метод максимального правдоподобия в филогенетическом анализе применили Кавалли–Сфорца и Эдвардс (1967). В молекулярной филогенетике разработано несколько разных вариантов применения метода максимального правдоподобия. В любом из них выбирается топология, для которой вероятность получения имеющихся экспериментальных данных максимальна. В качестве искомых параметров рассматриваются длины ветвей для каждой топологии. Рассмотрим на примере как для заданной топологии строят функцию правдоподобия по имеющимся нуклеотидным последовательностям. Пусть даны 4 таксона (1, 2, 3, 4). Длина 4–х последовательностей равна п. Рассмотрим сайт с номером k. Обозначим нуклеотиды в сайте k для 4–х последовательностей как х1, х2, х3 и х4 соответственно. Для 4–х таксонов можно построить 3 дерева без корня как на рис 6.7. Рассмотрим одно из них (рис. 6.9). Здесь vl – ожидаемое число нуклеотидных замен для ветви l (то есть длина ветви). 1 v1 v3 3 v5 2 v2 5 6 v4 4 Рис. 6.9. Заданная топология для 4–х таксонов. 83 Нуклеотиды, которые находились в узлах 5, и 6 неизвестны (А, Т, С или G). Обозначим их как х5 и x6. Пусть Pij(t) – это вероятность замены в данном сайте нуклеотида i, который был там в момент времени 0, на нуклеотид j за период времени t. i и j – любые из четырех нуклеотидов А, Т, С или G. Поскольку в методе ML допускается, что скорость замен (rl) может варьировать по l – т.е. для разных ветвей, то за время t ожидаемое число замен для ветви l можно оценить как vl = rltl. В методе ML длины ветвей vl рассматриваются как неизвестные параметры и оцениваются максимизацией функции правдоподобия для данного набора нуклеотидов в сайте. Построим функцию правдоподобия для сайта k в предположении обратимости нуклеотидных замен. Это означает, что на интервале времени 0–t процесс замен происходит с одинаковой скоростью от 0 к t и от t к 0. Поэтому можно предположить, что эволюция (замены) началась в любом узле. Предположим, что эволюционные изменения начались с узла 5 (рис. 6.9). Тогда функция правдоподобия для сайта k будет иметь вид произведения вероятностей замен во всех пяти ветвях: lk=gx5Px5x1(v1)Px5x2(v2)Px5x6(v5)Px6x3(v3)Px6x4(v4). где gx5 – частота нуклеотида x5 во всех (четырех анализируемых) последовательностях длиной n. Поскольку x5 и х6 неизвестны, то функция правдоподобия вычисляется как сумма вероятностей – по всем 4–м возможным значениям нуклеотидов в узлах 5 и 6. То есть, Пока мы рассмотрели только сайт k. Необходимо рассмотреть все сайты, в том числе постоянные. Функция правдоподобия (L) для всей нуклеотидной последовательности равна произведению Lk для всех n сайтов. Логарифм функции правдоподобия для всего дерева равен 84 Теперь возможно максимизировать lnL, подбирая значения vl. Это можно сделать методом Ньютона, или другими численными методами. Максимизируя lnL, получим оценки длин ветвей (vl) для данной топологии. В нашем примере из 4–х таксонов дерево ML – это одна из 3–х возможных топологий (деревья без корня на рис.6.1.), для которой значение ML= lnL максимально. Поскольку поиск деревьев ML для большого числа таксонов требует много машинного времени, то были предложены различные эвристические алгоритмы поиска. Проблема метода ML заключается в подборе топологии, так как функция правдоподобия не включает параметры топологии. Следовательно, максимизируя функцию правдоподобия, мы никак не оцениваем саму топологию, а просто выбираем топологию, для которой эта функция максимальна. При этом предполагаем, что эта топология с разумными оценками длин ветвей скорее всего будет правильной. Но такое предположение не обязательно выполняется. На самом деле, если скорость нуклеотидных замен значительно варьирует для разных ветвей, то можно выбрать неправильную топологию, даже для большого числа рассматриваемых сайтов (n). 6.4. Оценка достоверности реконструкции филогенетического дерева. После построения филогении необходимо оценить достоверность полученного дерева. Чаще всего для этого используют бутстреп тест. Пусть даны несколько нуклеотидных последовательностей в виде матрицы Xij: х11, х12, х13,…,х1n х21, х22, х23,…,х2n ……… xm1, xm2 ,xm3,…,xmn, где хij – нуклеотид последовательности i (строка) в сайте j (столбец); 85 m – число последовательностей (например из m таксонов); n – длина последовательностей. Сначала каким–либо методом по этим последовательностям строится филогенетическое дерево для этих таксонов, достоверность которого необходимо оценить. Бутстреп тест состоит в следующем. Формируется выборка объема n: выбирают случайным образом, но с возвращением, n столбцов матрицы Xij. Отметим, что поскольку выборка столбцов осуществляется с возвращением, в ней могут оказаться повторяющиеся столбцы. Это новый набор m – последовательностей ДНК длиной n, который снова используется для построения филогении тем же методом. Топология нового полученного дерева сравнивается с оригинальной. Такая процедура повторяется несколько сот раз и вычисляется процент случаев совпадения каждого ветвления новых деревьев с оригинальной. Эта величина называется доверительной вероятностью бутстрепа (или бутстреп–поддержкой) и обозначается РВ. Попутно в процессе бутстреп тестирования получаем сотни оценок для каждого dij – эволюционного расстояния, используемого при повторных построениях филогении. Эти оценки можно использовать для вычисления дисперсий ошибок dij, что важно, например, для модели Тамуры– Нея, где аналитическая оценка дисперсии затруднительна. Поскольку в бутстреп тесте дерево строится для каждой новой выборки, общее время тестирования становится существенным. Для деревьев NJ этот тест обычно занимает меньше минуты, но требует много времени для деревьев ML. Для деревьев максимума парсимонии лучше сначала получить дерево консенсуса и проверять достоверность внутренних ветвей уже этого дерева. 6.5. Пример – сопоставление методов построения деревьев. Рассмотрим пример, представленный в работе М. Нея и С. Кумара (2004). На рисунке 6.10 показан фрагмент (896 нуклеотидов) митохондриальной ДНК человека, шимпанзе, гориллы, орангутанга и гиббона. 86 Рис.6.10. Фрагмент (896 нуклеотидов) митохондриальной ДНК человека, шимпанзе, гориллы, орангутанга и гиббона. Точки обозначают совпадение с первой строкой таблицы. Последовательность орангутанга содержит делецию в позиции 560, а у гиббона – в 501. Данные GenBank. 87 По данным рис. 6.10 получена таблица 6.9. Таблица 6.9. Число нуклеотидных замен на сайт (d), рассчитанное по модели Кимуры. Человек Шимпанзе Горилла Орангутанг Шимпанзе 0,095±0,011 Горилла 0,113±0,012 0,118±0,013 Орангутанг 0,183±0,016 0,201±0,018 0,195±0,017 Гиббон 0,212±0,018 0,225±0,019 0,225±0,019 0,222±0,018 Используя оценки этих расстояний, получены следующие деревья (рис. 6.11). 0,48 0,1 0,39 90 0,48 100 Человек Шимпанзе 0,58 Горилла 0,97 Орангутанг 1,24 Гиббон А. Дерево, построенное методом UPGMA 0,42 0,08 0,39 71 0,54 0,6 100 0,97 1,25 4 Человек Шимпанзе Горилла Орангутанг Гиббон В. Дерево, построенное методами ME и NJ Рис. 6.11. Филогенетические деревья, построенные разными методами расстояний. Величины бутстрепа подчеркнуты. Значения расстояний умножены в 10 раз (dх10). 88 6.6. Программы, используемые при построении филогении. В настоящее время разработано множество компьютерных программ по филогенетике. Сайт под названием Phylogeny Programs, находящийся по адресу: содержит http://evolution.genetics.washington.edu/phylip/software.html программы по филогенетике. На этом сайте представлен перечень из 317 программ. Этот перечень содержит ссылки к конкретным программам и сортирует их различными способами (например, по используемым методам). Наиболее часто используемыми пакетами программ являются: PHYLIP (адрес: http://evolution.genetics.washington.edu/phylip.html); PAUP*(адрес: http://paup.csit.fsu.edu/); MEGA (адрес:http://www.megasoftware.net). Вопросы: 1. Дайте определение молекулярной филогенетики. В чем состоит преимущество использования ДНК для изучения эволюционных связей между различными организмами по сравнению с классическими методами сравнительной физиологии и сравнительной морфологии? 2. Назовите основные составляющие филогенетического дерева. 3. Что такое дерево вида и дерево гена? Приведите примеры. 4. Приведите определение ортологичных и паралогичных последовательностей; какие из них отражают процесс видообразования? 5. Перечислите основные статистические методы построения филогенетических деревьев. 6. Приведите основные эмпирические правила – рекомендации для выбора меры расстояния при построении филогении. 7. Опишите алгоритм невзвешенного парно–группового метода расстояний. На каких предположениях он основан? 8. Чем отличается стандартный метод наименьших квадратов от взвешенного? 89 9. В чем отличие метода ME от NJ? 10. Какие предположения используются для построения филогении методом максимальной парсимонии? 11. Какие сайты называют информативными для парсимонии? 12. Как определяется длина дерева (L) в методе максимальной парсимонии? 13. Что такое дерево консенсуса? Перечислите их типы. 14. Изложите суть метода максимального правдоподобия. 15. Что такое бутстреп тест и для чего его проводят? 7. Примеры использования рассмотренных моделей и методов. 1. В работе Х.Лин и др. (2006) был изучен гомолог гена липазы – липолитического фермента, участвующего в обмене жиров растений. Для этого клонировали полноразмерную кДНК гена BnLIP1, гомологичного гену липазы. В геноме рапса ген BnLIP1 представлен несколькими копиями. Нуклеотидная и производная аминокислотная последовательности гена BnLIP1 из проростков Brassica napus показаны на рисунке 7.1. Затем был проведен анализ этой последовательности. В генетических базах данных было обнаружено два гомолога кДНК BnLIP1. Производная аминокислотная последовательность BnLIP1 показала характерные особенности GDSL семейства липаз. На рисунке 7.2. показано множественное выравнивание аминокислотных последовательностей четырех участков белка BnLIP1 с другими гомологичными липазами, найденными в GenBank. Здесь видны пять консенсусных последовательностей FGDSXXDTGNN, TGRFSNGRXXXDFI, GXND, LYDXGARXFXVXGXXPXGCXP и CXNPXXYVFWDXXHPTEKA в блоках I – V (блок IV не показан на рис. 7.2). 90 Рис. 7.1. Нуклеотидная и производная аминокислотная последовательности гена BnLIP1 из проростков Brassica napus (№ доступа в генбанке AY870270). Полужирным шрифтом выделены кодон инициации ATG и стоп–кодон TGA (4-я строка снизу), подчеркнут сигнал полиаденилирования AATAA. Рис. 7.2. Множественное выравнивание аминокислотных последовательностей четырех участков белка BnLIP1 с другими гомологичными липазами. AtLIP из Arabidopsis thaliana (AAG51758), OsLIP из Oryza sativa (AAM22723), AtENS (ранний белок клубеньков) из A. thaliana (NP189434), 91 AtEXL1–6 (внеклеточная липаза 1–6) из A. thaliana (NP974149, NP565121, NP177718, NP177719, NP565122, NP177721), Hbpre–EST (предшественник липазы/эстеразы) из Hevea brasiliensis (Q7Y1X1), AtGDSL–LIP из A. thaliana (NP174185), OsGDSL–LIP из O. sativa (AAP05801) и CrGDSL–LIP из Chenopodium rubrum (AAP55714). Аминокислоты (Ser–41, Asp–345 и His–348 предполагаемой каталитической триады) отмечены черными треугольниками, консервативные остатки выделены черным (полная идентичность) или серым. Консервативные блоки отмечены над выравниванием. Для филогенетического анализа использовали программы ClustalX, MEGA (версия 2.1) и метод объединения соседей (NJ). Результат филогенетического анализа липаз растений представлен на рисунке 7.3. Рис. 7.3. Филогенетические взаимоотношения липаз растений. Липаза BnLIP1 отмечена черным квадратиком. Справа представлена классификация липаз. MtENO8 – ранний белок клубеньков из Medicago truncatula; Mspre–ENOD8 – внеклеточный предшественник липазы ENOD8 из M. sativa; RcLIP1, 2 – липазы 1, 2 липидных телец RcOBL из Ricinus communis; DcLIP – липаза из Dianthus caryophyllus, LeLID1 – липаза томатов, гомологичная AtDAD1. 92 Филогенетический анализ позволил разделить липазы растений на 4 группы. Липазы групп I–III, содержащие GDS(L) мотив, принадлежат к семейству GDSL липаз, а белки группы IV относят к семейству GXSXG липаз. Экспрессия белков группы I характерна для ранних клубеньков бобовых или корней различных видов растений, белки группы II обнаружены в различных тканях и органах, а большинство белков, принадлежащих к группе III экспрессируется в оболочке пыльцевых зерен. 2. анализ В работе Наумова Д.Г. (2004) проводили филогенетический α–галактозидаз семейства GH27. Были проанализированы аминокислотные последовательности из различных организмов, включая растения. Для поиска белков – гомологов α–галактозидаз использовали программы PSI–BLAST и Genomic BLAST pages. При скрининге базы данных с помощью программы PSI–BLAST использовали пороговое значение величины Е (Е–value) для включения последовательности в следующую итерацию, равное 0,01 или 0,001. Множественное выравнивание проводили с использованием программы – редактора BioEdit. Результаты множественного выравнивания (после последовательностей) деревьев с парсимонии, удаления использовали помощью МР) наиболее и для программы вариабельных построения PROTPARS (метод NEIGHBOR NJ) филогенетических (метод из участков максимальной пакета PHYLIP. Статистическую надежность узлов оценивали с использованием бутстреп теста. 3. В работе Лысенко Е.А. (2006) проводился анализ эволюции семейства генов Sig, кодирующих сигма–факторы растений. Сигма–факторы (или сигма субъединицы входят в состав мультисубъединичной РНК – полимеразы пластид водорослей и растений и обеспечивают промоторную специфичность этого фермента. РНК–полимеразы являются основным 93 транскрипционным ферментом хлоропластов. У растений сигма субъединицы кодируются семейством ядерных генов Sig, состоящим из 5–6 генов. Сравнение аминокислотных последовательностей осуществляли с использованием модифицированного алгоритма CLUSTALW. Для построения филогенетического дерева применили метод объединения соседей (NJ). Множественное выравнивание для сравнения консервативных С– концевых участков Sig5 растений с соответствующими последовательностями сигма–факторов цианобактерий SigA и SigF представлено на рисунке 7.4. Рис. 7.4 Сравнение консервативных С–концевых участков Sig5 растений с соответствующими последовательностями сигма–факторов цианобактерий SigA и SigF. Белым шрифтом на черном фоне даны аминокислотные остатки (а.о.) идентичные и/или с большим сходством, черным шрифтом на сером фоне – а.о. со слабым сходством, черным шрифтом на белом фоне – несходные а.о. 94 Знак * означает большее сходство Sig5 с SigA или с SigF, # – участки, где сходство SigA и SigF между собой больше, чем с Sig5 растений. Цифры указывают положение крайнего левого а.о. в последовательности соответствующего сигма–фактора. An – Anabaena PCC7120, Sy – Synechocystis PCC6803, So – Synechococcus PCC 7002, Pp – P. patens, At – A. thaliana, Os – O. sativa. На основании сравнения аминокислотных последовательностей белков и сайтов локализации интронов сделан ряд предположений и предложена схема эволюции этого семейства генов. 8. Предсказание пространственной структуры РНК. Одной из задач биоинформатики является предсказание вторичной структуры РНК. Напомним, что существует несколько типов РНК. Это мРНК, рРНК и тРНК. С их помощью осуществляется процесс биосинтеза белка. Селективное взаимодействие между различными РНК имеет фундаментальное значение и играет важную роль в регуляции экспрессии генов и жизнедеятельности всех организмов. Примерами такого взаимодействия является образование комплексов мРНК – тРНК, рРНК – мРНК, тРНК – рРНК в процессе трансляции. Кроме перечисленных выше выделяют и другие виды РНК. В частности, «малые РНК», содержащие до 300 нуклеотидов. Обычно они ассоциированы с одним или несколькими белками и представлены в клетке в виде рибонуклеопротеидов. Существуют РНК, которые обладают высокоспецифической каталитической активностью. Они были названы рибозимами. Интерес представляют также вирусные РНК. Известно, что регуляция активности генов растений осуществляется на уровне транскрипции, сплайсинга мРНК, трансляции и деградации белков. В последнее время в эту регуляторную сеть был включен новый компонент: регуляция, осуществляемая микроРНК (миРНК). миРНК – это одноцепочечные РНК длиной 20–24 нуклеотидa, которые комплементарно 95 или частично комплементарно связываются с мРНК и приводят к ее разрушению или ингибированию трансляции с этой мРНК. У растений миРНК играют важную роль в установлении сложной пространственной и временной регуляции активности генов, необходимой для развития организма, и наряду с этим участвуют в ряде процессов функционирования на взрослой стадии. Первые миРНК у растений были открыты путем клонирования малых РНК у арабидопсиса и были выделены в отдельный класс. Данные о последовательностях зрелых миРНК, их предшественниках и локализации их генов аккумулируются в базе данных РFAM. С точки зрения наиболее энергетически сильных связей структуру молекулы РНК можно описывать иерархически. Первичная структура молекулы описывает ее как цепочку нуклеотидов, последовательно соединенных наиболее сильными фосфодиэфирными связями. Вторичная структура РНК – это структура, которая образуется спаренными основаниями на однонитевой молекуле РНК. Взаимодействие между элементами вторичной структуры РНК обеспечивает формирование биологически активной трехмерной структуры РНК. Третичная структура молекулы РНК – это пространственная форма, которую принимает ее молекулярная цепочка в пространстве под воздействием Уотсон–Криковских и других более слабых потенциалов. Четвертичной структурой называется форма молекулы, которую она приобретает, связываясь в комплекс с другими биомолекулами. Первичная структура у молекулы РНК одна, а потенциально возможных вторичных (третичных, четвертичных) структур много. Известно, что структура РНК определяет ее функцию. 8.1. Терминология вторичной структуры РНК. РНК – это полимер, состоящий из четырех различных нуклеотидов (A, C, G, U). В парах G–C формируются три водородных связи, а в парах A–U – 96 две. Пары оснований почти всегда уложены стопкой друг на друга. Возникающее при этом взаимодействие называется стекинг– взаимодействием, а непрерывная стопка уложенных друг на друга пар оснований называется стеблем (stem). Однотяжевые участки РНК, ограниченные спаренными основаниями, называются петлями (loops). Петля на конце стебля называется шпилечной петлей (hairpin loop). Подструктуры, состоящие из простого стебля и петли, называются стеблевыми петлями или шпильками. Группа неспаренных оснований в одном из тяжей стебля, называется выпячиванием (bulge). Неспаренные основания, прерывающие оба тяжа стебля РНК, называются внутренней петлей (interior loop). Петли, из которых отходят три и более стеблей, называются разветвленными петлями (multi–branched loops). Шпильки и петли в составе трехмерной пространственной структуры РНК являются структурными элементами РНК, которые определяют специфичность ее взаимодействия с белками и другими нуклеиновыми кислотами. Шпилечные структуры также являются сайтами узнавания для регуляторных белков в таких биохимических процессах, как транскрипция и трансляция. Также встречаются псевдоузлы (pseudoknots). Элементы вторичной структуры РНК представлены на рисунке 8.1. 8.2. Методы предсказания вторичной структуры РНК. Поскольку вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем последовательность РНК, то анализировать последовательность РНК сложнее, чем последовательность белков и ДНК. Существуют различные методы предсказания вторичной структуры РНК. Если необходимо предсказать вторичную структуру для одной последовательности РНК, то можно использовать динамического программирования: Нуссинов и Цукера. 97 два алгоритма G G CA A A Шпилечная петля CG ││ CG │ G CG Выпячивание ││ G AU / │ Стебли A Внутренняя петля A \ GC Разветвленная петля ││ CG ││ C A A CA / G–C–A–A–G G–G–U–U–C U–G \ U \ A AU / \ / CG ││ GC ││ CG │ \ / A GC │ ││ U AU │ ││ C GU │ ││ A CG GA Псевдоузел / Рис 8.1. Элементы вторичной структуры. Алгоритм Нуссинов. Рассмотрим алгоритм, предложенный Нуссинов (1978). Этот алгоритм динамического программирования удобен для описания, поскольку в нем нет большого количества деталей. В его основе лежит поиск структуры с наибольшим количеством пар оснований. Наилучшая структура рассчитывается сначала для коротких подпоследовательностей. Основная идея состоит в том, что существует только 4 способа получить наилучшую структуру для фрагмента последовательности от i–го нуклеотида до j–го из лучших структур меньших подпоследовательностей. На рисунке 8.2. представлены эти способы. (1) Добавить спаренные позиции i и j к лучшей структуре, найденной для подпоследовательности i+1, j–1; (2) Добавить неспаренную позицию i к лучшей структуре, найденной для подпоследовательности i+1, j; 98 (3) Добавить неспаренную позицию j к лучшей структуре, найденной для подпоследовательности i, j–1; (4) Объединить две оптимальные подструктуры i, k и k+1, j; (1) (2) (3) (4) Рис. 8.2. Способы добавления нуклеотида i и/или j к уже найденной оптимальной подструктуре (Р. Дурбин и др. 2006). Алгоритм Нуссинов выбирает один из четырех способов построения вторичной структуры РНК. В каждом способе наилучшая структура РНК для подпоследовательности i, j может быть получена путем добавления i и/или j к одной из уже найденных оптимальных подструктур для меньших подпоследовательностей. Псевдоузлы не рассматриваются. Рассматривается последовательность x длиной L с символами x1,…., xL. Пусть δ(i,j)=1, если xi и xj – пара комплементарных оснований; иначе δ(i,j)=0. Проводим рекурсивное вычисление весов γ(i,j) – максимального числа пар оснований, которые могут быть сформированы для подпоследовательности xi,…., xj. Заполняем матрицу динамического программирования. Значение γ(1,L) и будет равно числу пар оснований в структуре с максимальным количеством таких пар. Часто существует несколько альтернативных структур с одинаковым числом пар оснований. Чтобы выделить одну из таких структур, необходимо проделать процедуру обратного прохода по матрице динамического программирования, начиная с γ(1,L). К недостаткам этого алгоритма следует отнести то, что в нем не учитываются важные структурные свойства, такие как предпочтения 99 определенных длин петель или предпочтения определенных ближайших соседей по структуре, которые возникают вследствие стекинг– взаимодействий между соседними парами оснований в стеблях РНК. Поэтому в современных исследованиях этот метод используется редко. Алгоритм Цукера. Другим методом предсказания вторичной структуры одиночной молекулы РНК является алгоритм Цукера (1981). Главное предположение состоит в том, что правильная структура РНК в равновесии обладает наименьшей свободной энергией, которую обозначают ∆G. Эта энергия оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Особенность этого алгоритма состоит в том, что при вычислении энергии стеблей энергия стекинга соответствует взаимодействию соседних пар оснований, а не самим парам. Таблицы параметров ∆G для предсказания структуры РНК были подобраны исходя из результатов экспериментальных термодинамических исследований малых модельных РНК. При этом учитывают стекинг, длины шпилечных петель, выпячиваний, внутренних петель, разветвленных петель, одиночных болтающихся нуклеотидов и неспаренных концов стеблей. Таблицы параметров ∆G можно найти по адресу: http://www.ibc.wust1.edu/zuker/rna/energy/ Пример расчёта энергии структуры по алгоритму Цукера представлен на рис. 8.3. Исходный алгоритм Цукера находит только одну оптимальную структуру. Биологически правильная структура часто не совпадает с вычисленной оптимальной структурой, а представляет собой структуру, чья свободная энергия находится в пределах нескольких процентов от минимальной энергии. Это обстоятельство было учтено в алгоритме субоптимального сворачивания РНК Цукера (1989). 100 A Петля +5,9 Ккал/моль UU A GC GC Стекинг+Пара –2,9 Ккал/моль Стекинг+Пара –2,9 Ккал/моль Выпячивание +3,3 Ккал/моль Стекинг+Пара –2,9 Ккал/моль Стекинг+Пара –0,9 Ккал/моль Стекинг+Пара –1,8 Ккал/моль Стекинг+Пара –2,1 Ккал/моль A GC UA AU CG AU3' Неструктурированный 5' – конец 0 Ккал/моль A A 5' ∆G=–3,2 Ккал/моль Рисунок 8.3. Пример вычисления ∆G для петли РНК на стебле (сайт связывания белка оболочки в диком типе фага R17). Соответствующий сервер: http://bioinfo.math.rpi.edu/~zukerm/ К недостаткам метода Цукера относится то, что разные таблицы энергии дают разные результаты. Кроме того, конформация может меняться во времени и находить биологически значимую структуру, не обязательно с минимальной энергией. Неспаренные петли могут взаимодействовать и стабилизировать структуру тРНК, рРНК. Рассмотренные выше алгоритмы динамического программирования не могут предсказывать псевдоузлы. Предсказание псевдоузлов рассмотрено в работе Е.Риваса и С.Эдди (2000). Сравнительный анализ последовательностей РНК. Другим методом предсказания вторичной структуры является анализ множественных выравниваний семейств родственных РНК. Процесс предсказания общей вторичной структуры для множественного выравнивания последовательностей РНК называется 101 сравнительным анализом последовательностей РНК. Это теоретический метод предсказания структуры. Он считается самым надежным, уступая только экспериментальным методам ядерно–магнитного резонанса и рентгеноструктурному анализу. Для предсказания правильной структуры сравнительным анализом необходимо знание структурно верного множественного выравнивания, в то же время структурно правильное множественной выравнивание подразумевает знание правильной структуры. В структурно правильном множественном выравнивании РНК консервативные пары оснований часто выявляются по высокой частоте коррелированных компенсаторных мутаций. Структура состоящей из определяется построения итеративной структуры на процедурой основе улучшения, существующего множественного выравнивания, а затем – перестраивания выравнивания на основе полученной структуры. Сравниваемые последовательности должны быть достаточно схожи, чтобы они могли быть выровнены лишь на основе гомологии первичной структуры для начала итеративного процесса, но в то же время, они должны достаточно отличаться, чтобы можно было ожидать наличие коррелированных мутаций. На рисунке 8.4 показано множественное выравнивание трех последовательностей и предсказанная вторичная структура. Seq1 Seq1 Seq1 UC U G C●G N●N' G●C GCCUUCGGGC GACUUCGGUC GGCUUCGGCC Рисунок 8.4. Множественное выравнивание трех последовательностей (слева) и предсказанная вторичная структура (справа) (Дурбин Р. и др.,2006). N обозначает нуклеотиды A, C, G, U; N' – нуклеотид, комплементарный нуклеотиду N. В результате сравнительного анализа последовательностей видно, что в выделенных прямоугольниками – позициях множественного выравнивания 102 (слева) мутации оснований коррелированны так, чтобы сохранить Уотсон– Криковскую комплементарность. Эта коррелированность подразумевает наличие спаривания соответствующих оснований, что приводит к предсказанию вторичной структуры (справа). Вопросы: 1. Назовите основные типы РНК и опишите их функции. 2. Дайте определение элементам вторичной структуры РНК. 3. Перечислите методы предсказания вторичной структуры РНК. 4. Какие алгоритмы можно использовать для предсказания вторичной структуры для одной последовательности РНК? Как проводят сравнительный анализ последовательностей РНК? 5. 9. Предсказание пространственной структуры белка. Предсказание пространственной структуры белка по аминокислотной последовательности является одной из важных задач биоинформатики. Напомним, что первичная структура белка – это последовательность аминокислотных остатков в полипептидной цепи. Вторичная структура белка – это локальное упорядочивание фрагмента полипептидной цепи, стабилизированное водородными связями и гидрофобными взаимодействиями. Третичная структура белка – это пространственное строение полипептидной цепи, то есть взаимное расположение элементов вторичной структуры, стабилизированное взаимодействием между боковыми цепями аминокислотных остатков. В стабилизации третичной структуры принимают участие: ковалентные связи; ионные взаимодействия; водородные связи; гидрофобные взаимодействия. Четверичная структура – это субъединичная структура белка: взаимное расположение нескольких полипептидных цепей в составе единого белкового комплекса. 103 Кроме того выделяют трёхмерную структуру белка, которая представляет собой набор пространственных координат, составляющих белок атомов. Доменная структура белка – это последовательность участков белка, имеющих известную функцию или определенную трёхмерную структуру. Пространственная структура белка тесно связана с его функционированием. Число известных первичных белковых структур, определенных по нуклеотидным последовательностям ДНК, превосходит число известных пространственных белковых структур. Зная первичную структуру белка и его предсказанную трехмерную пространственную (вторичную и третичную) структуру можно предсказать функцию белка. Экспериментально пространственная структура белка устанавливается с помощью рентгеноструктурного анализа или ядерно–магнитного резонанса. Разработаны различные приближенные методы для предсказания пространственной структуры белка по его аминокислотной последовательности. Самый широко применяемый метод основан на использовании информации из баз данных трехмерных структур белков. В этом методе используют информацию об известной пространственной структуре белков, обладающих первичной структурой близкой к исследуемому белку. В качестве начального приближения берут известную пространственную структуру белка, гомологичного исследуемому, а потом проводится ее уточнение. Для исследования гомологичности белков с известными аминокислотными последовательностями используется выравнивание. Его смысл состоит в нахождении наиболее консервативных остатков в этих последовательностях, которые обычно являются ключевыми для выполнения функций белка (исследование доменной структуры белка). Используя известные базы данных можно осуществить поиск гомолога данного белка в 104 различных организмах, построить филогенетическое дерево различных белковых последовательностей и т.д. Одной из программ, с помощью которой можно предсказать третичную структуру изучаемого белка, принимая за основу уже известную третичную структуру ближайшего гомолога является Geno3D. Адрес Geno3D: http://geno3d-pbil.ibcp.fr Существует сервер для сравнительного моделирования трехмерных структур белков SWISS-MODEL, на котором можно предсказать 3D структуру по гомологии. Адрес SWISS-MODEL: http://swissmodel.expasy.org SAM-Т99. В этой программе вначале производится поиск в базе данных аминокислотных последовательностей, гомологичных заданной, и по ним настраивается профиль – основа скрытой марковской модели. Полученная модель далее используется, в частности, для поиска белков, слабо гомологичных заданным аминокислотным последовательностям. Адрес: http://www.cse.ucsc.edu/research/compbio/HMM-apps/T99-query.html PSIPRED позволяет предсказывать пространственную структуру белка по аминокислотной последовательности тремя методами: 1) PSIPRED – распознавание вторичной структуры, основанное на нейронных сетях; 2) MEMSTAT – предсказание вторичной структуры и топологии трансмембранных белков, использующее множественные выравнивания, полученные из PSI-BLAST; 3) GenTHREADED – распознавание вторичной структуры и поиск родственных последовательностей, использующее алгоритм выравнивания по профилю. Адрес PSIPRED: http://bioinf.cs.ucl.ac.uk/psipred/ APSSP – метод предсказания вторичной структуры белка, основанный на применении нейронных сетей. Адрес APSSP: http://www.imtech.res.in/raghava/apssp2/ Есть сервер, предоставляющий программы для предсказания вторичных структур белков – Рrotein Secondary Structure prediction server 105 (SSpro). SSpro1 – рекуррентная нейронная сеть, с помощью которой по профилям выравниваний предсказывается вторичная структура белка. SSpro2 – такая же рекуррентная нейронная сеть, работающая на основе профилей, полученных программой PSI-BLAST. Адрес:http://www.igb.uci.edu/tools/scratch/ Различные методы предсказания вторичной структуры можно найти на сайте http://cubic.bioc.columbia.edu/eva/ Сервер PredictProtein (META–PP) предоставляет услуги по анализу последовательностей белков различными программными средствами, рассредоточенными по сети WWW (SignalP, SWISS–MODEL, FRSVR, JPRED, TMHMM, NetOglyc, CPHmodels, SAMt98, TopPred, NetPhos, DAS, NetPico, ChloroP). С помощью этого сервера можно находить сигнальные пептиды, сайты связывания, предсказывать вторичные структуры и др. Адрес: http://www.embl–heidelberg.de/predictprotein/predictprotein.html Сервер Structure Prediction Meta Server предоставляет доступ к различным методам распознавания укладок белков и предсказания локальных структур. Адрес: http://bioinfo.pl/meta/ ExPASy (Expert Protein Analysis System) – сервер швейцарского института биоинформатики Адрес: http://cn.expasy.org/tools/#secondary Базы данных пространственных структур: PDB (Brookhaven Protein DataBank) – коллекция 3D–структур биологических макромолекул экспериментально определенных с помощью рентгеноструктурного, ядерно–магнитнорезонансного и др. методов. Адрес: http://www.rcsb.org/pdb/ PFAM (Protein families database of alignments and HMMs) – большая коллекция белковых семейств. Адрес: http://www.sanger.ac.uk/Pfam/ 106 InterPro – база данных белковых семейств, доменов и функциональных сайтов, найденные в известных белках. Адрес: InterPro: http://www.ebi.ac.uk/interpro/ SCOP (Structural Classification Of Proteins) – база данных по структурной классификации белков. Адрес SCOP: http://scop.mrc–lmb.cam.ac.uk/scop/ Вопросы: 1. Для чего нужно знать пространственную структуру белка? 2. Как можно предсказать пространственную структуру белка по его аминокислотной последовательности, используя методы биоинформатики? 3. С помощью каких программ можно предсказать третичную структуру белка по гомологии? 4. Перечислите основные базы данных пространственных структур. 107 Литература 1. Бутвиловский А.В., Барковский Е.В., Бутвиловский В.Э. Базисные методы молекулярной эволюции. Учебно-методическое пособие. Минск.: БГМУ, 2006. – 36 с. 2. Дурбин Р., Эдди Ш., Крог А., Митчинсон Г. Анализ биологических последовательностей. Москва. Ижевск. 2006. 479 с. 3. Ежова Т.А., Лебедева О.В., Огаркова О.А. и др. Arabidopsis thaliana – модельный объект генетики растений. Москва. Макс пресс 2003. 218 с. 4. Зеленин А. В. Геном растений//Вестник Российской академии наук, 2003–73, 9: 297–806. 5. Лин Х., Цзю К., Чжао Ц., Цинь Ц., Циу С., Сун С., Тан К. Выделение и характеристика гомолога гена липазы из Brassica napus. //Физиология растений. 2006. Т.53. №3. С. 410–417. 6. Литвинов И.И., Лобанов М.Ю., Миронов А.А., Финкельштейн А.В., Ройтберг М.А. Информация о вторичной структуре белка улучшает качество выравнивания. //Молекулярная биология. 2006.Т.40.№3.С.533– 540. 7. Лысенко Е.А. Анализ эволюции семейства генов Sig, кодирующих сигма–факторы растений. //Физиология растений. 2006.Т.53.№5.С.684– 694. 8. Миронов А.А. Лекция №25 Биоинформатика http://bio.fizteh.ru/student/files/biology/biolections/lection25.html 9. Наумов Д.Г. Филогенетический анализ α–галактозидаз семейства GH27. //Молекулярная биология. 2004. Т.38.№3.С. 463–476. 10.Ней М., Кумар С. Молекулярная эволюция и филогенетика. Киев. 2004. 405 с. 11.Омельянчук Н.А., Кузнецова Т.Н., Катохин А.В. МикроРНК растений // Информ. вестник ВОГиС. 2005.Т. 9. № 3. С. 440–450. 108 12.Сутормин Р.А., Миронов А.А. Вероятностный метод предсказания трансмембранных аминокислотных участков по множественному последовательностей. выравниванию //Молекулярная биология. 2006.Т.40.№3.С.541–545. 13.Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345–358. National Biomedical Research Foundation, Washington, DC. 14.Joanne A. Fox, Scott McMillan, and B. F. Francis Ouellette. A compilation of molecular biology web servers: 2006 update on the Bioinformatics Links Directory. Nucl. Acids Res. 2006 34: W3–W5; doi:10.1093/nar/gkl379. http://nar.oxfordjournals.org/content/vol34/suppl_2/index.dtl 15.Michael Y. Galperin The Molecular Biology Database Collection: 2007 update. Nucleic Acids Research, 2007, Vol. 35, Database issue D3–D4. http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3 109 Список сайтов. http://www.belozersky.msu.ru/ http://www.bionet.nsc.ru/ http://cubic.bioc.columbia.edu/ http://www.ebi.ac.uk/ http://evolution.genetics.washington.edu/ http://www.expasy.org/ http://genes.mit.edu/ http://www.igb.uci.edu/tools/scratch/ http://www.jcbi.ru/ http://www.molbiol.edu.ru/review/ http://www.ncbi.nlm.nih.gov/ http://www.rusbiotech.ru/ 110 Словарь терминов. Бинарное дерево. Дерево, у которого каждая эволюционная ветвь может делиться только на две дочерние. Биоинформатика. Наука, использующая методы прикладной математики, прежде всего статистики, и информатики для решения проблем молекулярной биологии, возникающих, в частности при моделировании процессов эволюции и оптимизации селекционного процесса. Бутстреп тест. Используют, в частности, для оценки достоверности полученного филогенетического дерева. Суть этого теста состоит в следующем. Проводят случайную выборку исходных данных. Например, это случайные номера сайтов в наборе последовательностей ДНК, по которым строится дерево-оригинал. По этой части заново строится дерева тем же методом. Топология нового полученного дерева сравнивается с оригинальной. Такая процедура повторяется несколько сот раз и вычисляется доверительные вероятности бутстрепа – процент случаев совпадения каждой внутренней ветви у дерева-оригинала и новых деревьев. Вариабельные сайты. Сайты родственных последовательностей, содержащие разные нуклеотиды (или аминокислоты) в изучаемом наборе таксонов. Ветви. См. Филогенетическое дерево. Внутренние узлы. Узлы филогенетического дерева, которые объединяют родственные таксоны среди сравниваемых. Выравнивание. Сопоставление двух и более последовательностей для определения их уровня идентичности с учетом как замен, так и вставок/делеций. Различают локальное (см.), глобальное (см.), парное (см.), множественное (см.), прогрессивное (см.) выравнивания. Глобальное (полное) выравнивание. Выравнивание нуклеотидных или аминокислотных последовательностей по их полной длине. 111 Дерево видов. Филогенетическое дерево, отражающее эволюционную историю группы видов (популяций, сортов и т.п.). Дерево гена. Филогенетическое дерево, построенное на основе наблюдаемой вариабельности одного гена в разных организмах. Дерево консенсуса. «Обобщенное» дерево – усредненный вариант нескольких реализовавшихся деревьев. Джукса–Кантора модель. Модель для оценки эволюционного расстояния (ожидаемого числа нуклеотидных замен на сайт) по нуклеотидным (или аминокислотным) заменам в последовательности. В ней предполагается одинаковая частота замен для разных сайтов и равные вероятности разных замен, допускаются обратные замены. Домен. Это участок аминокислотной последовательности, который является составной частью различных белков и, возможно, обладает собственной функцией. Как правило, доменам свойственна высокая степень консервативности. Кимуры модель. Это модель оценки эволюционного расстояния через число нуклеотидных замен на сайт, в предположении, что скорость (вероятность) транзиций отличается от скорости трансверсий. Концепция молекулярных часов. Постоянство скоростей эволюции (мутаций) для разных таксонов. Корень. Это общий гипотетический ближайший предок всех (см.) части рассматриваемых форм в филогенетическом дереве (см.). Локальное (частичное) выравнивание. Выравнивание нуклеотидных или белковых последовательностей. Максимального правдоподобия метод (ML). Этот метод используется , в частности, для построения филогении. Строят так называемую функцию правдоподобия от неизвестных параметров. Затем подбирают значения параметров (длины ветвей для каждой топологии), обеспечивающие максимум этой функции. Метод допускает разную скорость для разных ветвей. 112 Максимальной парсимонии (экономии) метод (МР). Метод построения филогении, который находит дерево (или деревья), содержащее наименьшее количество замен, необходимых для объяснения различий между изучаемыми таксонами. В нем предполагается, что разные варианты нуклеотидных или аминокислотных замен равновероятны. Метод МР близок по смыслу к МЕ, но способ оценки длины ветвей в МР отличается. Марковская модель. Статистическая модель, генерирующая последовательности символов (например, цепь символов A, T, C, G в участке ДНК). Вероятности появления каждого следующего из них зависит от одного или нескольких предыдущих и оцениваются в процессе настройки (обучения) модели. Выделяют т.н. классические цепи Маркова и более общие скрытые марковские модели (см.). Матрицы замен. Эти матрицы содержат оценки частных весов для любой замены одной аминокислоты (или нуклеотида) на другую аминокислоту (или нуклеотид) в процессе эволюции. Минимума эволюции метод (ME). В этом методе построения филогении для каждой из возможных топологий дерева (см.) вычисляется сумма оценок длин всех его ветвей (S). Рассматриваются все возможные топологии и среди них выбирается топология с наименьшим значением S. Множественное выравнивание. Это выравнивание набора из трех и более последовательностей одновременно, при котором элементы в одинаковых позициях группируются в колонки. Наименьших квадратов метод (НК). В широком смысле метод подбора модели, обеспечивающей наименьшую сумму квадратов отклонений реальных данных от прогноза по модели. В узком смысле – метод построения филогении, в котором подбираются длины ветвей и вычисляются ожидаемые расстояния между таксонами, обеспечивающие минимум остаточной суммы квадратов отклонений. Допускает разную скорость эволюции для ветвей филогенетического дерева. 113 Наружные узлы. Узлы филогенетического дерева (см.), обозначающие таксоны, популяции или другие формы вне рассмотрения. Невзвешенный парно–групповой метод расстояний (НПГМ или UPGMA). В этом методе построения филогении сначала для каждой пары таксонов согласно выбранной модели замен определяются эволюционные расстояния. Затем применяют кластерный анализ. Предполагается равная длина ветвей, исходящих из одного узла. Метод строит укорененное дерево. Может использоваться для анализа молекулярных данных, если справедлива гипотеза молекулярных часов. Нейронная сеть. Статистическая модель со структурой, основанной на упрощенной аналогии с биологическими нейронными сетями. Различают однопотоковые (слоистые) нейронные сети, когда сигналы от нейронов предыдущего слоя поступают только следующему, и рекуррентные – нейронам любого слоя. После самонастройки (обучения) нейронная сеть позволяет решать различные задачи классификации и структурирования экспериментальных данных. Используется, в частности, для классификации, предсказания структуры и функции белков, распознавания промоторов и других участков ДНК, моделирования генных сетей и пр. Нидлмана–Вунша алгоритм. Алгоритм построения оптимального глобального выравнивания двух последовательностей, основанный на методе динамического программирования. Нуссинов алгоритм. последовательности Алгоритм РНК, предсказания основанный на вторичной методе структуры динамического программирования. Объединения соседей метод (ОС или NJ). Метод построения филогении, который основан на принципе минимума эволюции. Начальная топология дерева – конфигурация звезды. Затем последовательно разъединяют соседей (см.). В итоге получают наилучшее дерево без корня. 114 Оптимальное выравнивание. Выравнивание нуклеотидных или белковых последовательностей с самым высоким весом. Ортологичные последовательности. Гомологичные нуклеотидные или аминокислотные последовательности у двух видов называют ортологичными, если они появились в результате видообразования. Паралогичные последовательности. Гомологичные нуклеотидные или аминокислотные последовательности у двух видов-потомков называют паралогичными, они появились в результате дупликации у вида-предка. Парное выравнивание. Выравнивание двух последовательностей. Полный перебор. Это рассмотрение всех возможных вариантов. Если число таксонов (m) невелико (т < 10), то можно вычислить длины деревьев для всех топологий. Популяционное дерево (см. дерево видов). Постоянные сайты. Сайты, содержащие одинаковый нуклеотид (или аминокислоту) для всех консервативных последовательностей анализируемых таксонов, называются постоянными. Прогрессивное выравнивание. Один из алгоритмических подходов для построения множественного выравнивания. Сначала выбираются две наиболее похожие последовательности, которые выравниваются стандартным алгоритмом парного выравнивания. Это выравнивание фиксируется. Далее выбирается третья последовательность, которая «подравнивается» к первому выравниванию, затем 4–я и т.д. до тех пор, пока не будут выровнены все последовательности. Профиль. Ряд, состоящий из частот встречаемости нуклеотидов (аминокислот). Частоты оцениваются для каждого сайта по результатам множественного выравнивания родственных последовательностей. Профиль используется, в частности, как основа скрытой марковской модели (см.). 115 Разрыв. для Гэп, прочерк (обозначение (–)), который вводят в выравнивание компенсации вставки (выпадения) нуклеотидов в одной последовательности относительно другой. Расстояние р. Нескорректированное эволюционное расстояние. Оценивает различия между двумя последовательностями равной длины через долю (частоту) несовпадений между ними. Сайт информативный для парсимонии. Сайт, в котором для всех сравниваемых последовательностей есть, по крайней мере, два разных типа нуклеотида, представленные минимум дважды. Скрытая марковская модель (НММ). В марковских моделях (см.) этого вида вероятности появления каждого символа в последовательности зависят также от т.н. состояния модели. Последнее может изменяться случайно (с определенными вероятностями), но сравнительно редко, переключаясь, таким образом, на генерацию подпоследовательностей разного типа. В биоинформатике методы, основанные на НММ, используют для идентификации различных семейств белков и типов коротких последовательностей ДНК, для выявления последних в длинных экспериментальных последовательностях, а также в методах выравнивания (см.). Смита–Уотермана алгоритм. Предназначен для построения оптимального локального выравнивания (см.) или их множества. Соседи. Например, в методе NJ (см.) соседями называются два таксона на дереве без корня, соединенные через один внутренний узел. Специфичных деревьев поиск. Поскольку число возможных топологий быстро возрастает с ростом числа таксонов (т), то для больших т в методе максимальной парсимонии (см.) длины деревьев можно вычислить только для нескольких наиболее вероятных (специфичных) топологий. Сравнительный анализ последовательностей РНК. Теоретический метод предсказания вторичной структуры РНК, основанный на анализе множественных выравниваний (см.) семейств родственных РНК. 116 Таджимы–Нея модель. Используется для оценки эволюционного расстояния двух сравниваемых форм через число нуклеотидных замен на сайт. В ней учитываются нуклеотидные частоты (gA, g T, gC, gG) в последовательностях из двух сравниваемых форм. Модель используют в том случае, когда эти четыре частоты значительно различаются, но в мутационном процессе нет сильно выраженных предпочтений транзиций или трансверсий. Тамуры–Нея модель. Используют для оценки эволюционного расстояния, когда нуклеотидные частоты (gA, gT, gC, gG) различаются и есть выраженные предпочтения транзиций или трансверсий в последовательностях из двух сравниваемых форм. Топология. В узком смысле – характер ветвления филогенетического дерева. Филогенетика молекулярная. Это изучение филогенеза путем анализа нуклеотидных и аминокислотных последовательностей, то есть моделирование эволюционных процессов на молекулярном уровне. Филогенетическое дерево. Графическое отображение филогенетических связей сравниваемых форм. Каждое дерево состоит из так называемых узлов и ветвей, соединяющих узлы. Различают наружные (см.) (терминальные) и внутренние (см.) узлы. Ветви также бывают наружными и внутренними. Длина ветви численно характеризует изменения, которые произошли между формами в процессе эволюции или селекции. Функциональная геномика. Направление современной молекулярной биологии и генетики, основной целью которой является изучение реализации наследственной информации, закодированной в геноме (путь от гена к признаку), а основной задачей – предсказание функции генов, реконструкция метаболизма. Цукера алгоритм. Предназначен для предсказания вторичной структуры одиночной молекулы РНК. Главное предположение состоит в том, что правильная структура РНК в равновесии обладает наименьшей 117 свободной энергией. Эта энергия оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Штраф за разрыв. Для предотвращения накопления большого числа разрывов в выравнивании при введении очередного разрыва из общего веса выравнивания (см.) вычитается установленный штраф. Различают линейный и аффинный штрафы. Линейный штраф за разрыв – это самый простой вид штрафа, пропорциональный длине разрыва. Аффинный штраф за разрыв состоит из длины разрыва, штрафа за открытие разрыва и за его продолжение. 118 Содержание 1. Введение…………………………………………………………………. 3 Основные задачи биоинформатики…………………………………... 4 Значение биоинформатики для геномики растений……………….... 6 2. Базы данных……………………………………………………………... 8 3. Выравнивание…………………………………………………………… 13 3.1. Основные определения……….……………………………………. 13 3.2. Матрицы замен……………………………………………………...15 3.3. Штрафы за разрывы…………………………………………........... 18 3.4. Алгоритмы выравниваний………………………………………….19 Глобальное выравнивание. Алгоритм Нидлмана–Вунша…........... 20 Локальное выравнивание. Алгоритм Смита–Уотермана………. 25 Выравнивание нуклеотидных последовательностей………........... 27 Множественное выравнивание…………………………………….. 28 Программы серии CLUSTAL.……………………………………. 28 3.5. Программный поиск сходных аминокислотных или нуклеотидных последовательностей………..…………………………………... 32 Пакет программ BLAST ……………………………………………... 32 Принцип работы BLAST …………………………………………….. 35 4. Предсказание структуры генов эукариот…………………………… 36 4.1.Краткие сведения о структуре генов ……………………………. 36 4.2. Методы предсказания структуры генов эукариот………………. 40 5. Анализ генетических расстояний………………………………..…….. 42 5.1. Эволюционные замены в последовательностях ДНК……......... 42 5.2. Методы оценки расстояний………………………..………......... 45 Расстояние р……………………………………………….………... 46 Модель Джукса – Кантора………………………………..………... 49 Модель Кимуры …………………………………………..………....49 Модель Таджимы – Нея (1984)………………………..…………... 50 Модель Тамуры – Нея (1993)………………………..…….............. 51 119 Учет нуклеотидных различий между полиморфными формами.. 51 Интерпретация разрывов при оценке эволюционных расстояний 53 5.3. Пример – сопоставление оценок эволюционного расстояния….. 54 6. Молекулярная филогенетика…………………………………………... 57 6.1. Филогенетические деревья………………………………………… 58 6.2. Деревья видов и деревья генов……………………………………. 60 6.3. Методы построения деревьев…………………………………....... 62 Методы расстояний…………………………………………………. 62 Невзвешенный парно – групповой метод…………………... 64 Метод наименьших квадратов (НК)……………………............ 68 Метод минимума эволюции (ME)……………………………...73 Метод объединения соседей (ОС или NJ)…………………… 73 Метод максимальной парсимонии (экономии) (МР)……....... 77 Метод максимального правдоподобия (ML).………………. 83 6.4.Оценка достоверности реконструкции филогенетического дерева.85 6.5. Пример – сопоставление методов построения деревьев………… 86 6.6. Программы, используемые при построении филогении……….... 89 7.Примеры использования рассмотренных моделей и методов………... 90 8. Предсказание пространственной структуры РНК……………………. 95 8.1. Терминология вторичной структуры РНК……………………...... 96 8.2. Методы предсказания вторичной структуры РНК………………. 97 Алгоритм Нуссинов………………………………………………… 98 Алгоритм Цукера…………………………………………………… 100 Сравнительный анализ последовательностей РНК………………. 101 9.Предсказание пространственной структуры белка……………………. 103 Литература…………………………………………………………………. 108 Список сайтов……………………………………………………………… 110 Словарь терминов………………………………………………………… 111 120