Bestfit Output sp1_human x egr1_human October 10, 2001 10:50 . . . .. . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457 SP1 at swissprot EGR1 at swissprot Вывод • Оба белка имеют «общей» только небольшую зону похожих последовательностей. Поэтому использование bestfit больше подходит для построения локального выравнивания. • Мы нашли такое локальное выравнивание, которое соответствует возможному структурному выравниванию. • Структурная «похожесть» может свидетельствовать о domain/function similarity. Bl2Seq at NCBI Bl2seq results Bl2seq оценка • Bits score – оценка выравнивания в соответствии с количеством совпадений, «похожести» и т.д. • Expected-score (E) – Вероятность случайности выравнивания. Чем ближе к 0, тем больше вероятность, что наше выравнивание верно. Оптимизация времени вычислений при парном выравнивании Нахождение оптимального выравнивания требует значительных затрат времени Алгоритм FASTA k – длина диагоналей b – фактор отступа от диагонали Алгоритм BLAST • Basic Local Alignment Search Tool • Чувствителен также, как FastA, но намного быстрее. • Также, как FASTA, требует параметр k (длина слова). – Белки k= 3 letter words – ДНК k= 11 letter words. Алгоритм BLAST (шаг 1) 1. Поиск идентичных\похожих участков 2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score растёт) В результате: High-scoring Segment Pairs (HSPs) THEFIRSTLINIHAVEADREAMESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEWASNINETEEN Алгоритм BLAST (шаг 2) Попытка соединить соседние HSPs путем выравнивания последовательностей между ними: THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEEN Blast • Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN • • • • Query: ДНК Белок Database: ДНК Белок BlastN - ДНК vs ДНК BlastP – белок vs белок BlastX - translated ДНК vs белок tBlastN - белок vs translated ДНК Поиск гомологов По ДНК или по белку? Какой поиск предпочтительней? ДНК или белок? Какая последовательность более постоянна в эволюционном плане? UCAUAC Or Serine -Tyrosine ДНК ДНК Фосфатная группа O O=P-O O 5 CH2 O N Азотистое основание C1 C4 Сахар (дезоксирибоза) C3 C2 (A, G, C, or T) ДНК ДНК состоит из двух цепей нуклеотидов, соединённых попарно: ADENINE – THYMINE CYTOSINE - GUANINE Правило комплементарности Двойная спираль 5 O 3 3 O P 5 O 1 C G 4 3 4 2 3 2 1 P 5 O P 3 5 O T A O P P 5 3 5 P ДНК, дальнейшая упаковка. ДНК Функции ДНК — наследственность и изменчивость. Репликация ДНК Репликация ДНК Поиск гомологов • Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка нуклеотидов) • Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной. Ser-Tyr…. UCAUAC UCUUAC UCGUAC U…… Поиск гомологов • Нуклеотиды – 4-х буквенный алфавит. • Аминокислоты – 20-и буквенный алфавит Две случайные последовательности ДНК будут идентичны ~ 25%. Две случайные белковые последовательности будут идентичны ~ 5%. Поиск гомологов Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы данных ДНК намного больше белковых → будут случайные совпадения. Поиск гомологов Использование белковых последовательностей более предпочтительно при поиске гомологов Множественное выравнивание последовательностей (MSA) VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWYQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG LSLTCTVSGTSFDD--YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG-- Основные предположения • Гены фиксированы, сохранены у очень широкого круга биологических видов, у совершенно различных представителей «древа жизни». • Фиксированный генетический код для белков вероятно несёт похожие, зачастую идентичные функции. Например: • Гистоны: небольшие белки, присутствуют у всех эукариот. Демонстрируют выраженное постоянство последовательности в MSA Постоянство структуры и функции (упаковка DNA) Почему множественное выравнивание? Позволяет дать характеристику семействам белков, найти общие участки, гомологов. Например: семейство Serine protease: семейство, отвечающее за катализ, гидролиз пептидных связей. • Одинаковые активные центры ? • Общие участка последовательности? • MSA – это первый, предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев. • База для филогенеза – данные молекулярной биологии или морфологические данные Подходы в MSA 2 разных подхода: – 1D sequence based – сравнение последовательностей. – 2D-3D based – выравнивание, базирующееся на структуре MSA algorithm • Попарное выравнивание всех последовательностей (pairwise alignment). • Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree). • Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree; сначала выравнивают наиболее похожие пары, затем добавляют остальные и т.д. Multiple Alignment - алгоритм (1) Парное выравнивание (подготовка guide tree) 6 pairwise alignments then cluster analysis (2) Множественное выравнивание, следуя древу из п. 1. successive alignments Комментарии • Парное выравнивание - оптимальный алгоритм. • Множественное выравнивание не является оптимальным алгоритмом. Вполне могут существовать и лучшие выравнивания! • Редакторы выравниваний могут быть полезны для корректировки GCG Pileup: глобальный MSA. pileup @[list of sequence names] pileup @hemoglobin_list 1. 2. The @ sign means that the file contains a list of names. The list can include names from the user’s directory or code names (accession numbers) from the GCG databases. GCG Пример входного файла Syntax: the file starts with “..” .. sw:hbb_human sw:hbb_rat sw:hbb_mouse Sequences from the databases Hemoglobin_Alpha Hemoglobin_Gamma Hemogolibin_Delta Sequences from the user’s directory GCG PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment. 1 2 3 4 IPNS_STRJU IPNS_STRCL IPNS_CEPAC IPNS_NOCLA 329 329 338 328 aa aa aa aa What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? This program can display the clustering relationships graphically. Do you want to: A) Plot to a FIGURE file called "pileup.figure" B) Plot graphics on HP7550 attached to /dev/tty15 C) Suppress the plot Please choose one (* A *): c What should I call the output file name (* ipns.msf *) ? Determining pairwise similarity scores... 1 1 1 2 2 3 x x x x x x 2 3 4 3 4 4 4.43 3.12 4.12 2.94 4.05 3.09 Aligning... Total sequences: Alignment length: CPU time: 4 338 00.21 Output file:/data/users/racheli/others/racheli/ipns.msf Regular GCG syntax: Default parameters, output file, etc GCG !!AA_MULTIPLE_ALIGNMENT 1.0 PileUp of: @ipns.fil Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 1102 GapWeight: 8 GapLengthWeight: 2 ipns.msf MSF: 338 Type: P March 14, 2002 09:29 Check: 7631 .. Name: Name: Name: Name: IPNS_STRJU IPNS_STRCL IPNS_NOCLA IPNS_CEPAC Len: Len: Len: Len: 338 338 338 338 Check: 6344 Check: 4249 Check: 7020 Check: 18 Weight: Weight: Weight: Weight: 1.00 1.00 1.00 1.00 // IPNS_STRJU IPNS_STRCL IPNS_NOCLA IPNS_CEPAC 1 ~MPILMPSAE ~MPVLMPSAH ~~~MKMPSAE MGSVPVPVAN IPNS_STRJU IPNS_STRCL IPNS_NOCLA IPNS_CEPAC 51 VDVQLLQDVV VDVQQLQDVV VDVQRLQDVV VDLPWLSRET VPTIDISPLS VPTIDISPLF VPTIDVSPLF VPRIDVSPLF NEFHRNMSDQ NEFHGAMTDQ NEFHRTMSPQ NKFHMSITDE GDDAKAKQRV GTDAAAKKRV GDDAQEKVRV GDDKEKKLEV EKHDLAINAY EKHDLAIHAY EKYDLAIHAY EKWQLAIRAY AQEINKAARG AEEIHGACRG GQEINKACRG ARAIDAASRD 50 SGFFYASNHG SGFFYATNHG SGFFYAANHG TGFFYAVNHG NKDN.PHVRN NPDN.PHVRN NKNN.SHVRN NKEHESQIRA 100 GYYKAIKGKK GYYKAVPGRK GYYMAIEGKK GYYLPIPGKK Output file: msf format GCG Prettybox: генерирует графический файл из файла MSA prettybox [MSA file]{*} prettybox hemoglobins.msf{*} 1. The “{*}” is a syntax sign meaning all the sequences in the MSA file. 2. Can also calculate the consensus sequence. GCG ClustalW • Очень известная и широко распространённая программа: UNIX, Internet, Windows. • Выполняет MSA; может строить филогенетические деревья. • Входной файл – формат multi-fasta. ClustalW • tofasta @list Making the file in unix >IPNS_STRJU P18286 MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA AGTVKNPTTSYGEYLQHGLRALIVKNGQT >IPNS_STRCL P10621 MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA SEEVRNEALSYGDYLQHGLRALIVKNGQT input file: Multi-fasta ClustalW CLUSTAL W (1.7) multiple sequence alignment IPNS_STRJU IPNS_STRGR IPNS_FLASS IPNS_PENCH IPNS_CEPAC -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET *.** **:* * *.: . * :* *: *.* :***** :**:*: *. . IPNS_STRJU IPNS_STRGR IPNS_FLASS IPNS_PENCH IPNS_CEPAC NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK .:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *: Выходной файл: aln format форматы http://www.ebi.ac.uk/help/formats.html ClustalW на EMBL ClustalW на EMBL - результат ClustalW at EMBL - Jalview Conservation Ещё пара терминов…… Consensus Sequence Мы можем вывести consensus sequence из результатов MSA. The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания. A T C T T G T A A C T T G T A A C T T C T A A C T T G T Профиль (Profile) Также возможно вывести статистическую модель, описывающую MSA. Профиль содержит информацию о символах в каждом столбце выравнивания. 1 2 3 4 5 6 A T C T T G T A 1 0.67 0 0 . . A A C T T G T T 0 0.33 1 1 . . A A C T T C T C 0 0 0 0 . . G 0 0 0 0 . . Profile vs. Consensus Consensus: каждая позиция отражает наиболее часто встречающийся символ. Profile: каждая позиция отражает частоту символа в данной позиции. Profile vs. Consensus Данный MSA будет иметь одинаковый consensus A A C T T G C A A C T T G T A A G T C G T A A C T T G T C A C T T C T A A C T T C T G T A A C T T Profile vs. Consensus Но разный профиль A A C T T G C A A C T T G T A A G T C G T A A C T T G T C A C T T C T A A C T T C T 1 2 3 4 5 6 1 2 3 4 5 6 A 0.66 1 0 0 . . A 1 1 0 0 . . T 0 0 0 1 . . T 0 0 0 1 . . C 0.33 0 0.66 0 . . C 0 0 1 0 . . G 0 0 0.33 0 . . G 0 0 0 0 . . Psi Blast (NCBI) Position Specific Iterated – автоматизированный поиск по профилю Regular blast Construct profile from blast results Blast profile search Final results PSI-Blast Psi-Blast вывод Проблема формулировки выводов при использовании МSA: 1. Сайт выглядит общим (фиксированным) из-за того, что это – близкородственные последовательности? 2. Сайт выглядит общим из-за того, что это – исключительно, жизненно важный сайт? Филогенез Эволюция – случайный процесс с неслучайным результатом Цели филогенетического исследования • Реконструкция корректных генеалогических связей между биологическими объектами • Оценка времени расхождения организмов • Определение порядка эволюционных событий в процессе эволюции Формат Newick ((A,(B,C)),(D,E)) Типы данных ? Molecular (DNA, RNA, proteins) Morphological (soft tissue, hard tissue, extant, extinct) Преимущества молекулярных данных • Наследуемость. • Недвусмысленность в описании молекулярных характеристик • Поддаются количественному анализу • Оценка гомологии легче, чем морфологические исследования • Данных много Древо видов и генов • Древо видов – эволюционные взаимосвязи между видами (видообразование). • Древо генов. Figure 2: (a) Incongruent gene and species trees. This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b). The presence of only a single gene (ad) extant in each of the present-day species (1-4) requires postulating three gene losses. (c) The corresponding reconciled tree. Page, R.D.M. and Cotton, J.C. (2000) GeneTree: a tool for exploring gene family evolution. In D. Sankoff, and J. Nadeau, (eds.), Comparative Genomics: Empirical and Analytical Approaches to Gene Order Dynamics, Map Alignment, and the Evolution of Gene Families. Kluwer Academic Publishers, Dordrecht, pp. 525-536. Ортологи и паралоги • Гены-паралоги – событие дупликация (a and b) a • Гены-ортологи – событие видообразования (a in the two species and b in the two species) Duplication a b Speciation a Species a b a Species b b Шаги реконструирования филогенетического древа 1. Выбор последовательностей и поиск гомологов 2. MSA 3. Матрица белков 4. Филогенетическое дерево Филогенетическое дерево Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. Зачем нужны филогенетические деревья? Биологические задачи: сравнение 3-х и более объектов (кто на кого более похож .... ) реконструкция эволюции (кто от кого, как и когда произошел…) Терминология Узел (node) — точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа. Корень (root) — общий предок. Клада (clade) - группа двух или более таксонов или последовательностей ДНК, которая включает как своего общего предка, так и всех его потомков. OTU HTU (hypotetical taxonomic unit) Какие бывают деревья? Бинарное (разрешённое) Небинарное (неразрешённое) (в один момент времени может произойти только одно событие ) (может ли в один момент времени произойти два события? ) Время Какие бывают деревья? Укорененное дерево (rooted tree) отражает направление эволюции Неукорененное (бескорневое) дерево (unrooted tree) показывает только связи между узлами Время Если число листьев равно n, существует (2n-3)!! разных бинарных укоренных деревьев. По определению, (2n-3)!! = 1·3 ·... ·(2n-3) Существует (2n-5)!! разных бескорневых деревьев с n листьями Rooting 3 OTUs 1 неукорененное дерево 3 укорененных деревьев B A C A C B A B C B C A 4 OTUs 3 неукорененных филогенетических деревьев C A B D A C B D A D B C 4 OTUs 15 укорененных деревьев Количество возможных деревьев Количество Количество OTU укорененных 2 3 4 5 6 7 8 9 10 11 12 1 3 15 105 954 10,395 135,135 2,027,025 34,459,425 654,729,075 13,749,310,575 Количество неукорененных 1 1 3 15 105 954 10,395 135,135 2,027,025 34,459,425 654,729,075 Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145, Визуализация и редактура дерева Множественное выравнивание GCGGCTCA GCGGCCCA GCGTTCCA GCGTCCCA GCGGCGCA *** ** TCAGGTAGTT TCAGGTAGTT TC--CTGGTT TCAGCTAGTT TTAGCTAGTT * * *** Matches GGTG-G GGTG-G GGTGTG GTTG-G GGTG-A * ** Spinach Rice Mosquito Monkey Human Multiple Alignment GCGGCTCA GCGGCCCA GCGTTCCA GCGTCCCA GCGGCGCA *** ** TCAGGTAGTT TCAGGTAGTT TC--CTGGTT TCAGCTAGTT TTAGCTAGTT * * *** Matches Mismatches GGTG-G GGTG-G GGTGTG GTTG-G GGTG-A * ** Spinach Rice Mosquito Monkey Human Multiple Alignment GCGGCTCA GCGGCCCA GCGTTCCA GCGTCCCA GCGGCGCA *** ** TCAGGTAGTT TCAGGTAGTT TC--CTGGTT TCAGCTAGTT TTAGCTAGTT * * *** Matches Mismatches Gaps GGTG-G GGTG-G GGTGTG GTTG-G GGTG-A * ** Spinach Rice Mosquito Monkey Human Шаг 3. Перевод индексы замен количества Seq 1 Seq 2 расхождений A G C G A G G C G G A C в Distance Matrix* Spinach Rice Mosquito Spinach 0.0 Rice 9 0.0 Mosquito Monkey Human 106 91 86 118 122 122 0.0 55 51 0.0 3 Monkey Human * Units: количество замен нуклеотидов на 1000 0.0 Шаг 4: построение филогенетического дерева Spinach Rice Mosquito Monkey Human Spinach 0.0 Rice 9 0.0 Mosquito Monkey Human 106 91 86 118 122 122 0.0 55 51 0.0 3 0.0 Дистанция между человеком и обезьяной минимальна. Эти группы объединяются в Monkey-Human, а все остальные дистанции пересчитываются Dist[Spinach, MonHum] = (Dist[Spinach, Monkey] + Dist[Spinach, Human])/2 = (91 + 86)/2 = 88.5 Mon-Hum Mosquito Spinach Rice Human Monkey Редуцированная матрица дистанций Spinach Rice Mosquito Mon-Hum Spinach 0.0 Rice 9 Mosquito 106 Mon-Hum 88.5 0.0 118 122 0.0 53 0.0 Spi-Ric Mosquito Spinach Rice Mon-Hum Human Monkey Mos-Mon-Hum-Spi-Ric Mos-Mon-Hum Spi-Ric Rice Spinach Mon-Hum Mosquito Human Monkey Как выбирать последовательности для дерева? Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) Придерживайтесь небольшой выборки (< 50 последовательностей) Избегайте: – фрагментов; – Ксенологов (горизонтальный перенос генов); – рекомбинантных последовательностей; – многодоменных белков и повторов Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих группклад) Самое главное – хорошее выравнивание! Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать. Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): • UPGMA (кластеризация) • Neighbor-joining • Минимальная эволюция Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных Пример матрицы расстояний 1 0.00 2 10.53 0.00 3 9.77 9.02 0.00 4 12.78 12.03 9.77 0.00 5 12.03 9.77 9.02 2.26 0.00 6 16.54 15.79 16.54 17.29 15.79 0.00 7 13.53 9.02 12.03 10.53 8.27 10.53 0.00 Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи 8 25.00 27.27 24.24 25.76 25.76 29.55 25.00 0.00 HUMAN HORSE RABIT MOUSE RAT 5 BOVIN PIG 7 CHICK 1 2 3 4 6 8 Как понимать расстояние между объектами? • Как время, в течение которого они эволюционировали • Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962) Если гипотеза молекулярных часов принимается, число различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева. Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково. За равное время во всех ветвях эволюции данного гена\белка накапливается равное число мутаций UPGMA Unweighted Pair Group Method with Arithmetic Mean разновидность кластерного метода Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров Недостатки UPGMA Алгоритм строит ультраметрическое дерево – скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости «молекулярных часов»). Реальное дерево UPGMA Метод ближайших соседей (Neighbor-joining, NJ) Строит неукоренённое дерево Может работать с большим количеством данных Достаточно быстрый Если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре листьев Пусть ui = Σk Mik/(n-2) — среднее расстояние от листа i до других листьев 1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины Mij – ui –uj т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных. Метод ближайших соседей (Neighbor-joining, NJ) 2. Кластер (i, j) – новый узел дерева Расстояние от i или от j до узла (i,j): D(i, (i,j)) = 0,5·(Mij + ui – uj) D(j, (i,j)) = 0,5· (Mij + uj – ui) т.е. длина ветви зависит от среднего расстояния до других вершин 3. Вычисляем расстояние от нового кластера до всех других M(ij)k = Mik+Mjk – Mij 2 5. В матрице М убираем i и j и добавляем (i, j). Повторяем, пока не останутся 3 узла ... Методы, основанные на последовательностях: Maximum Likelihood (ML), Maximum Parsimony (MP) Input: MSA для n последовательностей, одна последовательность для каждого вида. AAAAATC CCCCCCG AAAAAAG Длинная ветвь Похоже на правду CCCCCCG AAAAAAG AAAAATC Длинная ветвь – непохоже на правду Как изобразить дерево? Топология дерева Топология дерева — только листья, узлы, (корень) и связывающие их ветви (топология не зависит от способа изображения дерева) A B C D E C D E A Два изображения одной и той же топологии B Как можно нарисовать построенное дерево? Кладограммы и филограммы Bacterium 1 Bacterium 2 Bacterium 3 Eukaryote 1 Eukaryote 2 Кладограммы – только топологя. Длины ветвей не учитываются Eukaryote 3 Eukaryote 4 3 Bacterium 1 1 Bacterium 2 2 Bacterium 3 4 Eukaryote 1 3 6 6 5 2 4 Филограммы – длины ветвей пропорциональны эволюционному расстоянию. Eukaryote 2 Eukaryote 3 Eukaryote 4 Какие on-line программы строят деревья? ClustalW. “Tree type” – nj, phylip: строит только методом NJ, но результат – в разных форматах, no bootstraps Phylip (Felsenstein, 1993) – пакет программ для построения филогенетических деревьев (stand-alone) On-line (partly): например, http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html PAUP (Phylogenetic Analysis Using Parsimony) MEGA: филогенетический анализ последовательностей http://www.megasoftware.net/ Эволюция – исторический процесс. Из 8,200,794,532,637,891,559,375 деревьев для 20 OTUs, 1 является верным и 8,200,794,532,637,891,559,374 неверны. Truth is one, falsehoods are many. Какое из 8,200,794,532,637,891,559,375 деревьев истинно? Мы не знаем. Можно применить иные критетии: Например, “похожесть=родство» GCG • Строковый поиск: простой текстовый поиск по локальной базе данных. • Поиск в определениях или в аннотациях. • Определения содержат минимальное количество информации для каждой статьи: доступ, имя организма, имя гена, длина последовательности, дата.