Поиск гомологичных последовательностей Осваиваем программу BLAST Посмотрите обучающую программу о том как пользоваться BLAST NCBI Blast Tutorial http://www.youtube.com/watch?v=HXEpBnUbAMo Скопировать сюда Попробуйте найти эту последовательность сами через поиск в базе данных Protein Параметры Выбор базы данных Прокрутите вниз Выбор алгоритма удобно, можно вернуться и изменить параметры поиска Раскройте параметры алгоритма Пока можно оставить параметры по умолчанию Нажмите на кнопку BLAST Откроется промежуточное окно поиска В зависимости от загруженности сервера, надо подождать прокрутите вниз прокрутите вниз Поизучайте выравнивания. Обратите внимание на вес (Score) и ожидание (E-value). Вес получается из матриц счета с учетом пропусков и несовпадений (им присваивается отрицательный вес) Expect - ожидание ожидаемое число последовательностей, которые при выравнивании будут иметь данный вес или лучше (см теорию дальше). Элементы теории локального выравнивания • Задача: по заданной последовательности найти другие в базе данных последовательностей, которые “показывают схожесть” на статистически значимом уровне. • Цели: – мы предполагаем, что похожие последовательности кодируют белки со схожими функциями => предсказывание функций – мы предполагаем, что похожие последовательности произошли от одного общего предка => проследить эволюционную историю Алгоритм BLAST • Программы BLAST (Basic Local Alignment Search Tools) представляют собой набор алгоритмов для сравнения последовательностей. Были впервые опубликованы в 1990 году для поиска оптимального локального выравнивания данной последовательности с другими в базе данных последовательностей. – – Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) “Basic local alignment search tool.” J. Mol. Biol. 215:403-410. Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.” NAR 25:33893402. 11 12 Какие результаты выдает BLAST… • BLAST выдает “неожидаемые” выравнивания - • отличные от случайных Допущения - • Случайные последовательности Постоянный композиционный состав Выводы - “Неожидаемая схожесть” подразумевает эволюционную гомологию Эволюционная гомология: происхождение от общего предка Не всегда подразумевает подобную функцию 13 Программы BLAST Программа Описание blastp Сравнивает исходную аминокислотную последовательность с последовательностями из базы данных белков blastn Сравнивает исходную нуклеотидную последовательность с последовательностями из базы данных нуклеотидных последовательностей blastx Сравнивает исходную нуклеотидную последовательность, оттранслированную в аминокислотную по всем шести рамкам считывания, с последовательностями из базы данных белков. Используется для нахождения потенциальных продуктов трансляции неизвестной нуклеотидной последовательности. tblastn Сравнивает исходную аминокислотную последовательность с базой данных нуклеотидных последовательностей, динамически транслируемых по всем шести рамкам считывания tblastx Сравнивает все шесть трансляций исходной нуклеотидной последовательности со всеми шестью трансляциями из базы данных нуклеотидных последовательностей. 14 Дополнительные программы BLAST Программы Характеристики Непрерывный Для близких последовательностей Разрывный Для межвидового сравнения PSI-BLAST Автоматически генерирует матрицу счета специфичную к позициями (Position Specific Score Matrix, PSSM) RPS-BLAST Совершает поиск в базе данных матриц PSSMs, сгенерируемых программой PSIBLAST. Megablast Специфичен к позициям 15 Алгоритм BLAST • • Параметр, можно менять • Вес совпадений считается по матрицам счета Последовательности разбиты на слова (words) (по умолчанию длина n=3) – Обеспечивает скорость и вычислительную эффективность Алгоритм BLAST расширяет исзначальный “зародыш” (“seed”) до сегмента с большим весом (High Scoring Pairs, HSP) 16 При поиске близких последовательностей важна статистика • • Различие между настоящим совпадением и артефактом делается с помощью оценок вероятности, что совпадение могло быть случайным. Мы обсудим значение весов (scores, S) и ожиданий (e-values, E), которые ассоциируются с выравниваниями, отобранными BLAST. 17 Как считается вес (score, S) • • • Качество каждого попарного выравнивания представлено в виде веса, по которому так же определяется порядок расположения найденных последовательностей. Для вычисления веса выравнивания, используются матрицы весов. Вес считается по каждому выравненному основанию (ДНК) или аминокислоте (белок). Общий вес выравнивания есть сумма весов для каждой позиции. 18 Матрица весов • Матрицы замен используются для аминокислотных выравниваний • Более простая унитарная матрица используется для ДНКвыравнивания (+1 для совпадения, 2 для несовпадения) 6 19 BLOSUM vs PAM BLOSUM 45 BLOSUM 62 PAM 250 PAM 160 PAM 100 Более разошедшиеся • BLOSUM 90 Менее разошедшиеся По умолчанию в программе BLAST 2.0 используется матрица BLOSUM 62. Хотя она предназначена для поиска умеренно разошедшихся белков, ее использование довольно эффективно при поиске более близких последовательностей. Поиск дальних родственников может оказаться более эффективен с другими матрицами. 20 Что означают значения веса (score) и ожидания (e-value). • Качество выравнивания представлено весом Score (S). • Вес выравнивания расчитывается как сумма замен и пропусков. Вес замен берется из матриц (PAM, BLOSUM), а вес пропусков назначается эмпирически. • Значимость каждого выравнивания вычисляется в виде ожидания E value (E). • Ожидание. Число различных выравниваний с весом равным или большим, чем S, которое ожидается найти в данной базе данных случайным образом. Чем меньше E-value, тем более значим вес. E-value - это не вероятность, а ожидание. Причина, по которой программы BLAST выдают не вероятности, а ожидани, состоит в том, что гораздо легче понять значения ожидания в 5 или 10 последовательностей, чем вероятности 0.993 и 0.99995. Однако при E<0.01 значения вероятностей и ожиданий практически совпадают. • 21 Что надо знать о E-values • Низкие значения E-values означают, что последовательности гомологичны ๏ • ‣ ‣ ‣ Однако, высокие не означают негомологичность Статистическая значимость зависит как от размера выравненного участка так и от размера базы данных Important consideration for comparing results across different searches E-value увеличивается с увеличением размера базы данных E-value уменьшается с увеличением размера участка выравнивания 22 Гомология: некоторые соображения • • • • Схожесть не является индикатором гомологии Вообще говоря, если две последовательности схожи со статистической значимостью по всей длине, то, вероятно, они гомологичны Участки с низкой сложностью могут быть схожи с высокой степенью значимости, но не быть гомологами Гомологичные последовательности не всегда схожи с высокой степенью значимости 23 Предполагаемые порогвые значения BLAST • • Для поиска в базах данных нуклеотидных последовательностей надо рассматривать результаты со значениями ожиданий (Evalues) меньше 10-6 и процентом идентичности последовательностей 70% или более Для поиска в базах данных аминокислотных последовательностей, надо рассматривать результаты со значениями ожиданий (E-values) меньше 10-3 и процентом идентичности последовательностей 25% или более 24 Как работает BLAST? • • Качество и относительная скорость поиска программ BLAST (важные свойства при учете того, что базы данных постоянно растут) достигается с помощью подхода, при котором исходная последовательность и последовательности базы данных разбиваются на фрагменты (слова, "words"), и первоначальный поиск совпадений производится между фрагментами. После изначального нахождения совпадающих “слов” выравнивание расширяется по обоим направлениям с целью сгенерить выравнивание с весом, превышающим некоторое пороговое значение S. 25 Алгоритм BLAST 26 Алгоритм BLAST 27 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T) 28 Как работает BLAST? Параметры W : Размер слова (Word) – найти совпадающие слова между последовательностями длина 2-3 для aминокислот, 6-11 для нуклеотидов. T : Порог (Threshold) – оставить только слова с весом >T обычно 11-13 X : Потеря веса – остановить расширять выравнивание, когда потеря >X S : Вес (Score) – Финальный вeс сегмента Как работает BLAST? Алгоритм: 1. Выравнивает исходную последовательность с последовательностью из базы данных. 2. Находит “хиты” (“hits”): короткие выравненные сегменты длины W без пробелов с весом не меньше T. 3. Расширяет выравнивание до тех пор, пока вес не уменьшится на величину X от некоторого максимума, который будет обозначен как наилучший вес Этот шаг потребляет основное время процессора (>90%) Как работает BLAST? Как нам быстро избавиться от ненужных последовательностей? • Разеделить базу данных на слова длины W (по умолчанию: W = 3 для белков и и W = 7 для ДНК) • Сохранить слова в специальной таблице, в которой можно производить быстрый поиск WTDFGYPAILKGGTAC WTD TDF DFG FGY GYP … Как работает BLAST? BLAST: как избавиться от ненужных последовательностей • Когда пользователь вводит исходную последовательность, она делится на слова • Поиск в базе данных происходит последовательно по соседним словам • Вес для соседних слов определяется согласно матрице весов (например, BLOSUM62 для белков) с некоторым пороговым значением GFC (20) GFB GPC (11) WAC (5) Как работает BLAST? Последовательность базы данных Соседнее слово Ищем зародыш: хиты на одной диагонали, которые можно объединить По крайней мере, 2 хита на одной диагонали на расстоянии друг от друга меньше, чем определенный порог Исходная последовательность (Query) Стадия фильтрации – множество несвязанных хитов фильтруются, экономя огромное количество времени! Как работает BLAST? Расширение сегмента вдоль выравнивания • Прекращает расширение, когда вес выравнивания уменьшается на X ниже полученного максимального значения • Не рассматривает сегменты с весом < S ASKIOPLLWLAASFLHNEQAPALSDAN JWQEOPLWPLAASOIHLFACNSIFYAS Score=15 Score=17 Score=14 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T) 35 Как работает BLAST? Результат – ЛОКАЛЬНОЕ выравнивание • В результате BLAST выдает набор локальных выравниваний между исходной последовательностью и различными найденными хитами Для одной последовательности может быть два участка c высоким весом. Обратите внимание на координаты 37 Задание 1 1. Найти последовательности двух субединиц белка гемоглобина человека (hemoglobin subunit alpha and hemoglobin subunit beta) через NCBI protein database. Через BLAST найти близких родственников. Выбрать 10 разных видов. Найти полные последовательности выбранных 10 видов через NCBI protein database по идентификационному номеру. Сохранить их все в формате fasta в текстовый файл. Мы их будем использовать для построения филогенетических деревьев Подсказка: hemoglobin subunit alpha [Homo sapiens] http://www.ncbi.nlm.nih.gov/protein/4504347?report=fasta Задание 2 Найти структуру гемоглобина человека в базе данных pdb. Окрасить так, чтобы было видно две субъединицы. Посмотреть гемоглобин с кислородом, без кислорода и при болезни серповидно-клеточной анемии. Подсказка: http://www.rcsb.org/pdb/results/results.do?outformat=&qrid=2FD86D00&tabto show=Current Задание 3 1. Посмотреть интересное видео о проекте “Дерево жизни” Discovering the Great Tree of Life http://www.youtube.com/watch?v=9R8hpPY_9kY Cледующая лекция Проект «Дерево жизни» (TOL, Tree of Life). Горизонтальный обмен генов. Основные понятия о филогенетических деревьях. Гомологи, ортологи, паралоги. Метод расстояний. Невзвешенный метод парной группировки (UPGMA). Метод ближайшего соседа. Бутстрэп. Программы для построения деревьев – PHYLIP, PAUP, сlustalw.