Лекция 4 - DNA punctuation

реклама
Гомологи, ортологи, паралоги.
Поиск гомологичных
последовательностей
Осваиваем программу
BLAST
Theodosius Dobzhansky
"Nothing in biology makes sense
except in the light of evolution"
Гомология
Крыло птицы
Крыло летучей мыши
рука человека
Определения:
гомологичными в биологии называют сопоставимые части
сравниваемых биологических объектов.
гомологичными в биоинформатике называют
последовательности, которые произошли от общего предка
гомология и аналогия
Последовательности могут быть похожими из-за конвергентной эволюции
Гомология (общий предок) против аналогии (конвергентная эволюция)
крыло птицы
крыло летучей мыши
крыло бабочки
крыло мухи
Парадигма родственных белков
Существующие сегодня белки произошли от белков-предков в
результате замен и отбора.
Родственные белки имеют похожие последовательности И
похожую структуру И схожие функции.
Под ”схожими функциями" можно понимать:
•идентичную функцию,
•Похожую функцию, т.е.:
•Катализ одинаковых реакций в различных организмах; или
•Одинаковый механизм катализа но различные субстраты
(дегидрогиназы яблочной и молочной кислоты);
•Подобные субединицы и домены, которые были соединены вместе
в результате перемешивания доменов, например, домены
связывания с нуклеотидами в гексокиназе, миозине, HSP70 и АТФсинтазе.
Типы гомологов: ортологи и паралоги
Две последовательности гомологичны, если существовала молекулапредшественник, от которой произошли обе последовательности
Типы гомологов
Ортологи: последовательности, происшедшие в результате видообразования
Паралоги: последовательности, происшедшие в результате дупликации
Cхожесть последовательностей
и гомология
Следующее утверждение основано на наблюдении и не является истинным
a priori:
Если две (сложные) последовательности обладают значительной схожестью
между первичными последовательностями, у них общий предок и, возможно,
одинаковые функции.
(хотя некоторые белки обретают совершенно новые функции, как, например,
появление альфа-кристаллина).
The Size of Protein Sequence Space
(back of the envelope calculation)
Consider a protein of 600 amino acids.
Assume that for every position there could be any of the twenty possible
amino acid.
Then the total number of possibilities is 20 choices for the first position times
20 for the second position times 20 to the third .... = 20 to the 600 = 4*10780
different proteins possible with lengths of 600 amino acids.
For comparison the universe contains only about 1089 protons and has an
age of about 5*1017 seconds or 5*1029 picoseconds.
If every proton in the universe were a super computer that explored one
possible protein sequence per picosecond, we only would have explored
5*10118 sequences, i.e. a negligible fraction of the possible sequences
with length 600 (one in about 10662).
Посмотрите обучающую программу
о том как пользоваться BLAST
NCBI Blast Tutorial
http://www.youtube.com/watch?v=HXEpBnUbAMo
Скопировать сюда
Попробуйте найти эту
последовательность сами через
поиск в базе данных Protein
Параметры
Выбор базы данных
Прокрутите
вниз
Выбор алгоритма
удобно, можно вернуться и
изменить параметры поиска
Раскройте параметры
алгоритма
Пока можно оставить
параметры по
умолчанию
Нажмите на
кнопку BLAST
Откроется промежуточное окно поиска
В зависимости от загруженности сервера, надо подождать
прокрутите вниз
прокрутите вниз
Поизучайте выравнивания.
Обратите внимание на вес
(Score) и ожидание (E-value).
Вес получается из матриц
счета с учетом пропусков и
несовпадений (им
присваивается отрицательный
вес)
Expect - ожидание ожидаемое число
последовательностей, которые
при выравнивании будут иметь
данный вес или лучше (см
теорию дальше).
Элементы теории
локального выравнивания
• Задача: по заданной последовательности
найти другие в базе данных
последовательностей, которые
“показывают схожесть” на статистически
значимом уровне.
• Цели:
– мы предполагаем, что похожие
последовательности кодируют белки со
схожими функциями => предсказывание
функций
– мы предполагаем, что похожие
последовательности произошли от одного
общего предка => проследить эволюционную
историю
Алгоритм BLAST
•
Программы BLAST (Basic Local
Alignment Search Tools) представляют
собой набор алгоритмов для
сравнения последовательностей.
Были впервые опубликованы в 1990
году для поиска оптимального
локального выравнивания данной
последовательности с другими в базе
данных последовательностей.
–
–
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990)
“Basic local alignment search tool.” J. Mol. Biol. 215:403-410.
Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller
W, Lipman DJ (1997) “Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs.” NAR 25:33893402.
18
19
Какие результаты
выдает BLAST…
• BLAST выдает “неожидаемые”
выравнивания
-
•
отличные от случайных
Допущения
-
•
Случайные последовательности
Постоянный композиционный состав
Выводы
-
“Неожидаемая схожесть” подразумевает
эволюционную гомологию
Эволюционная гомология: происхождение от общего предка
Не всегда подразумевает подобную функцию
20
Программы BLAST
Программа
Описание
blastp
Сравнивает исходную аминокислотную последовательность с
последовательностями из базы данных белков
blastn
Сравнивает исходную нуклеотидную последовательность с
последовательностями из базы данных нуклеотидных
последовательностей
blastx
Сравнивает исходную нуклеотидную последовательность,
оттранслированную в аминокислотную по всем шести рамкам
считывания, с последовательностями из базы данных белков.
Используется для нахождения потенциальных продуктов трансляции
неизвестной нуклеотидной последовательности.
tblastn
Сравнивает исходную аминокислотную последовательность с базой
данных нуклеотидных последовательностей, динамически
транслируемых по всем шести рамкам считывания
tblastx
Сравнивает все шесть трансляций исходной нуклеотидной
последовательности со всеми шестью трансляциями из базы данных
нуклеотидных последовательностей.
21
Дополнительные программы
BLAST
Программы
Характеристики
Непрерывный
Для близких последовательностей
Разрывный
Для межвидового сравнения
PSI-BLAST
Автоматически генерирует матрицу счета
специфичную к позициями (Position Specific
Score Matrix, PSSM)
RPS-BLAST
Совершает поиск в базе данных матриц
PSSMs, сгенерируемых программой PSIBLAST.
Megablast
Специфичен к
позициям
22
Алгоритм BLAST
•
•
Параметр,
можно менять
•
Вес совпадений считается по
матрицам счета
Последовательности разбиты на
слова (words) (по умолчанию длина
n=3)
–
Обеспечивает скорость и вычислительную эффективность
Алгоритм BLAST расширяет
исзначальный “зародыш” (“seed”) до
сегмента с большим весом (High
Scoring Pairs, HSP)
23
При поиске близких
последовательностей важна
статистика
•
•
Различие между настоящим
совпадением и артефактом делается
с помощью оценок вероятности, что
совпадение могло быть случайным.
Мы обсудим значение весов (scores,
S) и ожиданий (e-values, E), которые
ассоциируются с выравниваниями,
отобранными BLAST.
24
Как считается вес (score, S)
•
•
•
Качество каждого попарного
выравнивания представлено в виде
веса, по которому так же определяется
порядок расположения найденных
последовательностей.
Для вычисления веса выравнивания,
используются матрицы весов. Вес
считается по каждому выравненному
основанию (ДНК) или аминокислоте
(белок).
Общий вес выравнивания есть сумма
весов для каждой позиции.
25
Матрица весов
•
Матрицы замен
используются для
аминокислотных
выравниваний
•
Более простая
унитарная
матрица
используется для
ДНКвыравнивания (+1
для совпадения, 2 для
несовпадения)
6
26
BLOSUM vs PAM
BLOSUM 45
BLOSUM 62
PAM 250
PAM 160
PAM 100
Более разошедшиеся
•
BLOSUM 90
Менее разошедшиеся
По умолчанию в программе BLAST 2.0
используется матрица BLOSUM 62. Хотя она
предназначена для поиска умеренно
разошедшихся белков, ее использование
довольно эффективно при поиске более
близких последовательностей. Поиск дальних
родственников может оказаться более
эффективен с другими матрицами.
27
Что означают значения веса
(score) и ожидания (e-value).
•
Качество выравнивания
представлено весом Score (S).
•
Вес выравнивания расчитывается как сумма замен и пропусков.
Вес замен берется из матриц (PAM, BLOSUM), а вес пропусков
назначается эмпирически.
•
Значимость каждого выравнивания
вычисляется в виде ожидания E value
(E).
•
Ожидание. Число различных выравниваний с весом равным или
большим, чем S, которое ожидается найти в данной базе данных
случайным образом. Чем меньше E-value, тем более значим вес.
E-value - это не вероятность, а ожидание. Причина, по которой
программы BLAST выдают не вероятности, а ожидани, состоит в
том, что гораздо легче понять значения ожидания в 5 или 10
последовательностей, чем вероятности 0.993 и 0.99995. Однако
при E<0.01 значения вероятностей и ожиданий практически
совпадают.
•
28
Что надо знать о E-values
•
Низкие значения E-values означают,
что последовательности гомологичны
๏
•
‣
‣
‣
Однако, высокие не означают негомологичность
Статистическая значимость зависит
как от размера выравненного участка
так и от размера базы данных
Important consideration for comparing results across different
searches
E-value увеличивается с увеличением размера базы
данных
E-value уменьшается с увеличением размера участка
выравнивания
29
Гомология: некоторые
соображения
•
•
•
•
Схожесть не является индикатором
гомологии
Вообще говоря, если две
последовательности схожи со
статистической значимостью по всей
длине, то, вероятно, они гомологичны
Участки с низкой сложностью могут
быть схожи с высокой степенью
значимости, но не быть гомологами
Гомологичные последовательности
не всегда схожи с высокой степенью
значимости
30
Предполагаемые порогвые
значения BLAST
•
•
Для поиска в базах данных нуклеотидных
последовательностей надо рассматривать
результаты со значениями ожиданий (Evalues) меньше 10-6 и процентом
идентичности последовательностей 70%
или более
Для поиска в базах данных
аминокислотных последовательностей,
надо рассматривать результаты со
значениями ожиданий (E-values) меньше
10-3 и процентом идентичности
последовательностей 25% или более
31
Как работает BLAST?
•
•
Качество и относительная скорость поиска
программ BLAST (важные свойства при учете
того, что базы данных постоянно растут)
достигается с помощью подхода, при котором
исходная последовательность и
последовательности базы данных разбиваются
на фрагменты (слова, "words"), и
первоначальный поиск совпадений
производится между фрагментами.
После изначального нахождения совпадающих
“слов” выравнивание расширяется по обоим
направлениям с целью сгенерить
выравнивание с весом, превышающим
некоторое пороговое значение S.
32
Алгоритм BLAST
33
Алгоритм BLAST
34
Расширение выравнивания до достижения
максимального веса
High Scoring Segment Pair (HSP)
Минимальный вес (S)
Пороговый вес
для первого
совпадающего
слова (T)
35
Как работает BLAST?
Параметры
W : Размер слова (Word) – найти совпадающие слова
между последовательностями
длина 2-3 для aминокислот, 6-11 для нуклеотидов.
T : Порог (Threshold) – оставить только слова с весом >T
обычно 11-13
X : Потеря веса – остановить расширять выравнивание,
когда потеря >X
S : Вес (Score) – Финальный вeс сегмента
Как работает BLAST?
Алгоритм:
1.
Выравнивает исходную последовательность с
последовательностью из базы данных.
2.
Находит “хиты” (“hits”): короткие выравненные
сегменты длины W без пробелов с весом не меньше T.
3.
Расширяет выравнивание до тех пор, пока вес не
уменьшится на величину X от некоторого максимума,
который будет обозначен как наилучший вес
Этот шаг потребляет основное время процессора (>90%)
Как работает BLAST?
Как нам быстро избавиться от ненужных
последовательностей?
• Разеделить базу данных на слова длины W (по
умолчанию: W = 3 для белков и и W = 7 для ДНК)
• Сохранить слова в специальной таблице, в которой
можно производить быстрый поиск
WTDFGYPAILKGGTAC
WTD
TDF
DFG
FGY
GYP
…
Как работает BLAST?
BLAST: как избавиться от ненужных
последовательностей
• Когда пользователь вводит исходную последовательность, она делится
на слова
• Поиск в базе данных происходит последовательно по соседним словам
• Вес для соседних слов определяется согласно матрице весов
(например, BLOSUM62 для белков) с некоторым пороговым значением
GFC (20)
GFB
GPC (11)
WAC (5)
Как работает BLAST?
Последовательность базы данных
Соседнее слово
Ищем зародыш: хиты на
одной диагонали, которые
можно объединить
По крайней мере, 2 хита на
одной диагонали на
расстоянии друг от друга
меньше, чем определенный
порог
Исходная последовательность (Query)
Стадия фильтрации –
множество несвязанных хитов
фильтруются, экономя
огромное количество
времени!
Как работает BLAST?
Расширение сегмента вдоль выравнивания
• Прекращает расширение, когда вес выравнивания
уменьшается на X ниже полученного максимального
значения
• Не рассматривает сегменты с весом < S
ASKIOPLLWLAASFLHNEQAPALSDAN
JWQEOPLWPLAASOIHLFACNSIFYAS
Score=15
Score=17
Score=14
Расширение выравнивания до достижения
максимального веса
High Scoring Segment Pair (HSP)
Минимальный вес (S)
Пороговый вес
для первого
совпадающего
слова (T)
42
Как работает BLAST?
Результат – ЛОКАЛЬНОЕ выравнивание
• В результате BLAST выдает набор локальных
выравниваний между исходной последовательностью
и различными найденными хитами
Introduction to Information Theory
Cпрашиваете ребенка - он всегда отвечает “нет” ”
Информация = 0
Cпрашиваете ребенка - он отвечает “да” и “нет”
Вопрос - любит ли ребенок мороженное?
Ответ - нет
Удивление
Качественно - Информация, или удивление, обратно
пропорционально вероятности.
Количественно Units: bits or nats
Может быть последовательность цифр кости или ATGC
Существует частотное распределение
Если равновероятно - 1/n, то H=log2(n), и среднее будет таким же.
Средняя информация последовательности символов
называется …
ЭНТРОПИЕЙ
Примеры: M (метионин) =0.01 L (лейцин) =0.1 q=0.002
Ratio=2 S=log2(2)=1 bit ->
это и есть значение матрицы весов BLOSSUM
Оценка лямбда
Для одной
последовательности
может быть два
участка c высоким
весом. Обратите
внимание на
координаты
55
Задание 1
1. Найти последовательности двух субединиц белка
гемоглобина человека (hemoglobin subunit alpha
and hemoglobin subunit beta) через NCBI protein
database. Через BLAST найти близких
родственников. Выбрать 10 разных видов. Найти
полные последовательности выбранных 10 видов
через NCBI protein database по
идентификационному номеру. Сохранить их все в
формате fasta в текстовый файл. Мы их будем
использовать для построения филогенетических
деревьев
Подсказка:
hemoglobin subunit alpha [Homo sapiens]
http://www.ncbi.nlm.nih.gov/protein/4504347?report=fasta
Задание 2
Найти структуру гемоглобина
человека в базе данных pdb.
Окрасить так, чтобы было видно
две субъединицы. Посмотреть
гемоглобин с кислородом, без
кислорода и при болезни
серповидно-клеточной анемии.
Подсказка:
http://www.rcsb.org/pdb/results/results.do?outformat=&qrid=2FD86D00&tabto
show=Current
Задание 3
1. Посмотреть интересное видео о проекте “Дерево жизни” Discovering the Great Tree of Life
http://www.youtube.com/watch?v=9R8hpPY_9kY
Скачать