Множественное выравнивание

advertisement
Множественное выравнивание
С.А.Спирин, весна 2011
Множественное выравнивание
… это то же, что парное, только последовательностей сколько угодно 
ROB_ECOLI
GADX_ECOLI
ENVY_ECOLI
YDEO_ECOLI
APPY_ECOLI
GADW_ECOLI
XYLR_ECOLI
YDEC_BACSU
:
:
:
:
:
:
:
:
*
20
*
40
*
60
RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ
EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI
YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM
PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV
QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS
RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL
HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS
NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH
5
s 3
e
6
a 66
:
:
:
:
:
:
:
:
61
47
47
47
47
47
57
57
Для чего строят множественные выравнивания?
ROB_ECOLI
GADX_ECOLI
ENVY_ECOLI
YDEO_ECOLI
APPY_ECOLI
GADW_ECOLI
XYLR_ECOLI
YDEC_BACSU
:
:
:
:
:
:
:
:
*
20
*
40
*
60
RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ
EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI
YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM
PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV
QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS
RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL
HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS
NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH
5
s 3
e
6
a 66
позволяет найти общее
:
:
:
:
:
:
:
:
61
47
47
47
47
47
57
57
позволяет оценить эволюционные отношения
мотивы, паттерны, профили
поиск
активного
центра
предсказание
3D-структуры
реконструкция
эволюции
Построение множественных выравниваний — необходимый этап
решения многих задач молекулярной биологии
Множественное выравнивание
гомеодоменов
Красным выделены консервативные (одинаковые у всех) остатки;
желтым – на 80% консервативные (одинаковые почти у всех) остатки
Красным выделены консервативные и функционально консервативные
остатки
Биологический смысл
Тот же, что у парного: сопоставляемые остатки
разных белков должны:
• иметь общее происхождение;
• выполнять аналогичную функцию;
• одинаково располагаться в пространстве.
Множественное выравнивание последовательностей
использует больше информации, чем парное, поэтому
(теоретически) должно в среднем чаще получаться
биологически осмысленным.
Парное и множественное выравнивание
1. Любое множественное выравнивание порождает набор
парных выравниваний
2. Не любой набор парных выравниваний можно просто
"сложить" во множественное выравнивание.
Пример:
P1
P2
+
P1
P3
+
P2
P3
ALGTEEICALGT--IAA
AL-GTEEI-C
ALVGTE-IAC
AL-GT-IAA
ALVGTEIAC

P1 AL-GTEEI-C
P2 AL-GT--IAA
P3 ALVGTE-IAC
Змей-Горыныч биоинформатики
Биологическая задача 
поставить друг под другом
гомологичные позиции
Математическая задача 
найти способ количественного
сравнения качества
выравниваний.
Программирование  создание
эффективного алгоритма и
его реализация
ROB_ECOLI
GADX_ECOLI
ENVY_ECOLI
YDEO_ECOLI
APPY_ECOLI
GADW_ECOLI
XYLR_ECOLI
YDEC_BACSU
:
:
:
:
:
:
:
:
*
20
*
40
*
60
RYQFWHDFLGNAPTIPPVLYGLNETRPSQDKDDEQEVFYTTALAQDQADGYVLTGHPVMLQ
EW---------TLARIASELLMSPSLLKKKLREE-ETSYSQLLTECRMQ----RALQLIVI
YW---------NLRIVASSLCLSPSLLKKKLKNE-NTSYSQIVTECRMR----YAVQMLLM
PW---------KLKDICDCLYISESLLKKKLKQE-QTTFSQILLDARMQ----HAKNLIRV
QW---------HLKDIAELIYTSESLIKKRLRDE-GTSFTEILRDTRMR----YAKKLITS
RW---------YLRDIAERMYTSESLIKKKLQDE-NTCFSKILLASRMS----MARRLLEL
HYIRNHACKGIKVDQVLDAVGISRSNLEKRFKEEVGETIHAMIHAEKLE----KARSLLIS
NWIHLHYVEKITLEDIAKAGQLSRSECCRYFKRMLNKTPLRYVMDYRIQ----KSLLLLQH
5
s 3
e
6
a 66
:
:
:
:
:
:
:
:
61
47
47
47
47
47
57
57
(С) А.Б.Рахманинова
Парное выравнивание: вес
Две последовательности:
>P1
ALGTEEIC
>P2
ALGTIAA
Алгоритм
Ниделмана – Вунша
P1 ALGTEEICP2 ALGT--IAA
Оптимальное полное выравнивание
Параметры:
• матрица замен
• штрафы за пропуски
Алгоритм
Смита – Ватермана
P1 ALGT
P2 ALGT
Оптимальное частичное выравнивание
Множественное выравнивание:
формализация и алгоритмизация
Можно определить вес (хотя ситуация со
штрафами за пропуски сложнее).
Но ни для какого определения веса не существует
приемлемого (по времени работы) алгоритма,
который гарантировал бы нахождение
оптимального по весу выравнивания.
Аналог алгоритма Ниделмана – Вунша имеет приемлемое время работы
лишь для очень малого числа последовательностей (до 4–5)
В задаче множественного выравнивания
приходится использовать эвристические
алгоритмы
«Эвристический алгоритм (эвристика) — алгоритм решения
задачи, не имеющий строгого обоснования, но, тем не менее,
дающий приемлемое решение задачи в большинстве практически
значимых случаев» (из Википедии)
Алгоритм ClustalW – пример эвристического алгоритма
(так называемое «прогрессивное выравнивание»)
Руководящее
дерево
Множественное выравнивание получается из парных, получаемых
алгоритмом Ниделмана – Вунша.
В первую очередь выравниваем самые схожие последовательности.
Очевидный недостаток:«один раз гэп – навсегда гэп», ошибки парного
выравнивания невозможно исправить на основании информации от
других последовательностей.
Программы множественного
выравнивания
• ClustalW
– к настоящему времени явно устарела, но по-прежнему
очень популярна (впрочем, недавно вышла обновлённая версия)
• Muscle – пожалуй, на текущий момент программа первого выбора
• MAFFT – тоже очень популярная программа
• DiAlign
• T-Coffee
• Kalign
• ProbCons
•…
Всё это программы полного выравнивания
Единственная популярная программа частичного множественного выравнивания –
MEME (ищет блоки, то есть выравнивания без пропусков)
Форматы хранения
выравниваний
•
•
•
•
•
•
Fasta
Aln (он же Clustal)
MSF (Multiple sequence format)
PHYLIP
NEXUS
…
См. http://emboss.sourceforge.net/docs/themes/SequenceFormats.html#mult
Всё это текстовые файлы!
Редакторы выравниваний
•
•
•
•
•
•
GeneDoc (установлен у нас)
BioEdit (тоже установлен)
Mega (тоже установлена)
JalView
ClustalX
…
См. http://en.wikipedia.org/wiki/List_of_alignment_visualization_software
Download