Uploaded by Егор Агапов

Базы данных в биоинформатике

advertisement
Биоинформатика:
«текстовая» и «структурная».
Базы данных
Чугунов Антон
Лаборатория моделирования биомолекулярных систем
http://model.nmr.ru
Институт биоорганической химии РАН
http://ibch.ru
Долгопрудный, МФТИ, 20 сентября 2018 г.
План лекции
1. Что такое биоинформатика?
2. Большие базы «сухой биологии»
3. Последовательности генов
4. Аминокислотные последовательности
5. Структуры белков
6. Выравнивание последовательностей
7. Поиск последовательностей в базах
8. Филогенетические деревья
I. Введение в «сухую биологию»
Что такое «биоинформатика»?
БИОлогия + ИНФОРМАТИКА: “computer science” в биологии
Структурная
биоинформатика
• Молекулярное
моделирование
• Дизайн белков
• Драг-дизайн
«Текстовая»
биоинформатика
• «Биологические тексты»
• Компьютерная геномика
• Молекулярная эволюция
Алгоритмическая
биоинформатика
• Моделирование сложных
систем
• Генные сети
• Алгоритмы биоинформатики
• и т.д.
I. Введение в «сухую биологию»
Разновидности биоинформатики
•
•
•
•
•
•
•
•
Клиническая биоинформатика
Структурная геномика
Функциональная геномика
Фармакогеномика
Клиническая протеомика
Функциональная протеомика
Структурная протеомика
Другие «омики»
…и любые направления современной биологии и медицины, где необходимо
систематизировать и анализировать данные биохимических экспериментов
I. Введение в «сухую биологию»
Немного истории
Биомолекула: http://bit.ly/BM-InSilico
II. Большие базы «сухой» биологии
Большие базы «сухой биологии»
Genbank
Uniprot
Protein Data Bank
www.ncbi.nlm.nih.gov/genbank
www.uniprot.org
www.rcsb.org
• «Склад» генетических
данных
• Сотни миллионов
последовательностей генов
• Полные геномы
# последовательностей
• «Склад» а/к
последовательностей
• Курируемый и
некурируемый разделы
• Подробные аннотации
• «Склад» 3D-структур белков
• ≈140 тыс. структур
• Десятки тысяч разных
белков
• Многих структур пока нет!
— GenBank
— Полные геномы
bit.ly/BM-InSilico
III. Генетические последовательности
Генетические последовательности
Источник генетических данных — геномные проекты, в
том числе знаменитый «Геном человека».
Прогресс достигнут за счет методик секвенирования ДНК.
bit.ly/BM-Sequencing
Метод «терминаторов»
Сэнгера
Секвенирование «нового поколения» (NextGen)
• Фрагментация (shotgun)
• Регистрация включения нуклеотидов
• Биоинформатическая «сборка»
Нанопоровое
секвенирование
IV. Аминокислотные последовательности
Аминокислотные последовательности

Химический метод. Фрагментирование полипептида химическими реагентами с
последующей идентификацией фрагментов

Автоматическое секвенирование (метод Эдмана). Последовательная деградация
белка с N-конца (реакция с фенилизотиоцианатом; ФИТЦ) + идентификация

Ферментативный метод. Отщепление а.о. с помощью карбоксипептидазы + идентификация

Физический метод: масс-спектрометрия. MS/MS анализ и Peptide mass fingerprinting
Метод Эдмана
Протеомика: MS-анализ + фингерпринт
bit.ly/BM-Proteomics
IV. Аминокислотные последовательности
Формат файла FASTA
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
V. 3D-структуры белков
Пространственные структуры белков
Рентгеноструктурный
анализ
ЯМР-Спектроскопия
Криоэлектронная
микроскопия
Нобелевская премия по
химии 2017
bit.ly/BM-StructBio
V. 3D-структуры белков
Формат файла pdb
HEADER
TITLE
TITLE
...
EXPDTA
AUTHOR
AUTHOR
...
REMARK
REMARK
REMARK
REMARK
...
SEQRES
SEQRES
SEQRES
...
ATOM
ATOM
ATOM
ATOM
ATOM
...
HETATM
HETATM
HETATM
...
EXTRACELLULAR MATRIX
22-JAN-98
1A3I
X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE
2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY)
X-RAY DIFFRACTION
R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA,
2 B.BRODSKY,A.ZAGARI,H.M.BERMAN
350 BIOMOLECULE: 1
350 APPLY THE FOLLOWING TO CHAINS: A, B, C
350
BIOMT1
1 1.000000 0.000000 0.000000
350
BIOMT2
1 0.000000 1.000000 0.000000
1 A
1 B
1 C
1
2
3
4
5
130
131
132
9
6
6
N
CA
C
O
CB
0.00000
0.00000
PRO PRO GLY PRO PRO GLY PRO PRO GLY
PRO PRO GLY PRO PRO GLY
PRO PRO GLY PRO PRO GLY
PRO
PRO
PRO
PRO
PRO
C
ACY
O
ACY
OXT ACY
A
A
A
A
A
1
1
1
1
1
8.316
7.608
8.487
9.466
6.460
21.206
20.729
20.707
21.457
21.723
21.530
20.336
19.092
19.005
20.211
1.00
1.00
1.00
1.00
1.00
17.44
17.44
17.44
17.44
22.26
N
C
C
O
C
401
401
401
3.682
2.807
4.306
22.541
23.097
23.101
11.236
10.553
12.291
1.00 21.19
1.00 21.19
1.00 21.19
C
O
O
V. 3D-структуры белков
Формат файла pdb: секция ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
END
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
N
CA
C
O
CB
H1
HA
HB1
HB2
HB3
N
CA
C
O
CB
SG
H
HA
HB2
HB3
N
CA
C
ALA
ALA
ALA
ALA
ALA
ALA
ALA
ALA
ALA
ALA
CYS
CYS
CYS
CYS
CYS
CYS
CYS
CYS
CYS
CYS
VAL
VAL
VAL
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
3
3
3
1.329
2.093
2.542
2.089
1.269
1.807
2.967
0.317
1.105
1.799
3.434
3.946
3.460
3.184
5.475
6.182
3.758
3.574
5.850
5.828
3.358
2.907
3.990
0.000
-0.001
1.409
2.390
-0.607
-0.001
-0.619
-0.939
0.136
-1.448
1.502
2.792
3.109
2.207
2.799
2.219
0.684
3.549
2.156
3.806
4.398
4.835
5.635
0.000
-1.241
-1.611
-1.021
-2.368
0.855
-1.095
-1.978
-3.134
-2.789
-2.591
-3.039
-4.450
-5.241
-3.001
-1.426
-3.024
-2.365
-3.785
-3.169
-4.759
-6.075
-6.790
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.00
71.14
74.41
2.11
32.23
11.33
31.51
23.01
21.12
33.44
3.51
72.01
52.24
73.02
63.31
24.53
32.34
64.12
10.23
74.42
52.05
53.32
64.51
N
C
C
O
C
H
H
H
H
H
N
C
C
O
C
S
H
H
H
H
N
C
C
VI. Выравнивание последовательностей
Выравнивание последовательностей
Выравнивание – это определение соответствия между
аминокислотными остатками (для белков) или
нуклеотидами (для ДНК/РНК) в последовательностях
•
•
Парное выравнивание: поиск сходных участков двух последовательностей
Множественное выравнивание: поиск консервативных участков в наборе
последовательностей
вОобРажение
сОдеРжание-
воОбраЖеНИЕ
-сОдерЖаНИЕ
вОобРаЖеНИЕ
сОдеР-ЖаНИЕ
GTaTAGTc-Ta
GT-TAGTagTc
GT-A-TAGTCta
GTtAgTAGTC--
N = 184 756. N20 = 1,38 × 1011. N100 = 9,05 × 1058
VI. Выравнивание последовательностей
Выравнивание: пример
bit.ly/BM-InSilico
VI. Выравнивание последовательностей
«Расстояние» между последовательностями
1. Идентичность последовательностей. Доля идентичных а.о., стоящих в тех
же позициях в последовательностях А и В
Seq1: FTFTALILLA
Seq2: FEFTALVLLA
Идентичность = 80%
2. Расстояние по Хеммингу. Количество несовпадающих позиций
Seq1: FTFTALILLA
Seq2: FEFTALVLLA
RХемминг = 2
3. Расстояние по Левенштайну (редакционное расстояние).
Минимальное число преобразований, переводящих одну последовательность в другую
Seq1: FTFT-LILLA
Seq2: FEFTALVLLA
RРед = 3
Требуется учитывать природу а/к замен!
VI. Выравнивание последовательностей
Физико-химические свойства а/к остатков
VI. Выравнивание последовательностей
Вероятность замены а/к остатков
VI. Выравнивание последовательностей
Матрицы замены а/к остатков
VI. Выравнивание последовательностей
Множественное выравнивание
Сlustal – наиболее используемый в мире кластер программ для
множественного выравнивания последовательностей
VI. Выравнивание последовательностей
Множественное выравнивание
VII. Поиск последовательностей в базах
Поиск «гомологов»
BLAST (англ. Basic Local Alignment Search Tool) —
семейство компьютерных программ для поиска гомологов белков или
нуклеиновых кислот, для которых известна первичная структура или её
фрагмент.
Идея — поиск в последовательности похожих или совпадающих «слов»
максимальной длины.
VII. Поиск последовательностей в базах
Поиск «гомологов»: BLAST
VII. Поиск последовательностей в базах
Поиск «гомологов»: FASTA
VII. Филогенетические деревья
Молекулярная эволюция
Карл Вёзе (1928–2012)
Выводы
1. Без биоинформатики современная биология невозможна
2. Продукт биоинформатики — онлайн-базы данных — уже
воспринимается как «воздух»
3. Очень многие исследования в современной биологии можно
делать «всухую», без капли реактива
Торжество
компьютерных
методов:
предсказание
строения белков
Молекулярная
динамика
биомолекул. История
полувековой давности
Драг-дизайн: как в
современном мире
создаются новые
лекарства
454-секвенирование
ДНК
На заре молекулярной
графики
Ловля бабочек, или
чем структурная
геномика поможет
биологии
Невидимая граница:
где сталкиваются
«нано» и «био»
Недоупорядоченные
белки
Антимикробные
пептиды — возможная
альтернатива
традиционным
антибиотикам
Зрительный родопсин —
рецептор, реагирующий
на свет
Рецепторы в активной
форме
Миллисекундный
барьер взят!
Калиевый канал
in silico
Компьютерные игры в
молекулярную
биофизику
биологических мембран
Пространственновременное
моделирование в
биологии
Рецептор
“нетрадиционной
ориентации”
Липидный фундамент
жизни
Биохакеры:
молекулярная биология
в стиле «сделай сам»
Спасибо за внимание!
Download