Известны последовательности 54 млн белков 30 млн Как организовать библиотеку

advertisement
Известны последовательности
30 млн 54 млн белков
Как организовать библиотеку
белков?!
1
Откуда берутся последовательности
белков
• Получение последовательностей нуклеиновых кислот,
ДНК и РНК
– Геномные проекты
– Секвенирование интересующих генов и/или участков ДНК в
лабораториях
– Метагеномные проекты
• Идентификация генов
– Компьютерные предсказания
– мРНК и их фрагменты – EST и др.
• Экспериментальное подтверждение существования белка
–
–
–
–
мРНК
Клонирование и изучение
Выделение белка и масс-спектрометрия
….
Illumina-HiSeq 2000
ДНК в пробирке
101x8x48x4 снимков
прямой проход
Столько же —
на обратный проход
~2х8х200 млн. последовательностей длины 101 в формате fastq,
Итого порядка 300 млрд букв, 100-кратное покрытие генома человека
Банки нуклеотидных
последовательностей
GenBank, EMBL ENA, DDBJ
Архивные базы
последовательностей
нуклеиновых кислот
RefSeq
Автоматическая база
различных
последовательностей НК
Экскурс в историю
Первоначально определяли аминокислотную последовательность
белка, отщепляя по одному остатку и определяя какой он.
В конце 1970-х годов был изобретён относительно быстрый и
дешёвый метод экспериментального определения
последовательности оснований ДНК
выделение
...TGCCACAAATCAC...
секвенирование
Организм
ДНК «в пробирке»
Последовательность
В последние несколько лет
разработаны и внедрены технологии
быстрого массового секвенирования
ДНК
Экскурс в историю
В 1982 году были открыты публичные электронные
банки данных GenBank и EMBL, содержащие
последовательности ДНК.
В 1984 аналогичный банк данных DDBJ открыт в Японии
Что включать в описание одной
последовательности?
7
Что хочется (можется) знать о
белке?
• Название
• Хим. формулу
– Последовательность
– S-S связи
– Модификации (химические), которым подвергается белок in vivo
• Структуру
– вторичную
– пространственную
• Из какого организма получен
– Полиморфизмы
• Функцию – что умеет делать
– аминокислотные остатки, ответственные за функцию (функции)
– другие особенности остатков
• Другую информацию
• Источники информации (правда ли все сказанное о белке?)
8
Uniprot,
база последовательностей
белков
Структура записи, в которой
хранится одна последовательность
Документ банка данных Swiss-Prot
Описание документа: идентификатор,
имя, дата создания и модификации
Аннотация
последовательности
Последовательность
10
Основные поля Swiss-Prot
ID – идентификатор в текущем релизе. Всегда один, но может меняться
от релиза к релизу.
AC – так называемый «номер доступа» (Accession number). Раз
появившись, не исчезнет (поэтому именно на AC надо указывать при
использовании данных Swiss-Prot в публикациях). Может быть не один
(по разным причинам).
DE – «description», описание белка. В последних релизах имеет
внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое
название, полное рекомендуемое название, синонимы и др.)
OS – видовое название организма – источника данного белка
OC – таксономия организма (в соответствии с текущим стандартом
NCBI)
DR – ссылки на другие базы данных
FT – “feature table”, особенности частей последовательности
http://www.uniprot.org/uniprot/P00174.txt
http://www.uniprot.org/uniprot/P37869.txt
http://www.uniprot.org/uniprot/P27358.txt
11
Структура идентификатора
записи Swiss-Prot
ENO_BACSU: энолаза из сенной палочки
Мнемоника организма
Мнемоника функции белка
Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв
видового (Bacillus subtilis → BACSU).
Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для
различения штаммов.
Исключения:
а) 16 наиболее представленных организмов
(BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE
for Maize (Zea mays) , MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit,
RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana
tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae));
б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.);
в) случаи неопределенного видового названия.
12
Содержимое поля FT
Feature Table — характеристики участков последовательности
В частности:
•трансмембранные участки;
•сигнальные последовательности
•сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот;
•сайты посттрансляционной модификации;
•вторичная структура;
•домены;
•разночтения в последовательности (“CONFLICT”);
•варианты (напр., альтернативный сплайсинг “VARSPLIC”);
и т. п.
Имеет строгий формат: Feature Key, FtLocation, FtDescription.
Например:
FT DISULFID 334 343 By similarity.
FT CONFLICT 138 138 E -> EE (in Ref. 4; AA sequence).
13
Как организовать базу данных?
14
Белки: БД публикаций или БД
последовательностей?
Как создать БД белков? Попробуем …
• БД – большой файл в текстовом формате
• Файл должен читаться и программой, и человеком
(“адекватная формализация”)
• Единица хранения – запись, entry
один белок – одна запись (что такое – один белок?)
• Записи разбиты на поля
–
–
–
–
–
Обязательное поле – идентификатор (-ы)
Название белка, синонимы
Организм
Функция
Последовательность
» Пространственная структура?
– “Особенности” (features) – информация об отдельных остатках
– Дополнительные сведения
– Ссылки на источники информации
15
Базы данных (общие принципы)
• БД состоит из одного или нескольких хранилищ
(“таблиц”)
• Единица хранения (строка таблицы) называется
записью (entry).
• Все записи состоят из полей (field). Поля с одним и
тем же названием (колонки таблицы) содержат
однородную информацию.
• Записи из разных хранилищ (таблиц) ссылаются
друг на друга
16
Пример: БД “библиотека”
• Запись – книга
• Поля:
–
–
–
–
–
Название
Авторы
Год издания
Аннотация
Текст
• Есть второе хранилище – “картотека”
17
Uniprot: из каких частей состоит
18
Банк данных Swiss-Prot
Swiss-Prot – база знаний о белковых
последовательностях
•Курируемая база данных
• “Золотой стандарт” Аннотации
проверяет и дополняет эксперт
• 534 242 (0.5 млн. белков)
19
Swissprot. Рост числа записей.
20
Банк данных TrEMBL
TrEMBL (Translated EMBL)
Формальная трансляция всех кодирующих
нуклеотидных последовательностей из банка
EMBL
Автоматическая классификация и аннотация
Формат записи тот же, что у Swiss-Prot
54 247 468 (54 млн. белков)
21
TrEmbl. Рост числа записей
22
Соотношение числа белков,
представленных в разных банках
Число записей в банках
данных
на январь 2013
TrEMBL
SwissProt
PDB – пространственные
структуры (всего их 88 тыс.)
Swiss-Prot – аннотированные
последовательности
TrEMBL – последовательности,
полученные компьютерной
трансляцией
PDB
Последовательностей во много раз больше, чем структур!
Большинство последовательностей не аннотированы!
23
Достоверность
последовательностей белков
по данным SwissProt
Evidence at protein
level
Evidence at transcript
level
Inferred from
homology
Predicted
Uncertain
Более половины последовательностей SwissProt не
охарактеризовано экспериментально
24
Экскурс в историю
Первый банк данных о белках
Первая версия атласа содержала описание 65
последовательностей белков
25
Экскурс в историю
Банк данных Swiss-Prot
1986г.
С 1987 поддерживается в сотрудничестве между
Swiss Institute of Bioinformatics (SIB)
European Bioinformatics Institute (EBI)
С 2002 является частью UniProt knowledgebase,
поддерживаемой UniProt consortium
Амос Байрох
Долговременный руководитель группы Swiss-Prot
в Швейцарском Институте Биоинформатики
26
“Юридическая” классификация
банков данных
•
Архивные
примеры:
,
)
за содержание каждой записи отвечает её автор-экспериментатор
• Курируемые
за содержание записей отвечают специальные люди — кураторы
• Автоматические
записи генерируются компьютерными программами
КОНЕЦ
28
ПРИЛОЖЕНИЕ
Банки данных для биоинженеров и
биоинформатиков.
Выборка
29
Портал биоинформатический ресурсов на сайте SIB
30
Продолжение
31
Продолжение
32
Продолжение
33
Продолжение
34
Продолжение
35
Продолжение
36
Продолжение
37
Продолжение
38
Продолжение
39
Продолжение
40
Продолжение
41
Продолжение
Копировал с пропусками. Дошел до половины списка ….
42
… еще студент должен уметь пользоваться
биоинформатическими программами
43
… когда (ближе к пенсии  ) все выучите,
появится в 100 раз больше новых!
А “старые” прекратят существование или у
них изменится формат и интерфейс.
Какой вывод?
44
entries
%
Всего
%
TrEMBL
1: Evidence at
protein level
73864
13.8
13062
0.1
86926
2: Evidence at
transcript level
69920
13.1
554302
2.9
624222
3: Inferred from
homology
374128
70
3981888
20.5
4356016
4: Predicted
14450
2.7
14884993
76.6
14899443
5: Uncertain
1880
0.4
0
0.0
1880
534 242
100
19 434 245
100
19 968 487
Всего
entries
Protein
existence
(PE):
Swissprot
Статистика для любопытных
45
Download