Uniprot, база последовательностей белков … и некоторые другие базы данных

advertisement
Uniprot,
база последовательностей
белков
… и некоторые другие базы данных
Что хочется знать о белке?
• Название
• Хим. формулу
– Последовательность
– S-S связи
– Модификации (химические), которым подвергается белок in vivo
• Структуру
– вторичную
– пространственную
• Из какого организма получен
– Полиморфизмы
• Функцию – что умеет делать
– аминокислотные остатки, ответственные за функцию (функции)
– другие особенности остатков
• Другую информацию
• Источники информации (правда ли все сказанное о белке?)
2
Как хранить информацию о
белках?
• База публикаций?
• База данных о белках?
Первый банк данных о белках
Первая версия атласа содержала описание 65
последовательностей белков
3
Сколько белков известно науке?
• А что значит “известно”?
• Данные на 25 янв 2012 года:
– последовательностей белков –
около 20 млн штук
– доказано, что действительно in vivo существует
молекула белка с такой последовательностью –
около 87 тысяч штук
4
Белки: БД публикаций или БД
последовательностей?
Как создать БД белков? Попробуем …
• БД – большой файл в текстовом формате
• Файл должн читаться и программой, и человеком
(“адекватная формализация”)
• Единица хранения – запись, entry
один белок – одна запись (что такое – один белок?)
• Записи разбиты на поля
–
–
–
–
–
Обязательное поле – идентификатор (-ы)
Название белка, синонимы
Организм
Функция
Последовательность
» Пространственная структура?
– “Особенности” (features) – информация об отдельных остатках
– Дополнительные сведения
– Ссылки на источники информации
5
Uniprot – основной банк данных о белках и их
последовательностях.
Две главные части Uniprot:
• SwissProt – 534 242 (0.5 млн. белков)
• TrEMBL – 19 434 245 (19 млн. белков)
Чтобы разобраться с частями, надо узнать
откуда берутся последовательности
6
Первоначально определяли аминокислотную последовательность
белка, отщепляя по одному остатку и определяя какой он.
В конце 1970-х годов был изобретён относительно быстрый и
дешёвый метод экспериментального определения
последовательности оснований ДНК
выделение
...TGCCACAAATCAC...
секвенирование
Организм
ДНК «в пробирке»
Последовательность
В последние несколько лет
разработаны и внедрены технологии
быстрого массового секвенирования
ДНК
В 1982 году были открыты публичные электронные
банки данных GenBank и EMBL, содержащие
последовательности ДНК.
В 1984 аналогичный банк данных DDBJ открыт в Японии
Банки структурной
биологической информации
GenBank, EMBL, DDBJ
RefSeq
Автоматическая база
различных последовательностей НК
Архивные базы
последовательностей
нуклеиновых кислот
Uniprot
/TrEMBL
Автоматическая база
предсказаний
последовательностей белков
/SwissProt
Курируемая база
последовательностей белков
Pfam, ProSite, InterPro, ...
PDB
Архивная база пространственных
структур макромолекул
Банки семейств белков
И многие другие...
9
Uniprot: из каких частей состоит
10
“Юридическая” классификация
банков данных
•
Архивные
примеры:
,
)
за содержание каждой записи отвечает её автор-экспериментатор
• Курируемые
за содержание записей отвечают специальные люди — кураторы
• Автоматические
записи генерируются компьютерными программами
Соотношение числа белков,
представленных в разных банках
PDB – пространственные
структуры (всего их 71138)
Swiss-Prot –
аннотированные
последовательности
UniRef100 – все
известные
последовательности
Последовательностей во много раз больше, чем структур!
Большинство последовательностей не аннотированы!
12
Базы данных (общие принципы)
Любая база данных содержит:
1) записи (они же документы, entries), каждая запись соответствует
одному объекту, информация о котором хранится в базе;
2) поля (fields), каждое поле соответствует некоторому типу информации
Разделение на поля – продукт творчества создателей базы.
Иногда для удобства поля делятся на подполя.
Пример: база адресов фирм.
Полями являются: название, юр. адрес, фактический адрес,
телефон, e-mail, URL и т.д.
Банк данных – примерно то же, что база данных, но обычно предполагает
общедоступность и определённую степень универсальности.
13
Банк данных Swiss-Prot
1986
Swiss-Prot – база знаний о белковых
последовательностях
• Курируемая база данных
• “Золотой стандарт” аннотации
http://www.expasy.org/sprot/
14
Банк данных Swiss-Prot
С 1987 поддерживается в сотрудничестве между
Swiss Institute of Bioinformatics (SIB)
European Bioinformatics Institute (EBI)
С 2002 является частью UniProt knowledgebase,
поддерживаемой UniProt consortium
Амос Байрох
Долговременный руководитель группы Swiss-Prot
в Швейцарском Институте Биоинформатики
15
Банк данных Swiss-Prot
Статистика роста
количества документов
Текущий релиз 2011_02 (8 февраля 2011) содержит 525 207 записей.
Физически Swiss-Prot – это один текстовый файл специального формата.
16
Документ банка данных Swiss-Prot
Описание документа: идентификатор,
имя, дата создания и модификации
Аннотация
последовательности
Последовательность
17
Основные поля Swiss-Prot
ID – идентификатор в текущем релизе. Всегда один, но может меняться
от релиза к релизу.
AC – так называемый «номер доступа» (Accession number). Раз
появившись, не исчезнет (поэтому именно на AC надо указывать при
использовании данных Swiss-Prot в публикациях). Может быть не один
(по разным причинам).
DE – «description», описание белка. В последних релизах имеет
внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое
название, полное рекомендуемое название, синонимы и др.)
OS – видовое название организма – источника данного белка
OC – таксономия организма (в соответствии с текущим стандартом
NCBI)
DR – ссылки на другие базы данных
FT – “feature table”, особенности частей последовательности
http://www.uniprot.org/uniprot/P00174.txt
http://www.uniprot.org/uniprot/P37869.txt
http://www.uniprot.org/uniprot/P27358.txt
18
Структура идентификатора
записи Swiss-Prot
ENO_BACSU: энолаза из сенной палочки
Мнемоника организма
Мнемоника функции белка
Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв
видового (Bacillus subtilis → BACSU).
Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для
различения штаммов.
Исключения:
а) 16 наиболее представленных организмов
(BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE
for Maize (Zea mays) , MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit,
RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana
tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae));
б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.);
в) случаи неопределенного видового названия.
19
Содержимое поля FT
Feature Table — характеристики участков последовательности
В частности:
•трансмембранные участки;
•сигнальные последовательности
•сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот;
•сайты посттрансляционной модификации;
•вторичная структура;
•домены;
•разночтения в последовательности (“CONFLICT”);
•варианты (напр., альтернативный сплайсинг “VARSPLIC”);
и т. п.
Имеет строгий формат: Feature Key, FtLocation, FtDescription.
Например:
FT DISULFID 334 343 By similarity.
FT CONFLICT 138 138 E -> EE (in Ref. 4; AA sequence).
20
Банк данных TrEMBL
TrEMBL (Translated EMBL)
Формальная трансляция всех кодирующих нуклеотидных
последовательностей из банка EMBL
Автоматическая классификация и аннотация
Формат записи тот же, что у Swiss-Prot
Текущий релиз 2011_02 (8 февраля 2011) содержит 13499622 записи
21
Далее показан список некоторых банков
молекулярно-биологических данных,
которые, конечно,
должен выучить студент ФББ …
22
Портал биоинформатический ресурсов на сайте SIB
23
Продолжение
24
Продолжение
25
Продолжение
26
Продолжение
27
Продолжение
28
Продолжение
29
Продолжение
30
Продолжение
31
Продолжение
32
Продолжение
33
Продолжение
34
Продолжение
Копировал с пропусками. Дошел до половины списка ….
35
… еще студент должен уметь пользоваться
биоинформатическими программами
36
… когда (ближе к пенсии  ) все выучите,
появится в 100 раз больше новых!
А “старые” прекратят существование или у
них изменится формат и интерфейс.
Какой вывод?
37
entries
%
Всего
%
TrEMBL
1: Evidence at
protein level
73864
13.8
13062
0.1
86926
2: Evidence at
transcript level
69920
13.1
554302
2.9
624222
3: Inferred from
homology
374128
70
3981888
20.5
4356016
4: Predicted
14450
2.7
14884993
76.6
14899443
5: Uncertain
1880
0.4
0
0.0
1880
534 242
100
19 434 245
100
19 968 487
Всего
entries
Protein
existence
(PE):
Swissprot
Статистика для любопытных
38
Uniprot – основной банк данных о белках и их
последовательностях.
Две главные части Uniprot:
• SwissProt – 534 242 (0.5 млн. белков)
• TrEMBL – 19 434 245 (19 млн. белков)
• PDB –
78 992 (0.1 млн. белков)
39
Download