Uniprot, база последовательностей белков … и некоторые другие базы данных Что хочется знать о белке? • Название • Хим. формулу – Последовательность – S-S связи – Модификации (химические), которым подвергается белок in vivo • Структуру – вторичную – пространственную • Из какого организма получен – Полиморфизмы • Функцию – что умеет делать – аминокислотные остатки, ответственные за функцию (функции) – другие особенности остатков • Другую информацию • Источники информации (правда ли все сказанное о белке?) 2 Как хранить информацию о белках? • База публикаций? • База данных о белках? Первый банк данных о белках Первая версия атласа содержала описание 65 последовательностей белков 3 Сколько белков известно науке? • А что значит “известно”? • Данные на 25 янв 2012 года: – последовательностей белков – около 20 млн штук – доказано, что действительно in vivo существует молекула белка с такой последовательностью – около 87 тысяч штук 4 Белки: БД публикаций или БД последовательностей? Как создать БД белков? Попробуем … • БД – большой файл в текстовом формате • Файл должн читаться и программой, и человеком (“адекватная формализация”) • Единица хранения – запись, entry один белок – одна запись (что такое – один белок?) • Записи разбиты на поля – – – – – Обязательное поле – идентификатор (-ы) Название белка, синонимы Организм Функция Последовательность » Пространственная структура? – “Особенности” (features) – информация об отдельных остатках – Дополнительные сведения – Ссылки на источники информации 5 Uniprot – основной банк данных о белках и их последовательностях. Две главные части Uniprot: • SwissProt – 534 242 (0.5 млн. белков) • TrEMBL – 19 434 245 (19 млн. белков) Чтобы разобраться с частями, надо узнать откуда берутся последовательности 6 Первоначально определяли аминокислотную последовательность белка, отщепляя по одному остатку и определяя какой он. В конце 1970-х годов был изобретён относительно быстрый и дешёвый метод экспериментального определения последовательности оснований ДНК выделение ...TGCCACAAATCAC... секвенирование Организм ДНК «в пробирке» Последовательность В последние несколько лет разработаны и внедрены технологии быстрого массового секвенирования ДНК В 1982 году были открыты публичные электронные банки данных GenBank и EMBL, содержащие последовательности ДНК. В 1984 аналогичный банк данных DDBJ открыт в Японии Банки структурной биологической информации GenBank, EMBL, DDBJ RefSeq Автоматическая база различных последовательностей НК Архивные базы последовательностей нуклеиновых кислот Uniprot /TrEMBL Автоматическая база предсказаний последовательностей белков /SwissProt Курируемая база последовательностей белков Pfam, ProSite, InterPro, ... PDB Архивная база пространственных структур макромолекул Банки семейств белков И многие другие... 9 Uniprot: из каких частей состоит 10 “Юридическая” классификация банков данных • Архивные примеры: , ) за содержание каждой записи отвечает её автор-экспериментатор • Курируемые за содержание записей отвечают специальные люди — кураторы • Автоматические записи генерируются компьютерными программами Соотношение числа белков, представленных в разных банках PDB – пространственные структуры (всего их 71138) Swiss-Prot – аннотированные последовательности UniRef100 – все известные последовательности Последовательностей во много раз больше, чем структур! Большинство последовательностей не аннотированы! 12 Базы данных (общие принципы) Любая база данных содержит: 1) записи (они же документы, entries), каждая запись соответствует одному объекту, информация о котором хранится в базе; 2) поля (fields), каждое поле соответствует некоторому типу информации Разделение на поля – продукт творчества создателей базы. Иногда для удобства поля делятся на подполя. Пример: база адресов фирм. Полями являются: название, юр. адрес, фактический адрес, телефон, e-mail, URL и т.д. Банк данных – примерно то же, что база данных, но обычно предполагает общедоступность и определённую степень универсальности. 13 Банк данных Swiss-Prot 1986 Swiss-Prot – база знаний о белковых последовательностях • Курируемая база данных • “Золотой стандарт” аннотации http://www.expasy.org/sprot/ 14 Банк данных Swiss-Prot С 1987 поддерживается в сотрудничестве между Swiss Institute of Bioinformatics (SIB) European Bioinformatics Institute (EBI) С 2002 является частью UniProt knowledgebase, поддерживаемой UniProt consortium Амос Байрох Долговременный руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики 15 Банк данных Swiss-Prot Статистика роста количества документов Текущий релиз 2011_02 (8 февраля 2011) содержит 525 207 записей. Физически Swiss-Prot – это один текстовый файл специального формата. 16 Документ банка данных Swiss-Prot Описание документа: идентификатор, имя, дата создания и модификации Аннотация последовательности Последовательность 17 Основные поля Swiss-Prot ID – идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу. AC – так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать при использовании данных Swiss-Prot в публикациях). Может быть не один (по разным причинам). DE – «description», описание белка. В последних релизах имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.) OS – видовое название организма – источника данного белка OC – таксономия организма (в соответствии с текущим стандартом NCBI) DR – ссылки на другие базы данных FT – “feature table”, особенности частей последовательности http://www.uniprot.org/uniprot/P00174.txt http://www.uniprot.org/uniprot/P37869.txt http://www.uniprot.org/uniprot/P27358.txt 18 Структура идентификатора записи Swiss-Prot ENO_BACSU: энолаза из сенной палочки Мнемоника организма Мнемоника функции белка Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв видового (Bacillus subtilis → BACSU). Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для различения штаммов. Исключения: а) 16 наиболее представленных организмов (BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE for Maize (Zea mays) , MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit, RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae)); б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.); в) случаи неопределенного видового названия. 19 Содержимое поля FT Feature Table — характеристики участков последовательности В частности: •трансмембранные участки; •сигнальные последовательности •сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот; •сайты посттрансляционной модификации; •вторичная структура; •домены; •разночтения в последовательности (“CONFLICT”); •варианты (напр., альтернативный сплайсинг “VARSPLIC”); и т. п. Имеет строгий формат: Feature Key, FtLocation, FtDescription. Например: FT DISULFID 334 343 By similarity. FT CONFLICT 138 138 E -> EE (in Ref. 4; AA sequence). 20 Банк данных TrEMBL TrEMBL (Translated EMBL) Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL Автоматическая классификация и аннотация Формат записи тот же, что у Swiss-Prot Текущий релиз 2011_02 (8 февраля 2011) содержит 13499622 записи 21 Далее показан список некоторых банков молекулярно-биологических данных, которые, конечно, должен выучить студент ФББ … 22 Портал биоинформатический ресурсов на сайте SIB 23 Продолжение 24 Продолжение 25 Продолжение 26 Продолжение 27 Продолжение 28 Продолжение 29 Продолжение 30 Продолжение 31 Продолжение 32 Продолжение 33 Продолжение 34 Продолжение Копировал с пропусками. Дошел до половины списка …. 35 … еще студент должен уметь пользоваться биоинформатическими программами 36 … когда (ближе к пенсии ) все выучите, появится в 100 раз больше новых! А “старые” прекратят существование или у них изменится формат и интерфейс. Какой вывод? 37 entries % Всего % TrEMBL 1: Evidence at protein level 73864 13.8 13062 0.1 86926 2: Evidence at transcript level 69920 13.1 554302 2.9 624222 3: Inferred from homology 374128 70 3981888 20.5 4356016 4: Predicted 14450 2.7 14884993 76.6 14899443 5: Uncertain 1880 0.4 0 0.0 1880 534 242 100 19 434 245 100 19 968 487 Всего entries Protein existence (PE): Swissprot Статистика для любопытных 38 Uniprot – основной банк данных о белках и их последовательностях. Две главные части Uniprot: • SwissProt – 534 242 (0.5 млн. белков) • TrEMBL – 19 434 245 (19 млн. белков) • PDB – 78 992 (0.1 млн. белков) 39