Формат PDB … - формат, используемый для хранения информации о структуре макромолекул, полученной с помощью методов X-Ray кристаллографии, NMR спектроскопии и криоэлектронной микроскопии. Представляет собой текстовый файл в ASCII кодировке. Может содержать только следующие символы: пробельный символ символ конца строки Каждый файл содержит набор строк, длиной 80 символов. (80 символов и после них обязательный символ конца строки. Программистам следует учитывать, что в разных операционных системах символ конца строки может записываться по-разному.) Записи HEADER Содержит уникальную информацию о макромолекуле. 1-6 11-50 51-59 63-66 “HEADER” Класификация Дата размещения файла. День когда координаты были получены PDB. ID файла, уникальный в рамках PDB --String Datetime ( DD-MM-YY) String SEQRES 1-6 8-10 12 14-17 20-22, 24-26, 28-30, … , 68-70 “SEQRES” Номер записи SEQRES для текущего chain’a Начинается с 1 и увеличивается для каждой строчки данного chain’a. Сбрасывается на 1, когда начинается новый chain’a. ID chain’a Количество остатков в CHAIN’e Названия остатков --Integer Char Integer String HELIX SHEET LINK Данная запись описывает дисульфидные мостики и прочие подобные связи. Описывает только те связи, которые нельзя выделить исходя из первичной структуры. 1-6 13-16 18-20 22 23-26 43-46 48-50 52 53-56 74-78 “LINK ” Название 1ого атома в связи Название 1ого остатка ID 1ого CHAIN’a Номер 1ого остатка в 1ом CHAIN’e Название 2ого атома в связи Название второго остатка ID 2ого CHAIN’a Номер 2ого остатка во 2ом CHAIN’e Длина связи --String String Char Integer String String Char Integer Real(5.2) MODEL Означает начало молекулы (ее части), когда в файле присутствует несколько молекул одинаковой структуры или молекула разбита на части. Изначально использовалось для хранения нескольких различных молекул в одном файле, однако сейчас используется также для хранения частей одной молекулы, которые при определенных трансформациях эту молекулу и составляют. Часто встречается в файлах, содержащих структуры, полученные с помощью NMR спектрографии. Используется только в том случае, если в файле более одной модели. Нумерация начинается с 1 . Структура всех моделей должна быть одинакова. Максимальное число атомов в модели – 99.999 . Каждая MODEL должна закрываться ENDMDL . 1-6 11-14 “MODEL” Номер модели --integer ATOM Представляет атомные координаты для стандартных аминокислот и нуклеотидов. Также содержит информацию о размере и температурный фактор. ( В кристаллографии неточность в положении атомов повышается с неупорядоченностью кристалла. Неупорядоченность бывает статическая и динамическая. Статическая неупорядоченность проявляется, когда существует несколько различных конформаций, каждая из которых является устойчивой. Динамическая неупорядоченность связана с тепловым движением атома. ) Записи атомов для протеинов перечислены от амино- к карбоксильному терминусу. Нуклеиновые кислоты перечисляются от 5” к 3” терминусу. Конец записей ATOM для текущей аминокислоты завершается записью TER. У атомов отсутствует уникальный идентификатор. Индексация может начинаться с любого числа. 1-6 7-11 13-16 18-20 22 23-26 31-38 39-46 47-54 55-60 61-66 77-78 X, Y, Z измеряются в ангстремах. “ATOM” Номер атома в рамках текущей модели Название атома Название остатка ID CHAIN’a Номер остатка X Y Z Размер атома Температурный фактор Химический элемент --Integer String String Char Integer Real(8.3) Real(8.3) Real(8.3) Real(6.2) Real(6.2) String HETATM 1-6 7-11 13-16 18-20 22 23-26 31-38 39-46 47-54 55-60 61-66 77-78 “HETATM” Номер атома в рамках текущей модели Название атома Название остатка ID CHAIN’a Номер остатка X Y Z Размер атома Температурный фактор Химический элемент --Integer String String Char Integer Real(8.3) Real(8.3) Real(8.3) Real(6.2) Real(6.2) String Записи ATOM и HETATM очень похожи. Различие между ними в том, что традиционно записи ATOM используют для обозначения атомов белков и нуклеиновых кислот. HETATM же используется для обозначения атомов в маленьких молекулах. Если температурный фактор не указан, то он равен 0, если нет записи ANISOU. TER Обозначает конец записей ATOM, HETATM для текущего chain’a. ENDMDL Обозначает конец записей для текущей MODEL. CONECT Связи между атомами одного chain’a, которые нельзя выделить исходя из первичной структуры. Одна запись присоединяет не более 4 атомов к одному, указанному первым. 1-6 7-11 12-16 17-21 22-26 27-31 “CONECT” Номер атома Номера связанных с ним атомов --integer Integer Integer Integer integer Связи могут повторяться, а могут и не повторяться. Например, записи CONECT CONECT CONECT 1 4 5 4 1 1 5 Эквивалентны между собой CONECT 1 4 5