Домены Определения Методы разделения структуры на домены Классификации Что такое “домен”? Три определения: •По функции •По структуре •По последовательности Функциональный домен (биохимия/биоинженерия) Минимальная часть полипептидной цепи, которая (i) достаточна в эксперименте для сохранения одной из активностей целого белка (ii) может автономно свернуться в правильную, нативную структуру Derbyshire et al., PNAS, 94, 1146611471(1997)“Genetic definition of a protein-splicing domain: Functional mini-inteins support structure predictions and a model for intein evolution” Рекомбиназа A из Mycobacterium tuberculosis (790 а.о.) содержит интеин (440 а.о.) – мобильный элемент, обладающий способностью автономно вырезаться из полипептидной цепи (явление белкового сплайсинга) Интеин обладает также эндонуклеазной активностью По сходству последовательностей с другими более изученными интеинами, в т.ч. интеином с расшифрованной РСА структурой (1VDE), была высказана гипотеза о том, что за две разные активности отвечают разные домены. При этом за белковый сплайсинг отвечает домен, который составлен из N-концевого и C-концевого участков полипептидной цепи Для проверки гипотезы авторы создали 21 конструкт генов интеина, в которых удалены разные внутренние участки полипептидной цепи. Конструкты были встроены в ген другого белка (тимидилатсинтазы, TS) и экспрессировались в E.coli Активность проверялась по наличию нативного белка TS (без вставки интеина) Результат: белковый сплайсинг сохранялся в тех случаях, когда удаленный участок не затрагивал первые 96 и последние 35 а.о. Вывод авторов: функциональный домен автономного белкового сплайсинга состоит из остатков 1-96 и 406-440 (всего 131 из полных 440) Структура гомологичного белка PI-SceI – хоминг эндонуклеазы из дрожжей (PDB код 1VDE) Эндонуклеаза 186-405 Интеин 1-181, 416-454 Площадь контакта доменов не такая уж и маленькая. Белок димеризуется Последовательность интеина консервативна. Об этом свидетельствуют доменные архитектуры трех белков из разных грибов, описанные в PFam Доменная структура белка PI-SceI Доменная структура полноразмерного белка VMA1 Доменная структура полноразмерного белка TFP1 (аннотирован по сходству) Эволюционный домен (биоинформатика: последовательности) Длинный непрерывный участок полипептидной цепи, который (i) эволюционирует существенно других участков медленнее (ii) замечен в перемешивании доменов (domain shuffling) Белки, содержащие два эволюционных домена: гомеодомен и OAR домен (N-концевые участки не показаны) Гомеодомены активно перемешивались в эволюции. Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam Гомеодомен Парный домен и гомеодомен Lim домены и гомеодомен Гомеодомен, продолженный Лейциновой молнией POU домен и гомеодомен Два гомеодомена PBX-домен и гомеодомен OAR- домен, обнаруженныйтолько в некоторых гомеодоменных транскрипционных факторах • Консервативность наблюдается • В перемешивании доменов пока не замечен • Образует структурный домен? - нет аргументов за; против – слишком короткий • Функция не установлена Пример консервативности, которую трудно характеризовать как домен: гексапептид антеннапедиа Структурный домен (биоинформатика: 3D структуры) Обособленная в пространстве часть белка, его структурная единица, имеющая (i) сравнительно мало контактов с другими частями белка (ii) собственное гидрофобное ядро Пептидаза, а за одно и димеризационный домен Двудоменный транскрипционный фактор – репрессор из бактериофага P22 (PDB код 1QAR): два оче-видных домена связаны гибким линкером ДНК-связывающий домен P22 репрессор димеризуется …. … и связывается с ДНК Сайт связывания – палиндром. Весь комплекс обладает (неполной) симметрией 2го порядка ATTTAAGACTTCTTAATT Домен белка XXX (жизнь) Часть белка, названная доменом • Субъективизм • Образность • Традиция В полимеразах обычно определяют три домена: fingers, palm, thumb Product RNA Fingers Template RNA Thumb NTP Palm Разные определения часто дают похожие результаты! Но не всегда… Парный домен из транскрипционного фактора PAX5 человека (PDB 1K78) 19-81A 82-90A 91-142A Эволюционный домен (PAX в Pfam) включает оба структурных домена (126 а.о.) Полипептидные цепи обоих структурных доменов имеют общую топологию (- одинаковое число спиралей, - одинаковы межспиральные взаимодействия, - одинаковый порядок следования спиралей вдоль цепи; * минорные элементы вторичной структуры не в счет!) N-концевой структурный домен парного домена хорошо совмещается с C-концевым Синий – N-концевой Зеленый – C-концевой Совмещение – по двум спиралям, всего по14 C атомам Rmsd = 0.5 Å Структурные домены парного домена одинаково расположены на ДНК Карта локального сходства последовательностей двух структурных доменов эволюционного домена PAX/Prd из белка PAX5 человека Достоверного сходства последователь ностей не наблюдается При этом последовательности PAX/prd доменов консервативны по всех длине Структурные домены Методы детектирования На чем основаны методы • Домен имеет собственное гидрофобное ядро (пример: алгоритм DETECTIVE Swindells, 1995) • Домен – это часть белка, внутри которой много контактов аминокислотных остатков, а между доменами – мало контактов (пример: алгоритм DOMAK, Siddiqui&Barton, 1995) Siddiqui&Barton, 1995: DOMAK Сверху – вниз, от целого – к части! • Предпосылки: домен состоит из одного или двух непрерывных участков полипептидной цепи • Число контактов остатков внутри домена больше чем число междоменных контактов Формализация • Два остатка контактируют если расстояние между ними меньше 5Å • Если белок разбит на две части, A и B, то определяется индекс разделенности: SplitValue=(intA/extAB)*(intB/extAB) intA – число пар контактирующих остатков из A; intB – число пар контактирующих остатков из B; extAB – число пар контактирующих остатков, один из A, а другой – из B Пример. Структура 1CD4. Часть A: N-конец полипептидной цепи до остатка i; часть B – от (i+1) до C-конца График зависимости индекса разделенности от номера граничного остатка Деление по остатку 97 (пик на графике) В алгоритме DOMAK проверяются следующие разделения на части A и B Алгоритм • К полной цепи применяются методы 1 и 2. Выбирается разделение с лучшим индексом • К полученным двум доменам применяется та же процедура. В случае, когда домен состоит из двух сегментов, применяется также метод 3. • Алгоритм останавливается в зависимости от пороговых значений: – MDS – минимальный размер домена (в числе остатков) – MSS - минимальный размер сегмента • Отдельная процедура предусмотрена для сегментов, длина которых между MDS и MSS • Найденные домены проверяются на “компактность”; некомпактные – сливаются в один Swindells, 1995 DETECTIVE Снизу – вверх, наращивание частей! Предпосылки: каждый домен имеет свое гидрофобное ядро. (1) Построение кластеров гидрофобно взаимодействующих неэкспонированных остатков • Отбираются остатки, которые – Слабо экспонированы (<7%) – Принадлежат спиралям или тяжам – Более 75% контактов их атомов с другими атомами классифицируются как гидрофобные Контактом считается сближение “тяжелых” атомов на сумму vdW радиусов + 1 ангстрем Гидрофобным контактом считается контакт углеродов Два остатка из отобранных считаются взаимодействующими гидрофобно если число гидрофобных межатомных контактов превосходит число негидрофобных межатомных контактов Строится граф: • Вершина – отобранный остаток • Ребро соединяет вершины, если соответствующие остатки гидрофобно взаимодействуют • Связные компоненты графа, содержащие 5 или более остатков, называются гидрофобными ядрами Граф гидрофобных контактов (пример) Гидрофобные ядра – еще не домены! Для получения доменов применяется многоходовая процедура чистки-слияния Алгоритм демонстрируется на примере (см. рис.) (1) найдено 3 кластера – 1й, 2й и 3й (2) остатки, окруженные “чужими” вычищаются (3) кластеры меньше чем из 5и остатков вычищаются (4) заливка некластеризованных остатков (5) оставшиеся некластеризованные остатки присоединяются по контактам к кластерами предыдущего шага (6) - (8) опять прочистка, заливка и присоединение хвостов Структурная классификация доменов • SCOP (Murzin, Benner, Hubbard, Chotia, 1995) • CATH (Orengo et al., 1993, 1997) • FSSP (Holm&Sander, 1993) • другие Structural Classification of Proteins, SCOP • Экспертное выделение доменов • Экспертная классификация Уровни классификации в SCOP •Класс •Укладка (fold) – сходная топология •Суперсемейство – структурная гомология (?) •Семейство – сходство последовательностей и/или хорошее пространственной выравнивание цепей •Белок – б.м. ортологичные белковые домены •Вид – конкретный белок Классы Основные • Альфа-спиральные домены (202 фолда) • Бета-структурные домены (141) • Альфа/бета структурные домены (a/b) (бета-альфа-бета структурные единицы) (130) • Альфа+бета домены (a+b) (260) (разделенные альфа спиральные и бета-структурные области) Специфические •Многодоменные белки (сложные домены) (40) •Мембранные (кроме белков иммунной системы) (42) •Маленькие (72) Формально собранные классы Спирализованные спирали (6) Низкое разрешение (22) Пептиды, фрагменты (111) Искусственные белки (41) Разница между a/b и a+b a/b: - Спирали и тяжи вместе образуют глобулу -Часто спираль соединяет два тяжа как показано на рис. ниже 1TPH Triosephosphate isomerase from Chicken (Gallus gallus) 1TPH Разница между a+b и a/b a+b: - Спирали и тяжи более или менее разобщены - Часто спирали образуют свое маленькое ядро - Мотивы -- как на предыдущем слайде встречаются редко 2ACT. ACTINIDIN (SULFHYDRYL PROTEINASE) Каталаза Флаводоксин (C-концевой домен) Общая укладка (фолд). Хорошее совмещение полипептидных цепей невозможно, но что-то общее в расположении элементов вторичной структуры прослеживается… Говорят: “общая топология” Общая топология у двух доменов характеризуется • Хорошим выравниванием элементов вторичной структуры при котором • сопоставленные элементы вторичной структуры одинаково контактируют в пространстве между собой • что-то еще нужно сказать про одинаковое взаимное расположение элементов вторичной структуры; но не известно (боюсь, что не только мне) адекватных проверяемых формулировок … Сравнение топологий каталазы (1CF9, Cконцевой домен) и флаводоксина (1AG9) Вторичная структура C-концевого домена Каталазы 1CFG Вторичная структура флаводоксина 1AG9 S4 H2 S5 - S1 S2 S3 H2 S2 H1 S1 - H1 – | | | | | | | | | S4 H2 S5 h1 - - S3 H2 S2 H1 S1 S1’ H1 h1 SCOP 1.67 release: 24037 PDB Entries (15 May 2004). 65122 Domains. Class Number of folds Number of superfamilies Number of families All alpha proteins 202 342 550 All beta proteins Alpha and beta proteins (a/b) Alpha and beta proteins (a+b) Multi-domain proteins Membrane and cell surface proteins Small proteins 141 280 529 130 213 593 260 386 650 40 40 55 42 82 91 72 104 162 Total 887 1447 2630 Class Architecture Topology Homologous superfamily, CATH • Белок делится на домены автоматически при согласованных результатах трех алгоритмов: – DETECTIVE (Swindells, 1995), – PUU (Holm & Sander, 1994) – DOMAK (Siddiqui and Barton, 1995). • При несовпадении результатов алгоритмов – решение о доменах за экспертом Первичная классификация автоматическая (алгоритм SSAP, Taylor & Orengo 1989). При отказах программы решение принимает эксперт CATH: уровни классификации • Класс: основные all-alpha, all-beta, alha-beta • Архитектура: сходное пространственное расположение элементов вторичной структуры без учета их последовательности • Топология (укладка): сходное взаимное расположение вдоль цепи и в пространстве элементов вторичной структуры • Суперсемейство: предположительно или несомненно гомологичные домены • Семейство: сходные последовательности (>35% identity и выровненные участки покрывают >60% длины) В каждой структурной классификации – свои “причуды” CATH: два (?!!!) “домена” (?!!!) (красный и зеленый) в структуре токсина перфринголизин О из патогенной бакетрии Clostridium Perfringens (PDB код 1PFO) Вот что может автоматика ?! (В базе SCOP это один домен) SCOP: этот полипептид был классифицирован как один структурный домен класса all alpha (???) (белок транскрипционный фактор из Listeria monocytogenes, регулирующий основные гены вирулентности) Человеческий фактор (?) В последнем релизе разделен на два домена http://www.bio.cmu.edu/courses/03231/ProtStruc/ProtStruc.htm DALI, Distance matrix ALIgnment Структурные мотивы Вторичная и супервторичная структура домена