Введение в молекулярное моделирование нано- и биоструктур ст.н.с. И.В. Упоров (каф. Хим. Энзимологии, комн. 104, 939-3407) доцент А.В. Головин (ф-т биоинженерии и биоинформатики, 939-5305) Программа курса - 7 лекций, 2 практических занятия, зачѐт. • Компьютерное моделирование нанобиоструктур является важным инструментом исследования свойств этих объектов и способствует более глубокому осмыслению структурно-функциональных особенностей этих объектов. • Нанобиообъекты построены из составляющих блоков – пептидов и белков, нуклеиновых кислот, искусственных и биологических мембран. • Задачей компьютерного моделирование является построение моделей пространственной структуры каждого из составляющих блоков, и затем сборка этих объектов в цельную систему с использованием инструментов компьютерной графики и расчетных методов. • Построенная структура может быть исследована на устойчивость к внешним факторам, способность выполнять предназначенную функцию и оптимизирована с помощью компьютерных методов. План лекций. 1. Биоинформатика (предмет и методы исследований, основные разделы, банки данных последовательностей и пространственных структур биополимеров) 2. Методы определения сходства пространственной структуры белков (структурноконсервативные участки) 3. Математические методы выравнивания последовательностей символов (матрицы стоимости аминокислотных замен, парное выравнивание и оценка его достоверности, множественное выравнивание, метод ClustalW, дендрограммы) 4. Поиск гомологичных последовательностей белков в базах данных (Методы сканирования баз данных последовательностей FASTA, BLAST, достоверность найденных гомологов) 5. Сравнительное предсказание третичной структуры белка на основе первичной структуры (стратегия и детали) 6. Современные методы выравнивания последовательностей белков (HMM) и предсказания белковых структур 7. Методы моделирования пространственной структуры нуклеиновых кислот 8. Основные представления молекулярной механики и молекулярной динамики биополимеров (Потенциальная энергия биополимеров, поиск локальных минимумов, методы моделирования динамики биополимеров ) 9. Примеры известных белковых машин и основные принципы их функционирования. Построение наноструктур с помощью нуклеиновых кислот. Практическое занятие • Знакомство с услугами, предоставляемыми ExPASy Molecular Biology Server (http://us.expasy.org/) • Поиск последовательностей белков на этом сервере • Ознакомление с работой и основными функциями программы молекулярной графики pyMol • Ознакомление с программой молекулярной динамики GROMACS. • Построение структуры белка методом моделирования по гомологиям • Построение структуры низкомолекулярного соединения и подготовка системы белок-субстрат к проведению молекулярно-динамического расчѐта. • Проведение МД расчѐта и анализ полученных траекторий. Структура пероксидазы табака X-ray structure (2006), Homology modeling (1998) (63% идентичности) RMSD = 1.3Å Структура формиат дегидрогеназы из Moraxella sp.C2 X-ray structure (2GSD, 2006), Homology modeling (2001) (84% идентичности) RMSD = 0.93Å Структура формиат дегидрогеназы из Candida boidinii X-ray structure (2FSS, 2007), Homology modeling (2001) (47% идентичности) RMSD = 2.6Å Биоинформатика Применение компьютерных методов для обработки, хранения и извлечения биологической информации. Fredj Tekaia, Institut Pasteur, даѐт следующее определение биоинформатике: "The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information» Сравнение последовательностей биополимеров ДНК или белков – основное действие биоинформатики. Применение этой операции к различным объектам, содержащим последовательности биополимеров составляет суть «новых биоинформатик»: Сравнительная геномика (comparative genomics) – сравнительный анализ геномов различных организмов. Только 168 генов человека не имеют близких гомологов у собаки или мыши, из которых лишь 12 обретены в ходе эволюции. Ортологичные гены человека и мыши идентичны на 80% (Coller H.A., Kruglyak L. Science 322, 380(2008).) Функциональная геномика (functional genomics) – анализ функций генов и их участков, аннотация секвенированных геномов; Протеомика (proteomics) – изучение активности и взаимодействия между всеми продуктами генов (белками); Структурная геномика – определение пространственной структуры продуктов генов (несколько десятков(!!!) структур в одном проекте); ….. Возраст биоинформатики – основные теоретические представления и методы разрабатывались с 60х годов ХХ века в работах Margaret O. Dayhoff, Russell F. Doolittle, Walter M. Fitch, Andrew D. McLachlan и других. Однако сам термин биоинформатика появился в 1991 году. Химическая структура природных аминокислот Образование пептидной связи H + H3N C R1 H O C + +H3N O- C R2 + C O- H H O O H3N C R1 C N C H R2 O + H2O C O- Пространственная структура природных аминокислот Процесс сворачивания полипептидной цепи первичная Расплавленная глобула Нативная глобула “The Structures of Life” www.nigms.nih.gov/news/publist.html. Количество известных последовательностей белков Банк белковых последовательностей UniProtKB/SwissPROT (http://us.expasy.org) выпуск 57.13 (2.3.2010) содержит 515203 последовательность (181334896 аминокислот) извлечѐнных из 187376 публикаций • Описание функции белка • Доменная структура • Посттрансляционные модификации • Изоформы • Литературные ссылки • Минимальный уровень избыточности • Высокий уровень связности с другими БД UniProtKB/TrEMBL выпуск 40.15 (2.3.2010) 10,494,564 последовательностей (3,383,305,599 аминокислот). Table of the most represented species (12042 total) Number 1 2 3 4 5 6 7 8 9 10 Frequency 20265 16224 8876 7483 6558 5748 4974 4368 4258 4137 Species Homo sapiens (Human) Mus musculus (Mouse) Arabidopsis thaliana (Mouse-ear cress) Rattus norvegicus (Rat) Saccharomyces cerevisiae (Baker's yeast) Bos taurus (Bovine) Schizosaccharomyces pombe (Fission yeast) Escherichia coli (strain K12) Bacillus subtilis Dictyostelium discoideum (Slime mold) Taxonomic distribution of the sequences On 16.03.2010 , "ENTREZ Genome Project" site at National Center for Biotechnology Information, NLM, NIH, (http://www.ncbi.nlm.nih.gov) reports complete genomes: Eukaryotae - 3451 Bacteria - 3138 Archaea - 161 Within Eukaryota Статистика расшифрованных геномов (по особям и записям) http://www.ncbi.nlm.nih.gov J.C. Venter, Nature 464, 676 (2010) Человеческий геном состоит из 3.2 миллиарда пар оснований и содержит 20,000-25,000 генов (L.D. Stein, Nature, 2004), из которых 2,912 генов ферментов (P. Romero et al., Genome Biology, 2004). В 2001 компания “Celera Inc.” опубликовала draft версию человеческого генома. В 2003 году консорциум исследовательских институтов объявил о завершении секвенирования человеческого генома. Расшифрованный геном состоял лишь из половины молекул ДНК, содержащихся в нормальной клетке.Эта ДНК была выделена не от одного человека , а от разных лиц различной национальности и проживающих в разных странах. Dr. J. Craig Venter (http://www.jcvi.org/) 9/4/07 последовательность диплоидного генома , состоящего из ДНК из обоих наборов хромосом, от каждого из родителей, была опредена и опубликована. Этот геном принадлежит только одному человеку - Dr. Venter. 1/25/08 сотрудники JCVI сообщили о синтезе генома Mycoplasma genitalium (485 genes, 583,000 base pairs) с “водяными знаками” (VenterInstitvte, CraigVenter, HamSmith, GlassandClyde and CindiandClyde). 11/6/08 опубликован диплоидный набор ещѐ трѐх человек – нигерийца, китайца и европейца, больного раком. Nature 464, 670 (2010) Встречаемость аминокислот в белковых последовательностях Ala Arg Asn Asp Cys (A) (R) (N) (D) (C) 7.79 5.26 4.24 5.30 1.56 Gln Glu Gly His Ile (Q) (E) (G) (H) (I) 3.92 6.58 6.93 2.27 5.91 Leu Lys Met Phe Pro (L) (K) (M) (F) (P) 9.60 5.93 2.38 4.03 4.85 Ser Thr Trp Tyr Val (S) (T) (W) (Y) (V) 6.89 5.48 1.16 3.10 6.70 Разнообразие пространственной структуры белков. Пространственная (третичная) структура белка определяет его функцию. Molecular Conceptor v. 2.11, Synergix ltd., USA Четыре уровня белковой архитектуры Molecular Conceptor v. 2.11, Synergix ltd., USA Пространственная (третичная) структура белков Знание третичной структуры белков существенно углубляет наше понимание о том, как этот белок (фермент) работает (функция) и обеспечивает твѐрдую почву для последующих попыток модификации этой функции увеличение/уменьшение стабильности (температурной, pH, др.) и/или субстратной специфичности). Глобулярные белки представляют наибольший интерес. Структура белков (взаимное положение тяжѐлых атомов в пространстве) определяется экспериментально – методами рентгеноструктурного анализа, методом многомерного ЯМР. В последние годы появились работы, посвящѐнные определению формы макромолекулярных комплексов методом криоэлектронной микроскопии. Структуры макромолекул собраны в базы данных, основной из которых является Protein Data Bank (PDB), поддерживаемая Research Collaboratory for Structural Bioinformatics (RCSB). Банк белковых структур. Protein Data Bank (PDB) http://www.rcsb.org/pdb Research Collaboratory for Structural Bioinformatics Каждая структура имеет свой идентификатор (4 символа) и ей соответствует файл, в котором приведены координаты тяжѐлых атомов. Структура PDB файла. (Brookhaven Protein Data Bank) HEADER COMPND COMPND SOURCE AUTHOR ……… HELIX HELIX ……… ATOM ATOM ATOM ATOM …… END OXIDOREDUCTASE(ALDEHYDE(D),NAD+(A)) 06-JUL-94 2NAD NAD-DEPENDENT FORMATE DEHYDROGENASE (E.C.1.2.1.2) 2 (HOLO FORM) COMPLEXED WITH NAD AND AZIDE (METHYLOTROPHIC BACTERIUM PSEUDOMONAS SP. 101) V.S.LAMZIN,Z.DAUTER,V.O.POPOV,E.H.HARUTYUNYAN,K.S.WILSON 2NAD 2NAD 2NAD 2NAD 2NAD 1 H1A GLY A 2 H1 LEU A 2NAD 194 2NAD 195 281 282 283 284 CB CG CD1 CD2 LEU LEU LEU LEU 55 59 A A A A 36 36 36 36 LEU A GLY A 59 67 65.524 64.771 64.749 63.336 5 LEFT-HANDED 1 3/10 FOR RES 63 - 67 35.308 34.257 34.636 34.097 0.941 1.735 3.209 1.458 1.00 1.00 1.00 1.00 14.15 17.41 28.05 22.50 2NAD 2NAD 2NAD 2NAD 2 3 4 5 6 584 585 586 587 Поступления в базу данных пространственных структур биополимеров На 9.03.2010 в базе данных PDB (http://www.rcsb.org) было депонировано 63956 структур, из них более 59183 белковых структур. Динамика роста количества разрешѐнных структур Распределение разрешѐнных структур по экспериментальным методам Molecular Conceptor v. 2.11, Synergix ltd., USA Преимущества метода рентгеноструктурного анализа. • принципиально достижимо высокое разрешение. Разрешение выше 1Å позволяет определять степень протонирования а/к остатков в белках • возможность разрешать структуры объектов большого размера (вирусная капсида, рибосома, фотосинтетический реакционный центр, т.д.), состоящих из нескольких десятков тысяч атомов. Molecular Conceptor v. 2.11, Synergix ltd., USA Ограничения метода рентгеноструктурного анализа биомолекул 20 человеколет на GroEL Molecular Conceptor v. 2.11, Synergix ltd., USA Схема рентгеноструктурного исследования Molecular Conceptor v. 2.11, Synergix ltd., USA Наработка и очистка белка Выращивание кристалл(а/ов) Molecular Conceptor v. 2.11, Synergix ltd., USA Снятие рентгенограмм кристаллов Регулярный Кристалл Размером От 0,3 мм Molecular Conceptor v. 2.11, Synergix ltd., USA Определение координат тяжѐлых атомов биомолекулы Molecular Conceptor v. 2.11, Synergix ltd., USA Protein Structure Initiative (NIGMS, NIH, USA, 2001-2010, 2011-2015 ?) Выбор объекта Экспрессия белка $750M С высоким выходом Высокоэффективная очистка Кристаллизация Новая структура каждые 2 дня! GroEL за 2 месяца. 4 крупных и 6 малых центров разрешили за 7 лет более 3000 белковых структур (40% новых структур) Полуавтоматическая Валидация стр-ры, публикация Помещение в PDB Service R.B., Science 319, 1610 (2008) Отбор кристаллов, Сбор данных Полуавтоматическое Разрешение структуры Многомерная ЯМР спектроскопия Преимущества: • молекулы в растворе (тяжѐлая вода), не нужно выращивать кристалл • положения атомов водорода м.б. определены • информация о динамике атомов м.б. определена В белках 103 – 104 протонов Метильные и метиленовые группы 0,8-3,5 ppm, ароматические, индольные и иммидазольные кольца 6,5-8 ppm В ДНК/РНК Н-2/Н-8 пуринов 8,49 ppm, Н-5 пиримидинов 6,3-6,6 ppm, Н-6 8,0-8,5 ppm, метильная группа тимидина 2,3-2,4 ppm. Molecular Conceptor v. 2.11, Synergix ltd., USA Bruker Biospin AVANCE 1000 The World’s First 1 Gigahertz NMR Spectrometer World’s First 1 Gigahertz NMR Spectrometer based on unique 23.5 Tesla Standard-Bore, Persistent Superconducting Magnet (12-tonne, 4.5-metre-tall machine) Dr. Lyndon Emsley, European Centre for High Field NMR (CRMN) in Lyon, France. Nature 463,605(2010). €11.7-million (US$16.3-million) http://www.bruker-biospin.com/av1000-dir.html Ограничение метода многомерного ЯМР Molecular Conceptor v. 2.11, Synergix ltd., USA • Структура белков < 300 а/к остатков м.б. Определена этим методом, что составляет менее половины известных белковых последовательностей. Известны примеры разрешения структур белков из 700 а/к. • Дороговизна получения образцов с изменѐнным изотопным составом (13С, 19F, 31P) • Невысокая точность разрешения структуры Физические принципы метода ядерного магнитного резонанса Характерные спектры химических групп и соединений Molecular Conceptor v. 2.11, Synergix ltd., USA Сбор данных Анализ, Соотнесение (assignment) Molecular Conceptor v. 2.11, Synergix ltd., USA Sequential NOEs ("NOESY walks") in aromaticH1'/H5 region of TWJ-TC acquired in D20 at 30'C with a 300 ms mixing time. (A) Strand 1 connectivities. (B) Strand 2 connectivities. Leontis, N. et al., Biophysical Journal, 68, 251 (1995). Определение координат атомов молекулы Molecular Conceptor v. 2.11, Synergix ltd., USA Для структур разрешѐнных методом многомерного ЯМР представлено 10-20 структур. Усреднѐнная структура имеет наибольшую достоверность. Электронная микроскопия Определяется форма крупных межмолекулярных комплексов методом диффракции электронных пучков. Типичное разрешение этого метода 3-5 Å не позволяет определять координаты атомов. Molecular Conceptor v. 2.11, Synergix ltd., USA Образцы в замороженном состоянии, что предотвращает радиационные повреждения и удерживает их в нативном состоянии. Количество новых фолдов в банке белковых структур Голубым цветом количество «новых» фолдов, оранжевым количество «старых» фолдов. PSI ставит своей целью разрешение структур с новыми фолдами в ущерб биологической значимости белка, что вызывает критику оппонентов. Актуальность разработки методов моделирования белковых структур Увеличивающийся разрыв между определѐнными первичными структурами белков (11,000,000 в базе SWIS-PROT/TrEMBL) и количеством разрешѐнных белковых структур (59,000 из которых только около 5,500 непохожи друг на друга) указывает на необходимость разработки методов предсказания третичных структур белков. Поскольку в настоящее время отсутствуют надѐжные теоретические методы* прямого предсказания третичной структуры белков из первичной, методы предсказания должны основываться на структурах известных белков. Это подразумевает, что структуры неизвестного и опорного (reference) белков должны быть похожи или гомологичны. О степени гомологичности белков судят по степени идентичности их первичных структур. Анализ эволюционно связанных белков показал, что при небольших эволюционных расстояниях степень их гомологичности, определѐнная по первичной структуре, достаточно высока. При возрастании эволюционного расстояния гомология по последовательности становится трудно уловимой, однако укладка полипептидной цепи (фолд/folding) остаются схожими. Суть моделирования третичной структуры по гомологиям – выравнивание последовательностей моделируемого и опорного белков с последующим переносом элементов структуры опорного белка на моделируемый. * В работе Qian et al., Nature 450, 259-264(2007) была аккуратно de novo предсказана третичная структура белка из 112 а/к остатков. ROSETTA@HOME сеть включает более 70,000 компьютеров. Структурная схожесть эволюционно далѐких белков Molecular Conceptor v. 2.11, Synergix ltd., USA Сравнение двух пространственных структур. Цель этой операции – найти в двух белках участки полипептидной цепи имеющие схожую укладку и расположенные в пространстве друг относительно друга одинаковым образом. Критерием схожести структур служит среднеквадратичное отклонение (Root Mean Square Deviation) координат атомов одного белка от второго при пространственном наложении (суперпозиции) друг на друга. Сервер http://www.ebi.ac.uk/Tools/structural.html представляет множество методов анализа структуры белков. Метод автоматической суперпозиции белковых структур Для сравниваемых белков строится матрица расстояний между С атомами. Суперпозиция структур субтилизина Карлсберга. A2Q BE8 BH6 GCI MEE MPT SBC SCJ ST3 A2Q 0.0 0.49 0.49 0.80 0.41 0.78 0.48 0.37 0.76 BE8 0.49 0.0 0.36 0.83 0.53 0.82 0.41 0.50 0.82 BH6 0.49 0.36 0.0 0.82 0.55 0.82 0.47 0.52 0.81 GCI 0.80 0.83 0.82 0.0 0.81 0.40 0.87 0.76 0.25 MEE 0.41 0.53 0.55 0.81 0.0 0.78 0.55 0.35 0.78 MPT 0.78 0.82 0.82 0.40 0.78 0.0 0.85 0.73 0.37 SBC 0.48 0.41 0.47 0.87 0.55 0.85 0.0 0.53 0.85 SCJ 0.37 0.50 0.52 0.76 0.35 0.73 0.53 0.0 0.73 ST3 0.76 0.82 0.81 0.25 0.78 0.37 0.85 0.73 0.0 Если две структуры накладываются друг на друга с RMSD < 1Å и области наложения покрывают по крайней мере 50% первичной структуры это эти структуры обладают схожим фолдингом. При суперпозиции нескольких структур друг на друга схожие области образуют структурно-консервативные области (structure conserved regions). Эти области составляют каркас, на основе которого строится пространственная модель белка. SBC: BE8: BH6: MEE: A2Q: SCJ: GCI: MPT: ST3: AQTVPYGIPLIKADKVQAQGFKGANVKVAVLDTGIQASHPDLNVVGGASF AQTVPYGIPLIKADKVQAQGFKGANVKVAVLDTGIQASHPDLNVVGGASF AQTVPYGIPLIKADKVQAQGYKGANVKVGIIDTGIASSHTDLKVVGGASF AQSVPYGISQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDLNVRGGASF AQSVPYGVSQIKAPALHSQGYCGSNVKVAVIDSGIDSSHPDLKVAGGASM AQSVPYGISQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDLNVRGGASF AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF GQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF SBC: BE8: BH6: MEE: A2Q: SCJ: GCI: MPT: ST3: VAGE-AYNTDGNGHGTHVAGTVAALDNTTGVLGVAPSVSLYAVKVLNSSG VAGE-AYNTDGNGHGTHVAGTVAALDNTTGVLGVAPSVSLYAVKVLNSSG VSGE-SYNTDGNGHGTHVAGTVAALDNTTGVLGVAPNVSLYAIKVLNSSG VPSETNPYQDGSSHGTHVAGTIAALNNSIGVLGVAPSASLYAVKVLDSTG VPSETNPFQDNNSHGTHVAGTVAALNNSIGVLGVAPCASLYAVKVLGADG VPSETNPYQDGSSHGTHVAGTIAALNNSIGVLGVSPSASLYAVKVLDSTG VPGE-PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASG VPGE|PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASG VPGE-PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGADG SBC: BE8: BH6: MEE: A2Q: SCJ: GCI: MPT: ST3: SGSYSGIVSGIEWATTNGMDVINMSLGGASGSTAMKQAVDNAYARGVVVV SGSYSGIVSGIEWATTNGMDVINMSLGGASGSTAMKQAVDNAYARGVVVV SGSYSAIVSGIEWATQNGLDVINMSLGGPSGSTALKQAVDKAYASGIVVV SGQYSWIINGIEWAISNNMDVINMSLGGPTGSTALKTVVDKAVSSGIVVA SGQYSWIINGIEWAIANNMDVINMSLGGPSGSAALKAAVDKAVASGVVVV SGQYSWIINGIEWAISNNMDVINMSLGGPTGSTALKTVVDKAVSSGIVVA SGSVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV SGSVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV RGAISSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV Выравнивание последовательностей субтилизина Карлсбега согласно определѐнным SCR Математические методы выравнивания последовательностей символов Структурирование информации о белковых последовательностях в банках данных позволяет эффективно осуществлять поиск по базе данных. Помимо простого текстового поиска, обеспечивается возможность поиска гомологов, т.е. последовательностей близких в определѐнном смысле к нашему запросу. Как определить близость двух последовательностей? Выравнивание (alignment) одной последовательности относительно другой позволяет количественно характеризовать степень гомологичности двух последовательностей. RKYLESNGHTLVVTSDKDG-PDSVF ANWLKDQGHELITTSDKEGE-TSEL Выравнивание двух (или более) последовательностей позволяет определить консервативные аминокислотные позиции или участки. Эта информация может быть использована как при построении моделей структуры белков, так и при оценке функциональных свойств белков, последовательность которых определена, а функция неизвестна. Для двух последовательностей можно построить множество выравниваний (22N/sqrt(2 N) выравниваний для двух последовательностей длиной N а/к остатков). Стоимость выравнивания (alignment score) Для количественной характеристики выравнивания необходимо ввести количественную характеристику выравнивания стоимость выравнивания S (alignment score), которая бы отражала степень выполнения наших требований к выравниванию двух аминокислотных последовательностей. Стоимость выравнивания вычисляется как сумма элементов матрицы весов выравнивания (Scoring Matrix), которая количественно учитывает «стоимость» (cost) замены одной аминокислоты на другую. Принято считать, что чем легче (по каким-либо критериям) замена, тем выше еѐ стоимость. Замена аминокислоты на саму себя «стоит» максимально и одинаково для всех аминокислот. RKYLESNGHTLVVTSDKDG-PDSVF ANWLKDQGHELITTSDKEGE-TSEL S = SRA+SKN+SYW+SLL+SEK+…+SGG+Sgap+Sgap+SDT.. Чем больше величина S, тем более оптимально совмещены две последовательности согласно нашим критериям. Как выбрать элементы матрицы ? Какая информация может быть привлечена для конструирования этой матрицы? Матрицы весов замены аминокислот (scoring matrices) Фундаментальная значимость матриц замен: 1. Используются во всех операциях выравнивания 2. Выбор той или иной матрицы может существенно изменить результат выравнивания 3. Матрицы замен концентрируют количественные характеристики эволюционных процессов на молекулярном уровне 4. Понимание основных принципов построения матрицы замен помогает сделать правильный выбор, соответствующий постановке задачи Схожесть и Удалённость 1. Матричные элементы представляют собой либо стоимость замены одной аминокислоты на другую (удалѐнность), либо являются мерой схожести замены 2. Удалѐнность, как понятие, используется при построении дендрограмм (филогенетических деревьев); понятие схожести используется при поиске по базам данных. 3. Логика алгоритмов не меняется: оптимизация схожести есть тоже самое, что минимизация удалѐнности (эволюционного расстояния) 4. Матрицы схожести и удалѐнности могут взаимно однозначно соотнесены, использую определѐнные математические преобразования Идентичная матрица (Aminoacid identity matrix) Генетическая матрица (Codon Substitution Matrix) – диагональные элементы равны 9, если для превращения кодона, соответствующего данной аминокислоте, в другую необходимо заменить одну пару оснований ДНК/РНК, то соответствующий элемент равен 3, если две пары, то 1, если все основания, то 0. Генетический код (кодоны природных аминокислот) AUG – start UAA UAG - end UGA TACTCGTAATTCACT ATGAGCATTAAGTGA AUGAGCAUUAAGUGA SerIleLys Физико-химическая матрица (Chemical Similarity Scoring Matrix) – отражает в количественной форме насколько аминокислоты похожи друг на друга с точки зрения их физико-химических свойств (полярность, гидрофильность/гидрофобность, размер). Эволюционные матрицы PAMxxx и BLOSUMxx Dayhoff матрица (PAM120, PAM250). Чем больше число в конце названия матрицы, тем более удалѐнные гомологии можно определить при еѐ использовании. Элемент Mij пропорционален вероятности аминокислоте в строке “i” мутировать в аминокислоту в столбце “j” спустя определѐнное эволюционное время ХХPAM (Percentage of Acceptable Point Mutations). 1. Выравнивание последовательностей (накопленных к концу 80х годов прошлого столетия)по крайней мере 85% идентичных. 2. Установление эволюционных соотношений между последовательностями (71 филогенетическое дерево). 3. Определение количества замещений аминокислоты одного типа на а/к остатки всех типов во всех выравниваниях (матрица Aij). 4. Расчѐт мутируемости аминокислоты mj, относительной склонности аминокислоты типа “j” к мутации. 5. Вычислить элементы матрицы вероятностей мутации по формулам Mij=mjAij /( i Aij), Mjj=1-mj 6. Вычислить Log Odds матрицу Sij=log(Mij/fi), fi – частота появления аминокислоты “i” в последовательностях. Ala Ser Lys Gly Asp Tyr Pro (A) (S) (K) (G) (D) (Y) (P) 7.70 7.01 5.95 6.90 5.27 3.13 4.88 Gln Arg Thr Met His Cys Val (Q) (R) (T) (M) (H) (C) (V) 3.92 5.22 5.55 2.37 2.26 1.61 6.65 Leu Glu Asn Trp Phe Ile (L) (E) (N) (W) (F) (I) 9.56 6.50 4.30 1.19 4.07 5.86 Свойства матрицы вероятностей мутаций 1. 2. 3. Сумма всех элементов mj равна 1. Вероятность что аминокислота мутирует порядка (менее) 1%. Вероятность остаться неизменной порядка 99%. Матрица вероятности мутаций, M1, устанавливает единицу измерения эволюционных изменений: 1 PAM (Accepted Point Mutation per 100 residues). Различные белковые семейства демонстрируют различные скорости PAM. IG kappa chain C region – 37 PAM/100 миллионов лет, Hemoglobin alpha chain – 12, Trypsin – 5.9, Plastocyanin – 3.5, Cytochrome c – 2.2. Последовательное применение M1 к последовательности приводит к эволюционным изменениям в 2, 3, 4... PAM. При каждом применении M1 будет мутировать в среднем только одна аминокислота из 100. Разработаны методы вычисления матрицы PAMXX для любого эволюционного периода XX. При стремлении XX к бесконечности, все столбцы матрицы становятся одинаковыми и представляют из себя частоту встречаемости аминокислот в природе. Изначально матрица строилась на основании 1572 наблюдаемых замен. 39 замен из 190 не были наблюдены. Наибольшее число замен наблюдалось для пары GluAsp 83. (Atlas of Protein Sequence and Structure, Suppl 3, 1978, M. O. Dayhoff, ed. National Biomedical Research Foundation, 1979.) 1 PAM evolutionary distance Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1 D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2 Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1 E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5 H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1 I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1 M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2 S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2 T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9 W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0 Y 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1 V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901 Верхняя строка – оригинальные а/к остатки, левый столбец – их эволюционные замены. Элемент этой матрицы есть вероятность мутации а/к остатка в колонке «j» на остаток в «i» в течении эволюционного времени в 1 PAM (1 Accepted Point Mutation per 100 amino acids). Т.о., 0.56% вероятность того, что Asp будет мутирован на Glu. Все элементы матрицы умножены на 10,000. (Fig. 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M. O. Dayhoff, ed. National Biomedical Research Foundation, 1979.) 250 PAM evolutionary distance Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G 12 5 10 10 4 7 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H 2 5 5 4 2 7 4 2 15 2 2 3 2 2 3 3 2 2 3 2 I 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P 7 5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S 9 6 8 7 7 6 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V 7 4 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 72 4 17 Элементы матрицы есть вероятности (x100) мутации а/к остатка из столбца “j” в аминокислоту из строки “i” за время 250PAM. 13% вероятность Ala уцелеть за такой эволюционный период на своѐм месте в последовательности. По истечению 256PAM только одна аминокислота из пяти осталась бы неизменной. 48% Trp, 41%o Cys and 20% His сохранились, но только 7% Ser остались бы неизменными на своѐм месте. (Fig. 83. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M. O. Dayhoff, ed. National Biomedical Research Foundation, 1979.) BLOSUM матрица (Block Substitution Matrix) получена из анализа множественных локальных (без разрывов и вставок) выравниваний тесно связанных последовательностей (S. Henikoff and J. G. Henikoff (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. 89: 10915- 10919). BLOSUMxx – матрица, полученная из анализа локальных выравниваний, с xx% идентичности. 1250000 замен использовалось при расчѐте вероятностей. Самая редкая замена набдюдалась 2369 раз. Хорошая статистика. Sij ln(Mij/qiqj) Рекомендации по использованию матриц весов • PAM и BLOSUM матрицы более предпочтительны по сравнению с единичной, генетической или физико-химическими матрицами; • PAM250 (PAM256) рекомендуется как оптимальная матрица для нахождения гомологов среди эволюционно разнесѐнных белков; • При проведении локального выравнивания рекомендуется использовать три матрицы PAM40, PAM120 и PAM250, младшие PAM выявят короткие участки с высокой степенью идентичности, старшие PAM матрицы выявят более протяжѐнные участки с меньшей степенью идентичности; • При поиске локального выравнивания с использованием программы BLAST BLOSUM62 наиболее эффективна. Стоимость вставок (gap, indel) Sk gap = -a –b*(k-1) a,b >0, обычно b a Матрица сравнения двух последовательностей ACFGSTVIQN и CFGHASTVQN (единичная матрица весов замен) A C F G S T V I Q N Основное требование к построение C 0 1 0 0 0 0 0 0 0 0 F 0 0 1 0 0 0 0 0 0 0 G 0 0 0 1 0 0 0 0 0 0 H 0 0 0 0 0 0 0 0 0 0 A 1 0 0 0 0 0 0 0 0 0 S 0 0 0 0 1 0 0 0 0 0 T 0 0 0 0 0 1 0 0 0 0 V 0 0 0 0 0 0 1 0 0 0 Q 0 0 0 0 0 0 0 0 1 0 N 0 0 0 0 0 0 0 0 0 1 алгоритмов выравнивания – простота программной реализации, умеренные требования к ресурсам компьютера и высокая скорость обработки информации. S.A. Needleman and C.D. Wunsch (1970, J. Mol. Biol. 48:443). Обработка матрицы сравнения (1ая фаза) Направление обработки матрицы – из нижнего правого угла в верхний левый. A C F G S T V I Q N A C F G S T V I Q N C 0 1 0 0 0 0 0 0 0 0 C 0 1 0 0 0 0 2 2 1 0 F 0 0 1 0 0 0 0 0 0 0 F 0 0 1 0 0 0 2 2 1 0 G 0 0 0 1 0 0 0 0 0 0 G 0 0 0 1 0 0 2 2 1 0 H 0 0 0 0 0 0 0 0 0 0 H 0 0 0 0 0 0 2 2 1 0 A 1 0 0 0 0 0 0 0 0 0 A 1 0 0 0 0 0 2 2 1 0 S 0 0 0 0 1 0 0 0 0 0 S 0 0 0 0 5 0 2 2 1 0 T 0 0 0 0 0 1 0 0 0 0 T 3 3 3 3 3 4 2 2 1 0 V 0 0 0 0 0 0 1 0 0 0 V 2 2 2 2 2 2 3 2 1 0 Q 0 0 0 0 0 0 0 0 1 0 Q 1 1 1 1 1 1 1 1 2 0 N 0 0 0 0 0 0 0 0 0 1 N 0 0 0 0 0 0 0 0 0 1 Обработка матрицы сравнения (2ая фаза) Обработанная матрица A C F G S T V I Q N A C F G S T V I Q N C 7 8 6 5 4 3 2 2 1 0 C 7 8 6 5 4 3 2 2 1 0 F 6 6 7 5 4 3 2 2 1 0 F 6 6 7 5 4 3 2 2 1 0 G 5 5 5 6 4 3 2 2 1 0 G 5 5 5 6 4 3 2 2 1 0 H 5 5 5 5 4 3 2 2 1 0 H 5 5 5 5 4 3 2 2 1 0 A 6 5 5 5 4 3 2 2 1 0 A 6 5 5 5 4 3 2 2 1 0 S 4 4 4 4 5 3 2 2 1 0 S 4 4 4 4 5 3 2 2 1 0 T 3 3 3 3 3 4 2 2 1 0 T 3 3 3 3 3 4 2 2 1 0 V 2 2 2 2 2 2 3 2 1 0 V 2 2 2 2 2 2 3 2 1 0 Q 1 1 1 1 1 1 1 1 2 0 Q 1 1 1 1 1 1 1 1 2 0 N 0 0 0 0 0 0 0 0 0 1 N 0 0 0 0 0 0 0 0 0 1 Если максимальный элемент не найден на пересечении прилегающих частичных строке и столбце, то вставляется разрыв (gap). Если максимальный элемент расположен n ниже, то вставляется n разрывов в первую (горизонтальную) последовательность. Штраф за разрыв (gap penalty) вычитается из элементов прилегающих строк и столбцов, за исключением диагонального. ACFG—-STVIQN -CFGHASTV-QN Проверка значимости выравнивания Компьютерные методы строят выравнивания с максимальным попарным совпадением последовательностей аминокислот (оптимизируют стоимость выравнивания S). Насколько полученное выравнивание значимо, т.е. насколько оно отображает эволюционную близость последовательностей (гомологичность)? Как отделить значимое выравнивание от случайного, полученного случайным совпадением коротких участков последовательностей? Human alpha haemoglobin (141 aa) vs. Human myoglobin (153 aa) Score=179. VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ :: .. : ..::::.:. ..:.:.: :.: . :.: . : .: .:. ..:.. GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASED VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP .: :: .: .::.. . . .. .....:.. :: : .. ....:.:.. .:... : LKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHP AEFTPAVHASLDKFLASVSTVLTSKYR-----..:.........: :. .. ..:.:. GDFGADAQGAMNKALELFRKDMASNYKELGFQG Chicken lysozyme (129 aa) vs. Bovine ribonuclease (124 aa) Score = 30. KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS : . :: ..:. .:. . . .. :.....:. :.. . ... .. .. .... KETA----AAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHESLADVQA RWWCNDGRTP--GSRNLCNIPCSALLSSDITASVNCAKKIVSDGDGMNAWVAWRNRCKGT :.. ... .... : ..:.. .: .. ...: .. .. .: :.:. V--CSQKNVACKNGQTNCYQSYSTMSITDCRET-GSSKYPNCAYKTTQANKHIIVACEGN DVQAWIRGCRL . . .. PYVPVHFDASV Статистическая проверка значимости попарного выравнивания 1. Случайным образом переставить буквы в одной или обеих последовательностях 2. Провести выравнивание «переставленных» последовательностей 3. Вычислить стоимость этого выравнивания 4. Повторить шаги 1-3 много раз (10000) и построить распределение стоимостей выравнивания. Для белков в 100-200 аминокислотных остатков стоимость выравнивания (S) превосходящее 15.0 S.D. (S.D. дисперсия значений стоимости выравнивания при случайных перестановках последовательностей) свидетельствует о почти «идеальном» выравнивании, если S > 5.0 S.D., то можно говорить о «хорошем» выравнивании, при котором более 70% остатков вторичной структуры выравнены корректно. Выравнивания со стоимостью менее 5.0 S.D. ненадѐжны. Поиск гомологичных последовательностей • Задана последовательность : SVKMSCKASGITLAYFIFSWVKQRSGQGLEWIGEIYPGSGRVFYNENFRGKATL TADISSNIAHMQLSSLTSDDSAVYICA требуется найти белковую последовательность, которая содержит этот полипептид: • Идѐм на http://us.expasy.org -> Similarity searches [BLAST] -> BLAST (http://us.expasy.org/tools/blast/) • Анализируем результат. Особое внимание надо обратить на величины Score (S) и Expect (E). Величина E ( а точнее 1.0 –exp(-E) ) равна вероятности того, что в результате поиска в банке последовательностей будет найдено по крайней мере одно парное локальное выравнивание со значением оценки выше S, сформированное случайным образом. Фактически величина E характеризует достоверность выравнивания – чем она меньше, тем более достоверно выравнивание. Короткие участки в выравнивании с низким значением процента идентичности характеризуются большими значениями E, т.е. высока вероятность того, что они случайны. • BLAST (Basic Local Alignment Search Tool) позволяет находить локальные выравнивания. FASTA алгоритм строит глобальные выравнивания. Оценка достоверности локального выравнивания (BLAST) Предположим, что нами получено локальное (без пробелов) парное выравнивание двух последовательностей длиной m и n остатков с результатом (score) S. Какова вероятность того, что наше выравнивание достоверное, т.е. не есть результат случайного сочетания букв в одной из последовательностей? Было показано, что число локальных выравниваний (высоко результативных пар/High-Scoring Segment Pairs/HSP) определяется E значением для результата S (E-value for the score S) : E = Kmn e- S K и есть некоторые параметры, определѐнные для метода поиска и матрицы весов замены аминокислот (PAM или BLOSUM), элементы которых в общем случае представимы в виде: Sij = ln(Mij/qiqj)/ Где qi частота встречаемости аминокислотного остатка типа j, Mij вероятности мутации аминокислотного остатка типа j в остаток типа i. Оценка достоверности локального выравнивания (BLAST) продолжение Более осмысленно ввести битовое значение результата, определяемое по формуле: S’ = ( S – lnK) / ln(2) Тогда для E значения получаем следующее выражение: E = mn 2-S’ Вероятность отсутствия HSP с результатом не менее S равна exp(-E). Вероятность нахождения хотя бы одного HSP с результатом не менее S определяется P значением (P-value) P = 1 – e-E Чем меньше эта величина, тем выше шанс, что выравнивание проявляет истинную гомологию между последовательностями, а не является результатом случайного выпадения символов в последовательности. При поиске по базам данных последовательностей m длина задаваемой цепочки, n количество аминокислот во всей базе данных. Множественное выравнивание последовательностей Необходимость проведения множественных выравниваний • Нахождение сходных участков последовательностей для целых семейств белков (diagnostic patterns); • Демонстрация гомологии; • Предсказание участков вторичной и третичной структуры белков; • Поиск праймеров для проведении PCR (полимеразная цепная реакция) экспериментов; • Наглядная информация при проведении эволюционных исследований Простое обобщение методов парных выравниваний на несколько а/к последовательностей (>8) приводит к неразумным требованиям на используемые компьютерные ресурсы http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/mulali.html Прогрессивный (эвристический) метод множественного выравнивания •гомологичные последовательности эволюционно связаны. В качестве старта использовать набор парных выравниваний. • Сначала выровнять наиболее близкие последовательности, а затем, постепенно, добавлять в это выравнивание удалѐнные последовательности. Этот метод работает в большинстве типичных случаев случаев (при степени идентичности последовательностей более 25%) и реализован в методе множественного выравнивания ClustalW (Thompson, Higgins & Gibson, 1994, Nucleic Acids Research, 22, pp. 4673-4680). http://geoff.biop.ox.ac.uk/papers/rev93_1/Figure5.ps ClustalW алгоритм 1. Построение всех парных выравниваний и дистанционной матрицы (расстояние между двумя последовательностями ~ 1.0-identity) 2. Построение направляющего дерева (дендрограммы), т.е. определение групп близких последовательностей и топологии их связности 3. Прогрессивное выравнивание групп последовательностей. Выравнивание профиль/последовательность и профиль/профиль Особенности ClustalW 1. Каждой последовательности присваивается еѐ вес, пропорциональной еѐ «уникальности» 2. В процессе прогрессивного выравнивания используются различные матрицы весов а/к замен в соответствие с «удалѐнностью» последовательностей друг от друга 3. Стоимость вставок варьируется в зависимости от позиции и меньше в участках, претендующих на роль петель (области гидрофильных а/к остатков) 4. Стоимость «ранних» вставок понижается при последующих выравниваниях, что способствует появлению новых разрывов в этих областях Множественное выравнивание последовательностей cериновыx протеазx His57-Asp 102-Ser195 CTRB_HUMAN CTR2_CANFA CTRB_BOVIN CTRB_RAT CTRA_BOVIN CTRA_GADMO CTRL_HUMAN TRY2_BOVIN TRY2_CANFA TRY1_HUMAN TRY1_RAT TRY2_RAT TRY1_CANFA TRY1_BOVIN TRYP_PIG TRY2_XENLA TRY1_XENLA TRY1_CHICK TRY2_CHICK EL3B_HUMAN EL3A_HUMAN CAC3_BOVIN EL2_MOUSE EL2_RAT EL2_PIG EL2A_HUMAN CLCR_HUMAN WGRRITDVMICAG--ASGVSSCMGDSGGPLVCQKD-GAWTLVGIVSWGSWGSKITDLMVCAG--ASGVSSCMGDSGGPLVCQKD-GAWTLVGIVSWGSWGSRVTDVMICAG--ASGVSSCMGDSGGPLVCQKN-GAWTLAGIVSWGSWGSKITDVMTCAG--ASGVSSCMGDSGGPLVCQKD-GVWTLAGIVSWGSWGTKIKDAMICAG--ASGVSSCMGDSGGPLVCKKN-GAWTLVGIVSWGSWGNKISDLMICAG--AAGASSCMGDSGGPLVCQKA-GSWTLVGIVSWGSWGSSITDSMICAG--GAGASSCQGDSGGPLVCQKG-NTWVLIGIVSWGTYPGQITNNMICAGFLEGGKDSCQGDSGGPVACNG-----QLQGIVSWGYYPGQITENMICAGFLEGGKDSCQGDSGGPVVCNG-----ELQGIVSWGYYPGKITSNMFCVGFLEGGKDSCQGDSGGPVVCNG-----QLQGVVSWGDYPGEITSSMICVGFLEGGKDSCQGDSGGPVVCNG-----QLQGIVSWGYYPGKITDNMVCVGFLEGGKDSCQGDSGGPVVCNG-----ELQGIVSWGYYPGQISSNMMCLGYMEGGKDSCQGDSGGPVVCNG-----ELQGVVSWGAYPGQITSNMFCAGYLEGGKDSCQGDSGGPVVCSG-----KLQGIVSWGSYPGQITGNMICVGFLEGGKDSCQGDSGGPVVCNG-----QLQGIVSWGYYPGEITKNMFCAGFLAGGKDSCQGDSGGPVVCNG-----QLQGVVSWGYYPGEITANMICVGYMEGGKDSCQGDSGGPVVCNG-----QLQGVVSWGYYPGRITSNMICIGYLNGGKDSCQGDSGGPVVCNG-----QLQGIVSWGIYPGRITSNMICIGYLNGGKDSCQGDSGGPVVCNG-----QLQGFVSWGIWGSSVKKTMVCAG-GD-IRSGCNGDSGGPLNCPTEDGGWQVHGVTSFVSA WGSTVKKTMVCAG-GY-IRSGCNGDSGGPLNCPTEDGGWQVHGVTSFVSG WGITVKKTMVCAG-GD-TRSGCNGDSGGPLNCPAADGSWQVHGVTSFVSA WGSSVKSSMVCAG-GDGVTSSCNGDSGGPLNCRASNGQWQVHGIVSFGSS WGSSVKTNMVCAG-GDGVTSSCNGDSGGPLNCQASNGQWQVHGIVSFGST WGSTVKTNMICAG-GDGIISSCNGDSGGPLNCQGANGQWQVHGIVSFGSS WGSSVKTSMICAG-GDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFGSR WGFRVKKTMVCAG-GDGVISACNGDSGGPLNCQLENGSWEVFGIVSFGSR Структура бычьего химотрипсина (1ACB) Структура центра связывания химотрипсина и трипсина Дендрограмма (филогенетическое дерево) сериновых протеаз Universal and Eukaryote Phylogenetic Trees Based on 16s rRNA Mitchell L. Sogin (http://www.tolweb.org/) Гомологическое моделирование третичной структуры белка на основе первичной структуры Стратегия построения пространственной структуры белков методом моделирования по гомологиям: Определения круга гомологичных белков; Нахождение структурно-консервативных элементов в структуре гомологов (SCRs); Выравнивание последовательности модельного белка с последовательностями гомологов, с учѐтом наличия SCR; Присвоение координат атомов остатков, входящих в SCR, соответствующим атомам модельного белка согласно выравниванию; Предсказание конформации петель, соединяющих SCR, а также N- и С-концов пептидной цепи белка; Поиск оптимальной конформации боковых остатков аминокислот модельного белка, отличающихся от остатков опорного белка; Использование методов регуляризации структуры (энергетическая минимизация и молекулярная динамика) для уточнения молекулярной структуры с целью устранения стерических напряжений созданных при построении моделей. Присвоение координат атомов В первую очередь присваиваются координаты атомам полипептидной цепи. Затем присваиваются координаты атомам боковых цепей. Благоприятный случай, когда аминокислота модельного белка совпадает с соответствующей кислотой белкагомолога. В этом случае конформация боковой цепи остаѐтся неизменной. Если боковая цепь аминокислоты модельного белка короче, чем соответствующая цепь аминокислоты гомолога, более короткая цепь повторяет насколько это возможно более длинную (торсионные углы одинаковы). Если же аминокислота модельного белка более длинная, то начальный ход повторяет ход боковой цепи в белке-гомологе, а последующие атомы цепи помещаются в развѐрнутую (extended) конформацию, вероятно вызывая сильные напряжения в структуре модельного белка. Поиск конформации соединяющих петель После того, как присвоены координаты атомам, составляющим петли, мы имеем модельную структуру, которая нуждается в приведении еѐ в соответствие со следующими требованиями: Геометрия пептидной цепи модельной структуры должна быть регулярной (трансконформация пептидных групп, близкие к равновесным значения валентных углов и дли связей); Атомы не должны перекрываться, т.е. расстояния между несвязанными атомами не должны быть существенно меньше, чем сумма их ван-дер-ваальсовских радиусов; Боковые цепи аминокислот должны находиться в равновесной конфигурации; Если в молекуле имеются дисульфидные мостики (Cys-Cys связи), то расстояния между соответствующими атомами серы должны быть приведены в соответствие с геометрией; В структуру должны быть помещены необходимые простетические группы. Построение пространственной структуры D-amino-acid oxidase из Trigonopsis variabilis (Yeast) В качестве опорного белка была использована пространственная структура D-Amino Acid Oxidase из Rhodotorula gracilis (PDB идентификатор 1C0L) Типичная процедура регуляризации модельной структуры белка 1. 2. 3. 4. 5. 6. 7. Энергетическая минимизация участков сочленения SCR и петель с упором на восстановление нормальной геометрии пептидных связей; Энергетическая минимизация пептидной цепи и боковых остатков петель; Энергетическая минимизация боковых цепей аминокислот, принадлежащих SCR, подвергшихся замене при присваивании координат; Энергетическая минимизация всех боковых остатков белка; Энергетическая минимизация (500-1000 шагов) всей структуры модельного белка; Молекулярная динамика модельного белка в вакууме на протяжении 20-50 пикосекунд; Финальная энергетическая минимизация структуры белка (200-500 шагов). Результатом этой процедуры будет белковая структура с правильной стереохимией (длины валентных связей и значения валентных углов не будут существенно отличаться от равновесных значений), с отрицательной энергией несвязанных взаимодействий (свидетельство того, что не наблюдается перекрытие ван-дер-ваальсовских радиусов атомов), с отрицательной энергией электростатических взаимодействий (произошло сближение противоположно заряженных атомов) и с ненулевой энергией водородных связей (в молекуле установились водородные связи). Дальнейшая регуляризация структуры приведѐт к еѐ улучшению с точки зрения стереохимии, но при этом возрастут искажения структуры активного центра (центра связывания) вашей структуры. Модельная структура построена и отрелаксирована. Она обладает участками структурноконсервативных областей, унаследованных от белков гомологов, правильной стереохимией (результат регуляризации). Дальнейшие манипуляции с этой структурой (подгонка геометрии активного центра, точечные мутации) зависят от цели исследований. Полученную структуру надо рассматривать как средство иллюстрации результатов вашей работы (объяснения экспериментальных фактов, гипотезы).