Биоинформатика: «текстовая» и «структурная». Базы данных Чугунов Антон Лаборатория моделирования биомолекулярных систем http://model.nmr.ru Институт биоорганической химии РАН http://ibch.ru Долгопрудный, МФТИ, 20 сентября 2018 г. План лекции 1. Что такое биоинформатика? 2. Большие базы «сухой биологии» 3. Последовательности генов 4. Аминокислотные последовательности 5. Структуры белков 6. Выравнивание последовательностей 7. Поиск последовательностей в базах 8. Филогенетические деревья I. Введение в «сухую биологию» Что такое «биоинформатика»? БИОлогия + ИНФОРМАТИКА: “computer science” в биологии Структурная биоинформатика • Молекулярное моделирование • Дизайн белков • Драг-дизайн «Текстовая» биоинформатика • «Биологические тексты» • Компьютерная геномика • Молекулярная эволюция Алгоритмическая биоинформатика • Моделирование сложных систем • Генные сети • Алгоритмы биоинформатики • и т.д. I. Введение в «сухую биологию» Разновидности биоинформатики • • • • • • • • Клиническая биоинформатика Структурная геномика Функциональная геномика Фармакогеномика Клиническая протеомика Функциональная протеомика Структурная протеомика Другие «омики» …и любые направления современной биологии и медицины, где необходимо систематизировать и анализировать данные биохимических экспериментов I. Введение в «сухую биологию» Немного истории Биомолекула: http://bit.ly/BM-InSilico II. Большие базы «сухой» биологии Большие базы «сухой биологии» Genbank Uniprot Protein Data Bank www.ncbi.nlm.nih.gov/genbank www.uniprot.org www.rcsb.org • «Склад» генетических данных • Сотни миллионов последовательностей генов • Полные геномы # последовательностей • «Склад» а/к последовательностей • Курируемый и некурируемый разделы • Подробные аннотации • «Склад» 3D-структур белков • ≈140 тыс. структур • Десятки тысяч разных белков • Многих структур пока нет! — GenBank — Полные геномы bit.ly/BM-InSilico III. Генетические последовательности Генетические последовательности Источник генетических данных — геномные проекты, в том числе знаменитый «Геном человека». Прогресс достигнут за счет методик секвенирования ДНК. bit.ly/BM-Sequencing Метод «терминаторов» Сэнгера Секвенирование «нового поколения» (NextGen) • Фрагментация (shotgun) • Регистрация включения нуклеотидов • Биоинформатическая «сборка» Нанопоровое секвенирование IV. Аминокислотные последовательности Аминокислотные последовательности Химический метод. Фрагментирование полипептида химическими реагентами с последующей идентификацией фрагментов Автоматическое секвенирование (метод Эдмана). Последовательная деградация белка с N-конца (реакция с фенилизотиоцианатом; ФИТЦ) + идентификация Ферментативный метод. Отщепление а.о. с помощью карбоксипептидазы + идентификация Физический метод: масс-спектрометрия. MS/MS анализ и Peptide mass fingerprinting Метод Эдмана Протеомика: MS-анализ + фингерпринт bit.ly/BM-Proteomics IV. Аминокислотные последовательности Формат файла FASTA >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH V. 3D-структуры белков Пространственные структуры белков Рентгеноструктурный анализ ЯМР-Спектроскопия Криоэлектронная микроскопия Нобелевская премия по химии 2017 bit.ly/BM-StructBio V. 3D-структуры белков Формат файла pdb HEADER TITLE TITLE ... EXPDTA AUTHOR AUTHOR ... REMARK REMARK REMARK REMARK ... SEQRES SEQRES SEQRES ... ATOM ATOM ATOM ATOM ATOM ... HETATM HETATM HETATM ... EXTRACELLULAR MATRIX 22-JAN-98 1A3I X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE 2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY) X-RAY DIFFRACTION R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA, 2 B.BRODSKY,A.ZAGARI,H.M.BERMAN 350 BIOMOLECULE: 1 350 APPLY THE FOLLOWING TO CHAINS: A, B, C 350 BIOMT1 1 1.000000 0.000000 0.000000 350 BIOMT2 1 0.000000 1.000000 0.000000 1 A 1 B 1 C 1 2 3 4 5 130 131 132 9 6 6 N CA C O CB 0.00000 0.00000 PRO PRO GLY PRO PRO GLY PRO PRO GLY PRO PRO GLY PRO PRO GLY PRO PRO GLY PRO PRO GLY PRO PRO PRO PRO PRO C ACY O ACY OXT ACY A A A A A 1 1 1 1 1 8.316 7.608 8.487 9.466 6.460 21.206 20.729 20.707 21.457 21.723 21.530 20.336 19.092 19.005 20.211 1.00 1.00 1.00 1.00 1.00 17.44 17.44 17.44 17.44 22.26 N C C O C 401 401 401 3.682 2.807 4.306 22.541 23.097 23.101 11.236 10.553 12.291 1.00 21.19 1.00 21.19 1.00 21.19 C O O V. 3D-структуры белков Формат файла pdb: секция ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM END 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 N CA C O CB H1 HA HB1 HB2 HB3 N CA C O CB SG H HA HB2 HB3 N CA C ALA ALA ALA ALA ALA ALA ALA ALA ALA ALA CYS CYS CYS CYS CYS CYS CYS CYS CYS CYS VAL VAL VAL A A A A A A A A A A A A A A A A A A A A A A A 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 1.329 2.093 2.542 2.089 1.269 1.807 2.967 0.317 1.105 1.799 3.434 3.946 3.460 3.184 5.475 6.182 3.758 3.574 5.850 5.828 3.358 2.907 3.990 0.000 -0.001 1.409 2.390 -0.607 -0.001 -0.619 -0.939 0.136 -1.448 1.502 2.792 3.109 2.207 2.799 2.219 0.684 3.549 2.156 3.806 4.398 4.835 5.635 0.000 -1.241 -1.611 -1.021 -2.368 0.855 -1.095 -1.978 -3.134 -2.789 -2.591 -3.039 -4.450 -5.241 -3.001 -1.426 -3.024 -2.365 -3.785 -3.169 -4.759 -6.075 -6.790 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 71.14 74.41 2.11 32.23 11.33 31.51 23.01 21.12 33.44 3.51 72.01 52.24 73.02 63.31 24.53 32.34 64.12 10.23 74.42 52.05 53.32 64.51 N C C O C H H H H H N C C O C S H H H H N C C VI. Выравнивание последовательностей Выравнивание последовательностей Выравнивание – это определение соответствия между аминокислотными остатками (для белков) или нуклеотидами (для ДНК/РНК) в последовательностях • • Парное выравнивание: поиск сходных участков двух последовательностей Множественное выравнивание: поиск консервативных участков в наборе последовательностей вОобРажение сОдеРжание- воОбраЖеНИЕ -сОдерЖаНИЕ вОобРаЖеНИЕ сОдеР-ЖаНИЕ GTaTAGTc-Ta GT-TAGTagTc GT-A-TAGTCta GTtAgTAGTC-- N = 184 756. N20 = 1,38 × 1011. N100 = 9,05 × 1058 VI. Выравнивание последовательностей Выравнивание: пример bit.ly/BM-InSilico VI. Выравнивание последовательностей «Расстояние» между последовательностями 1. Идентичность последовательностей. Доля идентичных а.о., стоящих в тех же позициях в последовательностях А и В Seq1: FTFTALILLA Seq2: FEFTALVLLA Идентичность = 80% 2. Расстояние по Хеммингу. Количество несовпадающих позиций Seq1: FTFTALILLA Seq2: FEFTALVLLA RХемминг = 2 3. Расстояние по Левенштайну (редакционное расстояние). Минимальное число преобразований, переводящих одну последовательность в другую Seq1: FTFT-LILLA Seq2: FEFTALVLLA RРед = 3 Требуется учитывать природу а/к замен! VI. Выравнивание последовательностей Физико-химические свойства а/к остатков VI. Выравнивание последовательностей Вероятность замены а/к остатков VI. Выравнивание последовательностей Матрицы замены а/к остатков VI. Выравнивание последовательностей Множественное выравнивание Сlustal – наиболее используемый в мире кластер программ для множественного выравнивания последовательностей VI. Выравнивание последовательностей Множественное выравнивание VII. Поиск последовательностей в базах Поиск «гомологов» BLAST (англ. Basic Local Alignment Search Tool) — семейство компьютерных программ для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура или её фрагмент. Идея — поиск в последовательности похожих или совпадающих «слов» максимальной длины. VII. Поиск последовательностей в базах Поиск «гомологов»: BLAST VII. Поиск последовательностей в базах Поиск «гомологов»: FASTA VII. Филогенетические деревья Молекулярная эволюция Карл Вёзе (1928–2012) Выводы 1. Без биоинформатики современная биология невозможна 2. Продукт биоинформатики — онлайн-базы данных — уже воспринимается как «воздух» 3. Очень многие исследования в современной биологии можно делать «всухую», без капли реактива Торжество компьютерных методов: предсказание строения белков Молекулярная динамика биомолекул. История полувековой давности Драг-дизайн: как в современном мире создаются новые лекарства 454-секвенирование ДНК На заре молекулярной графики Ловля бабочек, или чем структурная геномика поможет биологии Невидимая граница: где сталкиваются «нано» и «био» Недоупорядоченные белки Антимикробные пептиды — возможная альтернатива традиционным антибиотикам Зрительный родопсин — рецептор, реагирующий на свет Рецепторы в активной форме Миллисекундный барьер взят! Калиевый канал in silico Компьютерные игры в молекулярную биофизику биологических мембран Пространственновременное моделирование в биологии Рецептор “нетрадиционной ориентации” Липидный фундамент жизни Биохакеры: молекулярная биология в стиле «сделай сам» Спасибо за внимание!