Курс лекций «Биотехнология прокариот» Метилотрофные дрожжи как продуценты рекомбинантных белков Расшифровка и анализ экспрессии генома термотолерантных метилотрофных дрожжей Hansenula polymorpha DL1, - перспективного продуцента рекомбинантных белков Н.В. Равин Центр «Биоинженерия» РАН Метилотрофные дрожжи Hansenula polymorpha DL1 Несколько штаммов выделено начиная с 1950-х годов - объект фундаментальных исследований биологии дрожжей - продуцент рекомбинантных белков Особенность - термотолерантность Независимо выделенные штаммы Hansenula polymorpha, реально представляющие разные виды и даже рода: CBS4732 (CCY38-22-2; ATCC34438, NRRL-Y-5445) DL-1 (NRRL-Y-7560; ATCC26012) NCYC495 (CBS1976; ATAA14754, NRLL-Y-1798) Пути метаболизма метанола у метилотрофных дрожжей - возможность использования метанола в качестве недорогого субстрата для роста -возможность индуцированной экспрессии Генная инженерия: направленная инкативация хромосомных генов HR: гомологичная рекомбинация NHEJ: негомологичное соединение концов Направленная инкативация хромосомных генов «split-marker» метод Рекомбинантные белки, получаемые в дрожжах Hansenula Для разработки биоинженерных штаммов H. polymorpha, обеспечивающих высокий уровень продукции белка и его секрецию при отсутствии протеолиза, и/или оптимизированных для переработки различного сырья, необходимо знание путей метаболизма, механизмов синтеза и секреции белков. Основой для этого является расшифровка полной геномной последовательности, дающая доступ ко всей генетической информации организма. Анализ экспрессии генов позволяет установить, какие наборы генов экспрессируются в определенных условиях и, тем самым идентифицировать активные промоторы и провести анализ основных путей метаболизма Цель работы - определение нуклеотидной последовательности генома метилотрофных дрожжей H. polymorpha DL1 и полногеномный анализ транскрипции при выращивании штамма на метаноле и сахарах Секвенирование полных геномов – общие принципы Длина генома – 107 нт Длина чтения одной реакции – 35-700 нт Необходимо разбиение генома на короткие фрагменты случайная фрагментация сиквенс фрагментов полный геном Сборка «контигов» заполнение «брешей» - ПЦР При случайном выборе фрагментов требуемый объем секвенирования многократно превышает длину генома 1400 1200 Contigs 1000 800 600 400 200 0 0 1 2 3 4 5 Coverage 6 7 8 9 Почему так нельзя просеквенировать геном полностью? 1. Необходимость упорядочивать контиги: число вариантов - N2 заполнение «брешей» - ПЦР 2. Если в геноме имеется повторяющийся участок ДНК, длина которого превышает длину чтения индивидуальной реакции – однозначная сборка генома невозможна 1 2 3 4 или 1 3 2 4 Библиотеки парных чтений позволяют упорядочить контиги в цепочки и решить проблему повторов 2 - 40тпн случайная фрагментация полный геном сиквенс фрагментов с двух концов упорядочивание контигов в цепочки заполнение «брешей» - ПЦР Расшифровка генома H. polymorpha – основа для создания генно-инженерных штаммов продуцентов Использованная методика: параллельное пиросеквенирование -библиотека «случайных фрагментов» геномной ДНК -библиотека парно-концевых фрагментов Хромосома Контиги (нт) Общая длина GC состав(%) 1 297,310 + 7,737(x25) + 650,519 1,141,254 48.9 2 990,963 990,963 48.2 3 1,273,462 1,273,462 49.0 4 366,734 + 922,894 1,289,628 * 47.7 5 1,330,267 1,330,267 48.3 6 1,514,933 1,514,933 46.7 7 1,515,570 1,515,570 46.4 9,056,077 47.8 Total Аннотация генома: идентификация генов и предсказание их функций Использованная методика: поиск открытых рамок считывания в геноме + секвенирования транскриптома (кДНК) Coding sequences (% of total) 84,4 Average gene length (bp) 1416 Average exon frequency 1,09 Average exon length 1289 Average intron length 65 rRNA genes 3 (x 25) tRNA genes 80 Protein-coding genes 5325 Proteins with GO terms 2396 Proteins with EC numbers 1041 Основные характеристики геномов H. polymorpha, D. bruxellensis и P. pastoris Вид Число хромосо м Размер генома (млн нт) GC соста в Число генов (CDS) Размер CDS (кодоны) CDS/ 10 тпн Dekkera bruxellensis CBS 2499 ? 13,39 39,9 5636 440 4,21 Pichia pastoris GS115 4 9,22 41,1 5040 476 5,46 Hansenula polymorpha DL1 7 9,л6 47.8 5325 469 5,88 Анализ геномных данных: филогенетическое положение штамма H. polymorpha DL1 дерево построено методом Maximum Likelihood на основе конкатенированного алаймента 153 белков, присутствующих в 42 секвенированных геномов грибов и дрожжей Равномерное или преимущественно субтеломерное распределение представителей двух мультигенных семейств в геноме H. polymorpha "Субтеломерное" семейство представлено MFSтранпортерами (115 копий в геноме, показаны красным), "равномерно распределенное" по геному – белками с armadilloподобным доменомs (68 копий на геном, показаны зеленым). Кластеризация LTR элементов в АТ богатом участке хромосомы 3 (А) «GC-профиль» хромосомы 3. Прямоугольником выделен АТ богатый островок. Б) Кластер LTR элементов группы Ty/Copia в составе АТ-богатого островка. LTR элементы выделены как зеленые стрелки, цифры обозначают номера генов. Один из генов кодирует полноразмерный полипротеин TyCopia элемента. Генные и геномные дупликации и повторы Общая избыточность генома, определенная как отношение общего количества белок-кодирующих генов (5325) к общему числу уникальных белковых семейств (4217) составляет, таким образом, для H. polymorpha 1,26 - значение, близкое к рассчитанному для "протоплоидных сахаромицетов. Сравнение геномов H. polymorpha DL1, D. bruxellensis CBS2499 и P. pastoris GS115 Сравнение наборов белок-кодирующих последовательностей Сравнение геномов H. polymorpha DL1, D. bruxellensis CBS2499 и P. pastoris GS115 Сравнение геномов P. pastoris, H. polymorpha, D. bruxellensis методом Dot-Plot Геномы D. bruxellensis и H. polymorpha обладают более высокой степенью синтении по сравнению с парой P. pastoris и H. polymorpha Сравнение геномов H. polymorpha DL1, D. bruxellensis CBS2499 и P. pastoris GS115 Карта синтении в МОХ локусе H. polymorpha и ортологичных локусах D. bruxellensis и P. pastoris. Ген МОХ выделен прямоугольником Геномы D. bruxellensis и H. polymorpha обладают более высокой степенью синтении по сравнению с парой P. pastoris и H. polymorpha Сравнение геномов H. polymorpha DL1, D. bruxellensis CBS2499 и P. pastoris GS115 Карта синтении в МОХ локусе H. polymorpha и ортологичных локусах D. bruxellensis и P. pastoris. Ген МОХ выделен прямоугольником Встречаемость и сходство белковых последовательностей ферментов пути утилизации метанола у аскомицетов Слева – филогенетическое дерево видов Saccharomycotina и Pezizomycotina. Справа – таблица, отражающая наличие ортологов генов пути утилизации метанола H. polymorpha- MOX, FLD, FDH, DAS. Размеры цветных прямоугольников пропорциональны степени идентичности между белками H. polymorpha и их ортологами у дрожжей и грибов с полностью расшифрованными геномами. Встречаемость и сходство белковых последовательностей ферментов пути утилизации метанола у аскомицетов Comparison of phylogenetic trees of MOX proteins and phylogenomic trees of MOX genomes in Ascomycetes Встречаемость и сходство белковых последовательностей ферментов пути утилизации метанола у аскомицетов Потеря способности к утилизации метанола в некоторых линиях – результат единичных делеций Полногеномный анализ транскрипции – секвенирование кДНК В результате секвенирования препаратов кДНК получено 733.393 независимых чтения для образца, культивированного на среде с метанолом, и 709.815 чтений для образца, росшего на среде с глюкозой. Из них 94.1% и 95.0% картировались на геноме H. polymorpha, и, в свою очередь 90% и 88% картированных чтений соответствовали экзонам генов. Для количественного определения уровней экспрессии генов проводили нормировку т.е. определяли количество картированных на данный ген чтений как долю от общего числа картированных на геном чтений с учетом длины гена. Из 5325 генов, аннотированных в геноме H. polymorpha, экспрессия наблюдалась для 5238 хотя-бы в одних условиях роста. Индукции при росте на метаноле (относительно роста на глюкозе) подвергались 2312 генов, 968 генов репрессировались Полногеномный анализ транскрипции – секвенирование кДНК Транскрипционный ландшафт генома H. polymorpha. «Температурная» карта, показывающая хромосомное распределение транскрибируемых генов в соответствии с уровнем их экспрессии (log2 от нормализованного числа чтений). G – клетки, выращенные на глюкозе, M –клетки, выращенные на метаноле. Полногеномный анализ транскрипции – секвенирование кДНК Дифференциальная экспрессия генов H. polymorpha, распределенных по различным KEGG категориям в условиях роста клеток на метаноле и глюкозе Метаболизм: 1 – Метаболизм углеводов , 2 – Энергетический метаболизм, 3 – Метаболизм липидов, 4 – Метаболизм нуклеотидов, 5 –Метаболизм аминокислот, 6 – Биосинтез и метаболизм гликанов, 7- Метаболизм кофакторов и витаминов, 8 – Биосинтез вторичных метаболитов, 9 – Биодеградация и метаболизм ксенобиотиков. Переработка генетической информации: 1л Транскрипция, 11 - Трансляция, 12 – Фолдинг, сортинг, деградация белков, 13 – Репликация и репарацияr. Переработка информации о внешней среде: 14 – Передача сигнала. Клеточные процессы: 15 – Транспорт и катаболизм, 16 - Пролиферация и смерть клеток. Фракция генов, экспрессия которых индуцируется на метаноле указана зеленым, генов, экспрессия которых генов индуцируется на глюкозе – красным, генов с конститутивной экспрессией в этих условиях – желтым. Полногеномный анализ транскрипции – секвенирование кДНК Функция Gene ID Нормализированное покрытие (x106) глюкоза LOG2 (M/G) метанол Утилизация метанола Аlcohol oxidase HPODL_3886 23.72 15669.48 9.37 Сatalase HPODL_4626 148.28 12011.77 6.34 Dihydroxyacetone synthase HPODL_4602 11.86 12304.39 10.02 HPODL_4538 1.48 756.17 8.99 HPODL_1039 22.24 817.01 5.20 Formaldehyde dehydrogenase HPODL_2554 628.71 18455.13 4.88 S-formylglutathione hydrolase HPODL_3324 222.42 8423.59 5.24 Formate dehydrogenase HPODL_3145 10.38 19760.32 10.89 Dihydroxyacetone kinase Полногеномный анализ транскрипции – секвенирование кДНК Ген Рост с глюкозой (нормализованно е число чтений) Рост с метанолом (нормализованное число чтений) Изменение экспрессии метанол /глюкоза (Log 2) Продукт гена HPODL_3074 26764,5 97,1 -8,1 hypothetical protein HPODL_0974 20788,8 8010,7 -1,4 Elongation factor 1-alpha 1 HPODL_0153 19737,5 4286,4 -2,2 General control protein GCN4 HPODL_3666 16724,5 21204,6 0,3 HPODL_1451 13600,2 15,9 -9,7 hypothetical protein Alcohol dehydrogenase 2 HPODL_1336 11109,1 1322,6 -3,1 Acetolactate synthase small subunit, mitochondrial HPODL_5269 10582,7 184,0 -5,8 hypothetical protein HPODL_0674 9209,7 97,1 -6,6 ATP-dependent RNA helicase fal-1 HPODL_3277 8214,7 945,9 -3,1 Argininosuccinate synthase HPODL_1785 7909,2 8600,3 0,1 HPODL_1893 7838,1 3741,7 -1,1 PHO85 cyclin CLG1 -1,0 Glyceraldehyde-3-phosphate dehydrogenase HPODL_4957 6849,0 3381,0 Pyrimidine precursor biosynthesis enzyme THI13 Гены, наиболее активно экспрессирующиеся при росте на глюкозе Полногеномный анализ транскрипции – секвенирование кДНК Ген Рост с глюкозой (нормализованно е число чтений) Рост с метанолом (нормализованное число чтений) Изменение экспрессии метанол/ глюкоза (Log 2) HPODL_3666 16724,5 21204,6 0,3 HPODL_3145 10,4 19760,3 10,9 Продукт гена Alcohol dehydrogenase 2 Formate dehydrogenase HPODL_2554 628,7 18455,1 4,9 S-(hydroxymethyl)glutathione dehydrogenase HPODL_3886 23,7 15669,5 9,4 Alcohol oxidase HPODL_2008 206,1 12741,9 6,0 Transaldolase HPODL_4602 11,9 12304,4 10,0 HPODL_4626 148,3 12011,8 6,3 Peroxisomal catalase HPODL_2395 553,1 11661,2 4,4 Sugar (and other) transporter HPODL_3669 2950,8 9988,1 1,8 Fructose-bisphosphate aldolase HPODL_0752 2087,8 9019,0 2,1 60S ribosomal protein L2 Dihydroxyacetone synthase Гены, наиболее активно экспрессирующиеся при росте на метаноле Центр «Биоинженерия» РАН Равин Н.В. Эльдаров М.А. Кадников В.В. Белецкий А.В. Марданов А.В. Марданова Е.С. Скрябин К.Г. Москва, просп. 60-летия Октября, 7/1 [email protected] В сотрудничестве: Химический факультет МГУ Bielefeld University