Методы анализа метагенома микробиоты человека Тяхт А.В. группа биоинформатики НИИ физико-химической медицины ФМБА России 55-я Всероссийская молодёжная научная конференция с международным участием «Современные проблемы фундаментальных и прикладных наук» Всероссийская молодежная научная школа «Проблемы медицинской биоинформатики» в рамках фестиваля науки (Школа ПМБ) 19-26 ноября 2012 г., Долгопрудный • Метагеном - совокупность генетического материала микроорганизмов, полученного напрямую из среды. • Метагеном - совокупность генетического материала микроорганизмов, полученного напрямую из среды. • Метагеном - совокупность генетического материала микроорганизмов, полученного напрямую из среды. • Метагеном - совокупность генетического материала микроорганизмов, полученного напрямую из среды. Биологические объекты • Бактерии, археи • Вирусы • Эукариоты (грибки, дрожжи,…) Биологические объекты • Бактерии, археи • Вирусы • Эукариоты (грибки, дрожжи) • Хозяин! Биологические объекты • Бактерии, археи • Вирусы • Эукариоты (грибки, дрожжи,…) • Хозяин! • Лабораторные загрязнения Основные задачи метагеномики Кто здесь? Что они делают? Основные задачи метагеномики Кто здесь? Таксономический состав Что они делают? Функциональный состав Основные задачи метагеномики Кто здесь? Таксономический состав Применение в медицине Что они делают? Функциональный состав Методы определения бактериального состава • По наличию культивирования – Культурно-зависимые • Бактериальный посев Методы определения бактериального состава • По наличию культивирования – Культурно-зависимые • Бактериальный посев Методы определения бактериального состава • По наличию культивирования – Культурно-зависимые • Бактериальный посев • Изоляция отдельного вида Методы определения бактериального состава • По наличию культивирования – Культурно-зависимые SOLiD • Бактериальный посев • Изоляция отдельного вида – Культурно-независимые • ДНК-секвенирование Ion Torrent 454 Illumina Типы метагеномного секвенирования различаются: • По составу – Маркерные гены (16S rRNA и др.) – Полногеномное (shotgun = whole-genome = WGS) • По производительности – По Сенгеру (метод «обрыва цепи») – Высокопроизводительное (high-throughput sequencing) – Illumina, SOLiD, 454, Ion Torrent, … • По длине ридов (ДНК-прочтений) – Длинные (400-1000 пн) – Короткие (35-100 пн) Анализ микробного состава с помощью секвенирования последовательностей 16S рРНК • Длина около 1500 пн • Выделяется из тотального ДНК с помощью «универсальных» праймеров к высоко консервативным участкам • Секвенируется целиком либо вариабельные области V1-V3, V3-V5, V4 • Внутривидовое сходство сиквенса 98-99% • Для эукариот можно использовать 18S рРНК. Анализ микробного состава с помощью секвенирования последовательностей 16S рРНК • Длина около 1500 пн • Выделяется из тотального ДНК с помощью «универсальных» праймеров к высоко консервативным участкам • Секвенируется целиком либо вариабельные области V1-V3, V3-V5, V4 • Внутривидовое сходство сиквенса 98-99% • Для эукариот можно использовать 18S рРНК. Классификация -> дерево микробного сообщества Пример классификатора: RDP Classifier Классификация -> дерево микробного сообщества Пример классификатора: RDP Classifier • Листья – операционные таксономические единицы, OTU • Взвешенные/невзвешенные деревья Сравнение бактериальных сообществ 1) Больше или меньше разнообразие? (число листьев) 2) Метрика сходства - ? Евклидова не подходит (распределение численности не нормально). Учет структуры дерева жизни: UniFrac (“unique fraction”) QIIME software Knight et al. UniFrac + методы сокращения размерности и визуализации, матрица расстояний –> облако точек: • PCoA (principal coordinates analysis) • MDS (multi-dimensional scaling) Knight et al. Проблемы метагеномного анализа с помощью секвенирования 16S рРНК • Специфичность праймеров – Частичное решение: «Коктейль праймеров» • Разное число копий 16S на геном • Технические артефакты: – Риды-химеры (решение: ChimeraSlayer, …) – Риды-дубликаты (решение: поиск и отбрасывание копий) • Неоднозначность классификации (структуры филогенетического дерева) – Пример: ветвь Clostridiales 16S секвенирование неадекватно представляет соотношение численности микроорганизмов 22 вида бактерий смешаны в равных долях по числу клеток, секвенированы несколько раз: Courtesy: Mark Reimers Полногеномный анализ (shotgun aka whole-genome) Короткие риды Длинные риды Таксономическая классификация . + Предсказание генов - + Выравнивание на шаблонные ДНКпоследовательности (референс) + + Сборка de novo . + Функциональный анализ после выравнивания + + Анализ спектра kмеров + + Много и дешево Мало и дорого Микробиота (микробиом) кишечника 300-1000 видов бактерий Число клеток ~ 1015: на 2 порядка раз больше, чем клеток человека Число генов в метагеноме ~ 106: на 2 порядка больше, чем генов человека Функции: Метаболизм Предотвращение колонизации патогенами Регуляция имуннитета Защита от воспалительных заболеваний Связь с нервной системой (ось «кишечник-мозг») 75% видов не поддаются культивации Микробиота (микробиом) кишечника 300-1000 видов бактерий - Ожирение Число клеток ~ 1015: - Воспалительные заболевания кишечника на 2 порядка раз больше, чем клеток человека - Аутоимунные заболевания Число генов в метагеноме ~ 106: на 2 порядка больше, чем генов человека Функции: Метаболизм Предотвращение колонизации патогенами Регуляция имуннитета Защита от воспалительных заболеваний Связь с нервной системой (ось «кишечник-мозг») 75% видов не поддаются культивации Проект MetaHIT: каталог генов микробиоты кишечника - 13 институтов из 8 стран - Май 2010 г: секвенировано 576 Гбп полногеномных ридов от 124 человек - Обнаружено 3,3 млн генов – каталог генов - Общее ядро: у 90% пациентов найдены - более 200 тысяч генов (генное ядро) - 57 видов бактерий (видовое ядро) Qin et al, 2010 Проект «Микробиома человека» (Human Microbiome Project), США - 18 точек на теле - референсный каталог секвенированных геномов (более 600) - метаболическая реконструкция - поиск функциональных маркеров заболеваний Segata et al, 2011 Состав микробиоты: дискретность или непрерывность? или MetaHIT: Arumugam et al, 2011: энтеротипы Rob Knight, IHMC 2012 talk, Paris Новые типы микробного состава микробиоты кишечника, найденные у городского и сельского населения РФ Полногеномное секвенирование: инструменты, цели • Инструменты – Секвенатор SOLiD: полногеномное секвенирование ДНК микробиоты кишечника человека (кал), короткие риды 50 пн – Вычислительный кластер НИИ ФХМ • 12 выч узлов по 64-256 Гб ОЗУ, 6 Тфлопс • БД-сервер • Некоторые из целей исследования: – Выявление особенностей таксономического и функционального состава микробиоты населения РФ – Сопоставление с социальногеографическими, медицинскими диетическими и другими факторами – Рассмотрение в мировом метагеномном контексте (США, Европа) География выборки • • Русский метагеномный проект: 132 образца, SOLiD Мета-анализ – MetaHIT: 85 образцов, Европа (Дания), Illumina – HMP: 139 образцов, США, Illumina – Yatsunenko et al: 15 образцов Амазония и Малави Обработка данных: от ридов к составу • Основной подход: картирование ридов на референсные последовательности: – Предфильтрация ридов (ДНК человека, низкокачественные риды) – Геномы кишечных микробов (более 440 шт) –> таксономический состав на уровне родов – Каталог генов микробиоты кишечника (3,3 млн) –> функциональный анализ Российский метагеном в мировом контексте Бактериальный состав, изображенный с помощью многомерного шкалирования (3D non-linear MDS based on UniFrac, X3 vs X1 and X2 vs X1 projections Особенности метагенома РФ: - Есть новые моды микробного состава - Некоторые образцы схожи с аборигенскими (как таксономически, так и на уровне ферментов) USA Denmark Russia Malawi Venezuela Кластеризация метагеномов по составу • PAM clustering • Как выбрать число кластеров? – Индекс Calinski-Harabasz • РФ: 2-3 кластера, похожие на энтеротипы, но с низкой достоверностью Кластеризация с bootstrapping-валидацией: 3 скопления… пакет R pvclust …каждый содержит образцы из деревень одного региона РФ Граф корреляции: союзники и соперники Корреляция по Спирмену, показаны связи со значениями > 0.4. R, Cytoscape Статистические тесты • Представленность видов не нормальна (много нулей) • Используем непараметрические методы, например: – Корреляция по Спирмену (вместо Пирсона) – Тест Манна-Уитни (вместо t-теста) Функциональный анализ Гены из референсного каталога имеют аннотацию (COG, KEGG, GO, …) Покрытие –> оценка представленности генов и их функциональных групп Гомеостаз микробиоты: у субъектов разные микробы, но схожий общий метаболизм Число представленных генов: оценка богатства генного репертуара Интеграция meta….omics Спасибо за внимание • Вопросы