Зачем нужен анализ транскриптома Наука зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • одинаковый геном → разные типы клеток • ответ клетки на внешние воздействия Клиника • предрасположенность к болезни → генотип болезнь → профиль экспрессии • классификация болезней, тонкий диагноз • молекулярные причины болезни, выбор мишени RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Тонкая диагностика по анализу транскриптомов Сходство болезней по сходству транскриптомов Работа проводилась на трансформированных клеточных линиях. Оказалось, что изменение профилей экспрессии при трансформации сходно с изменениями профилей экспрессии для трех групп болезней: • онкологические • аутоиммунные • связанные с метаболизмом липидов Авторы проверили, как влияют лекарства ля болезней второй и третьей группы на трансформацию и опухолевый рост. Лекарства, используемые для лечения неонкологических болезней блокируют клеточную трансформацию. (A) анализ морфологии клеток (B) анализ на мягком агаре. (C) рост опухолей ER-Src клеток в голых мышах после 4-х внутрибрюшных инъекций лекарства История Способы «на удачу» вычеты, differential display, вычитающая гибридизация и др. зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Систематический анализ • масштабный EST-сиквенс • микрочипы - ограниченный набор генов - «весь» транскриптом - полногеномные (tailing) чипы RNA-Seq первый раз появилась возможность провести исчерпывающий анализ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq / чувствительность Клетка человека содержит 10-50pg тотальной RNA. mRNA составляет 1-5%: 0.1-2.5pg. Если принять средний размер 1kb, это составит 0.2-5х106 молекул зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Каждая из 8 дорожек сиквенатора Illumina даёт ~1.5-2х107 сиквенсов. Т.е., если какой-то ген (размером 1kb) имеет уровень экспрессии одна копия на клетку, то будет задетектировано примерно 3-200 соответствующих ему сиквенсов. Бактериальная клетка содержит примерно 0.1pg тотальной RNA. Одна копия на клетку 1kb гена даст ~200 сиквенсов. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq Одна платформа, однородные данные • анализ всех типов RNA: RNA-Seq зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • влияние генотипа на транскрипцию: resequencing • влияние эпигенетических факторов • DNA-белковые и RNA-белковые взаимодействия: ChIP-Seq Чувствительность • пропорциональна цене • ~1 копия на клетку за $300 Возможна сборка транскриптома de novo RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq: метод (i) прямой сиквенс cDNA зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы (ii) уровень экспрессии с определенного участка генома оценивается как частота встречаемости соответствующих фрагментов (iii) структура транскриптов выводится из анализа нуклеотидных последовательностей (пересечение splice-junctions), расположения парных сиквенсов и redundancy RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq: мол. биология RNA зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы дробление синтез cDNA синтез cDNA дробление лигирование 5′ и 3′ адаптеров лигирование адаптеров библиотека коротких cDNA фрагментов сиквенс фрагментов с одной или двух сторон анализ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq: биоинформатика файл с сиквенсами зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы файл с качеством выравнивание • на геном • на базу splice-junctions unmatched: не используются неоднозначное выравнивание: используются только для определения абсолютного уровня экспрессии однозначное выравнивание: все остальные анализы RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Сравнение параметр RNA-Seq Чипы RT-PCR ~104-5 ~102 ~106 динамический диапазон чувствительность • зависит от масштаба сиквенса • 1 копия на клетку за ~$300 • зависит от зонда и гена • ~10 копий на клетку 1 копия на 10-100 клеток точность • ошибка ~ корень из числа хитов • сильно зависит от уровня экспрессии если экспрессия сравнима с фоном, то измерить не удастся ~20% гены • полнотранскриптомный анализ • сложно исключить отдельные гены • по выбору • возможно полногеномное с исключением отдельных областей один ген – одна реакция абсолютный уровень экспрессии можно очень грубо можно de novo анализ для непросиквенированных организмов возможен аннотация новых генов возможна, без применения специальных библиотек разрешение – несколько нуклеотидов невозможен • только tiling arrays • низкая разрешающая способность (десятки-сотни нуклеотидов) невозможна RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Сравнение параметр RNA-Seq Чипы RT-PCR чувствительность к мутациям в геноме слабое влияние может сильно повлиять на результат анализа аллель-специфическая экспрессия • полнотранскриптомный анализ • нельзя использовать интронные SNP • выборочный анализ • можно использовать интронные SNP повторяющиеся последовательности только по различающимся участкам, высокий фон в режиме SNP-анализа межлабораторная кооперация • одинаковый протокол: тривиально • разные протоколы: можно • одинаковая чип-система: можно • разные системы: очень сложно тривиально производительность • низкая: ~10-50 библиотек на человека • сложное приготовление библиотек и долгое время сиквенса • высокая: ~10-40 анализов в день на человека • автоматизируется • максимальная: ~1001000 анализов в день на человека • почти полностью автоматизируется перспективы развивающаяся область, цена быстро падает и технология и цена стабильны RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Сравнение чипов и RNA-Seq Как соотносятся сравнения профилей экспрессии с помощью чипа (ось Y) и RNASeq (ось X). В обоих случаях log2 (отношение экспрессии в B и HEK клетках). Всего 7043 гена. Зеленые и красные линии: разница 33 and 50%, соответственно. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Выводы • сохранятся все три технологии зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • экспрессионные чипы и RT-PCR будут применяться как тест-системы под конкретные вопросы • RNA-Seq: полнотранскриптомный анализ для биологии и клиники RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq позволяет • определять как отностительный, так и абсолютный уровни экспрессии зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • аннотировать новые и уточнять аннотацию известных генов • анализировать структурные перестройки • выявлять аллель-специфическую экспрессию • определять экспрессирующиеся SNP • исследовать редактирование RNA • детектировать слитые (fusion) транскрипты • выявлять присутствие в образце микроорганизмов и вирусов RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Аллельная экспрессия B6 F1(B6xPWD) B6 F1(B6xPWD) PWD F1(PWDxB6) PWD F1(PWDxB6) Генетически-обусловленное различие. Хромосома 13, ген SNCB (Synuclein, beta). Экспрессия PWD больше при любом направлении скрещивания F1(B6xPWD) и F1(PWDxB6). Импринтинг. Хромосома 15, ген Peg13. Отцовский аллель экспрессируется в F1 мышах: PWD аллель в F1(B6xPWD) и B6 аллель в F1(PWDxB6). RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin RNA-Seq и реплики зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Очень надежная процедура. Обычно, бессмысленно тратить деньги на реплики в смысле «сделаем несколько измерений одного и того же чтобы повысить точность» Биологические реплики зависят от задачи. Но общее впечатление: транскрипция хорошо воспроизводится. Стандартизация параметров: пол, возраст, режим кормления и т.п. Если возможно, избегать самок с их гормональными циклами. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Сравнение уровней экспрессии длина фрагментов: чем меньше, тем лучше. Вариабельность длины роли не играет принцип: один сиквенс – один хит зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • не рационально использовать длинные сиквенсы (50nt – хороший выбор) • не рационально проводить PE-сиквенс, т.к. Сиквенсы с двух концов нельзя рассматривать как независимые и засчитывать за два хита • это не относится к анализу экспрессии de novo множественное выравнивание • выбрасываются из анализа при попарном сравнении • учитываются при расчете абсолютного уровня экспрессии достоверность зависит не только от разницы, но и от абсолютного уровня экспрессии: 2000/1000, 20/10, 2/1 RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Распределение уровней экспрессии N most expressed transcripts 100 1000 5000 10000 15000 % reads 20% 52% 87% 97% 99.7% Большая часть ридов из сильноэкспрессирующихся генов. Большинство генов слабо экспрессируются. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Геномный броузер Геномный броузер – часть web-программы, которая от каталогизации образцов и библиотек до анализа и презентации данных. Масштаб представления может плавно меняться. Слева: сравнение экспрессии в нескольких линиях; справа: от целой хромосомы до отдельных нуклеотидов. http://genseq.molgen.mpg.de/ssRNA/ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Примеры пересекающихся генов YOR163W и YOR164C Ncaph2 и Ecgf1 Mrpl24 и BC023814 YJR086W, YJR087W и YJR088C Слева – дрожжевые примеры, справа – мышиные. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Новые гены дрожжи: новый ген между YNR066C и YNR067C мышь: новый и неправильно анотированный экзоны Cdc42bpa гена мышь: новый экзон Chd3 гена мышь: новый ген-кандидат RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Анализ структуры (сплайсинга) на сегодня нет стандартных методов • детектируем, а не измеряем • для сильно-экспрессирующихся генов зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • анализ ограниченного числа генов «вручную» для анализа используется • выравнивание на in silico базе splice-junctions • PE-сиквенс: узкий диапазон, низкий выход, двойная очистка в геле • разница в представленности экзонов (очень ненадежные данные, так как вариабельность покрытия при RNA-Seq существенно выше, чем при ресиквенсе) Все эти способу не требуют длинных сиквенсов. Длинные сиквенсы могут понадобится для поиска новых, неохарактеризованных splice-junctions RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Сплайсинг EIF4G1 ген на 3-ей хромосоме в двух линиях клеток. HEK (вверху) и B клетки (внизу), зелёные прямоугольники: 33 известных экзона гена, красная гистограмма: число ридов в на данном фрагменте, голубые линии - splice junctions (ширина пропорциональна числу ридов). RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Удаление рибосомной RNA oligo(dT) • преимущественная очистка 3′ областей • один цикл очистки: mRNA≈rRNA зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Ribo-minus (Invitrogen) • удаляются 18S, 28S, 5.8S, and 5S rRNA • если сравнивать с oligo(dT): нет преимущественной очистки 3′ областей, гораздо дороже, экспрессионный профиль практически тот же Terminator™ 5'-Phosphate-Dependent Exonuclease (Epicentre) • удаляются 18S и 28S rRNA нормализация уменьшается содержание всех распространенных типов RNA RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Выбор платформы • не рассматривается 454, так как в ~200 раз дороже • из предположения, что обе есть, а не «какую купить» зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы параметр Illumina производительность, перспективы, приготовление библиотек SOLiD ≈ цена сиквенс на SOLiD примерно вдвое дешевле качество • если проводится выравнивание относительно референсного генома, то качество выше у SOLiD • для de novo сборки качество выше у Illumina размер вставки <600bp длина сиквенса SR: до 150nt PE: до 150 и 150nt параллелизация • лучше у Illumina: как по умолчанию, так и для barcoding • SOLiD: 4 поля – 25% потерь площади; 8 полей – 33% удобство системы Illumina немного удобнее и заметно безопаснее в смысле загрязнения старой библиотекой оптимизация сиквенса и использование нестандартных библиотек Illumina существенно удобнее: легкое перепрограммирование машины, простой переход на новые сиквенсовые праймеры <300bp SR: до 75nt PE: до 75 и 25nt RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Wet-протоколы лигирование 5′ и 3′ адаптеров зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • сложнее и капризнее • RNA любой длины • точнее аннотация RNA дробление синтез cDNA синтез cDNA дробление • проще и надежнее • только сравнительно длинные транскрипты (реальные проблемы только для микро RNA) • химическое расщепление (быстрее и удобнее, чем ультразвук); чувствительно к rRNA загрязнению, два цикла очистки • распределение фрагментов существенно равномернее • 3′-bias при использовании oligo(dT) праймера* • способ устойчив к rRNA загрязнению, достаточно одного цикла очистки • дробление: ультразвук**; устойчиво к переозвучиванию • протоколы не выявляющие направление транскрипции устарели • важно, чтобы все было как можно более одинаковым: протокол, способ щепления, длина фрагментов и т.п. • для специальных задач – специальные библиотеки (например, уточнение аннотации генов) * само по себе это ни хорошо и ни плохо ** не надо пользоваться Nebulizer; нет денег на Covaris, можно сделать систему за ~3k$ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin dUTP протокол - ориентация polyA mRNA Oligo(dT) and random hexamer primed first-strand cDNA synthesis Second-strand synthesis with dUTP cDNA fragmentation A RNA fragmentation Random hexamer primed first-strand cDNA synthesis B Second-strand synthesis with dUTP Adapters ligation, size selection UNG treatment, preamplification Illumina sequencing Полезность информации о направлении транскрипции. 5’ область дрожжевого гена YGR203W пересекается с 5’ областью неанотированного гена. A: mapping без ориентации; B: ssRNA-Seq. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin На сегодняшний день Очень разная представленность разных генов • чем выше уровень экспрессии, тем подробнее и качественнее анализ зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • анализ гетерогенных систем Анализ структуры откровенно слаб: сейчас, скорее детекция, чем количественный анализ Нет корпоративных стандартов • нет общепринятых алгоритмов анализа • используются разные wet-протоколы и разные платформы • не проблема для попарного анализа Низкая производительность: хорошую библиотеку делать долго RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin На ближайшее время NB! не рассматривается «естественное улучшение»: длиннее риды, нормализация, надежнее анализ и т.п. зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • цена будет падать по-прежнему быстро • быстрый анализ на сиквенаторах третьего поколения • биологические базы знаний (модельные организмы, модельные ткани) - сплайс-варианты - уровень и вариабельность экспрессии • клинические диагностические базы знаний RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin Участники проф. Ханс Лерах зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Дмитрий Пархомчук, кбн - биоинформатика Татьяна Бородина, кбн Мария Банару, аспирант Алексей Давыдов, аспирант RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin