Сравнение

advertisement
Зачем нужен анализ транскриптома
Наука
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• одинаковый геном → разные типы клеток
• ответ клетки на внешние воздействия
Клиника
•
предрасположенность к болезни → генотип
болезнь → профиль экспрессии
• классификация болезней, тонкий диагноз
• молекулярные причины болезни, выбор мишени
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Тонкая диагностика по анализу транскриптомов
Сходство болезней по сходству транскриптомов
Работа проводилась на трансформированных клеточных
линиях. Оказалось, что изменение профилей экспрессии при
трансформации сходно с изменениями профилей экспрессии
для трех групп болезней:
• онкологические
• аутоиммунные
• связанные с метаболизмом липидов
Авторы проверили, как влияют лекарства ля болезней второй
и третьей группы на трансформацию и опухолевый рост.
Лекарства, используемые для лечения неонкологических болезней блокируют клеточную
трансформацию.
(A) анализ морфологии клеток
(B) анализ на мягком агаре.
(C) рост опухолей ER-Src клеток в голых мышах
после 4-х внутрибрюшных инъекций лекарства
История
Способы «на удачу»
вычеты, differential display, вычитающая гибридизация и др.
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
Систематический анализ
• масштабный EST-сиквенс
• микрочипы
- ограниченный набор генов
- «весь» транскриптом
- полногеномные (tailing) чипы
RNA-Seq
первый раз появилась возможность провести
исчерпывающий анализ
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq / чувствительность
Клетка человека содержит 10-50pg тотальной RNA. mRNA
составляет 1-5%: 0.1-2.5pg. Если принять средний размер
1kb, это составит 0.2-5х106 молекул
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
Каждая из 8 дорожек сиквенатора Illumina даёт ~1.5-2х107
сиквенсов.
Т.е., если какой-то ген (размером 1kb) имеет уровень
экспрессии одна копия на клетку, то будет задетектировано
примерно 3-200 соответствующих ему сиквенсов.
Бактериальная клетка содержит примерно 0.1pg тотальной
RNA. Одна копия на клетку 1kb гена даст ~200 сиквенсов.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq
Одна платформа, однородные данные
• анализ всех типов RNA: RNA-Seq
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• влияние генотипа на транскрипцию: resequencing
• влияние эпигенетических факторов
• DNA-белковые и RNA-белковые взаимодействия: ChIP-Seq
Чувствительность
• пропорциональна цене
• ~1 копия на клетку за $300
Возможна сборка транскриптома de novo
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: метод
(i) прямой сиквенс cDNA
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
(ii) уровень экспрессии с определенного участка
генома оценивается как частота встречаемости
соответствующих фрагментов
(iii) структура транскриптов выводится из
анализа нуклеотидных последовательностей
(пересечение splice-junctions), расположения
парных сиквенсов и redundancy
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: мол. биология
RNA
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
дробление
синтез cDNA
синтез cDNA
дробление
лигирование 5′
и 3′ адаптеров
лигирование адаптеров
библиотека коротких cDNA фрагментов
сиквенс фрагментов с одной или двух сторон
анализ
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: биоинформатика
файл с сиквенсами
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
файл с качеством
выравнивание
• на геном
• на базу splice-junctions
unmatched: не используются
неоднозначное выравнивание: используются только для
определения абсолютного уровня экспрессии
однозначное выравнивание: все остальные анализы
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Сравнение
параметр
RNA-Seq
Чипы
RT-PCR
~104-5
~102
~106
динамический
диапазон
чувствительность
• зависит от масштаба
сиквенса
• 1 копия на клетку за ~$300
• зависит от зонда и гена
• ~10 копий на клетку
1 копия на 10-100 клеток
точность
• ошибка ~ корень из числа
хитов
• сильно зависит от уровня
экспрессии
если экспрессия сравнима с
фоном, то измерить не
удастся
~20%
гены
• полнотранскриптомный
анализ
• сложно исключить
отдельные гены
• по выбору
• возможно полногеномное с
исключением отдельных
областей
один ген – одна реакция
абсолютный уровень
экспрессии
можно
очень грубо
можно
de novo анализ для
непросиквенированных
организмов
возможен
аннотация новых генов
возможна, без применения
специальных библиотек
разрешение – несколько
нуклеотидов
невозможен
• только tiling arrays
• низкая разрешающая
способность (десятки-сотни
нуклеотидов)
невозможна
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Сравнение
параметр
RNA-Seq
Чипы
RT-PCR
чувствительность к
мутациям в геноме
слабое влияние
может сильно повлиять на результат анализа
аллель-специфическая
экспрессия
• полнотранскриптомный
анализ
• нельзя использовать
интронные SNP
• выборочный анализ
• можно использовать интронные SNP
повторяющиеся
последовательности
только по различающимся
участкам, высокий фон
в режиме SNP-анализа
межлабораторная
кооперация
• одинаковый протокол:
тривиально
• разные протоколы: можно
• одинаковая чип-система:
можно
• разные системы: очень
сложно
тривиально
производительность
• низкая: ~10-50 библиотек на
человека
• сложное приготовление
библиотек и долгое время
сиквенса
• высокая: ~10-40 анализов
в день на человека
• автоматизируется
• максимальная: ~1001000 анализов в день на
человека
• почти полностью
автоматизируется
перспективы
развивающаяся область, цена
быстро падает
и технология и цена стабильны
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Сравнение чипов и RNA-Seq
Как соотносятся сравнения
профилей экспрессии с
помощью чипа (ось Y) и RNASeq (ось X). В обоих случаях
log2 (отношение экспрессии в
B и HEK клетках). Всего 7043
гена. Зеленые и красные
линии: разница 33 and 50%,
соответственно.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Выводы
• сохранятся все три технологии
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• экспрессионные чипы и RT-PCR будут
применяться как тест-системы под
конкретные вопросы
• RNA-Seq: полнотранскриптомный анализ
для биологии и клиники
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq позволяет
• определять как отностительный, так и абсолютный
уровни экспрессии
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• аннотировать новые и уточнять аннотацию
известных генов
• анализировать структурные перестройки
• выявлять аллель-специфическую экспрессию
• определять экспрессирующиеся SNP
• исследовать редактирование RNA
• детектировать слитые (fusion) транскрипты
• выявлять присутствие в образце микроорганизмов и
вирусов
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Аллельная экспрессия
B6
F1(B6xPWD)
B6
F1(B6xPWD)
PWD
F1(PWDxB6)
PWD
F1(PWDxB6)
Генетически-обусловленное различие.
Хромосома 13, ген SNCB (Synuclein, beta).
Экспрессия PWD больше при любом
направлении скрещивания F1(B6xPWD) и
F1(PWDxB6).
Импринтинг. Хромосома 15, ген Peg13.
Отцовский аллель экспрессируется в F1
мышах: PWD аллель в F1(B6xPWD) и B6
аллель в F1(PWDxB6).
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq и реплики
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
Очень надежная процедура. Обычно, бессмысленно тратить
деньги на реплики в смысле «сделаем несколько измерений
одного и того же чтобы повысить точность»
Биологические реплики зависят от задачи. Но общее
впечатление: транскрипция хорошо воспроизводится.
Стандартизация параметров: пол, возраст, режим
кормления и т.п. Если возможно, избегать самок с их
гормональными циклами.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Сравнение уровней экспрессии
длина фрагментов: чем меньше, тем лучше. Вариабельность
длины роли не играет
принцип: один сиквенс – один хит
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• не рационально использовать длинные сиквенсы (50nt – хороший
выбор)
• не рационально проводить PE-сиквенс, т.к. Сиквенсы с двух
концов нельзя рассматривать как независимые и засчитывать за
два хита
• это не относится к анализу экспрессии de novo
множественное выравнивание
• выбрасываются из анализа при попарном сравнении
• учитываются при расчете абсолютного уровня экспрессии
достоверность зависит не только от разницы, но и от абсолютного
уровня экспрессии: 2000/1000, 20/10, 2/1
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Распределение уровней экспрессии
N most expressed
transcripts
100
1000
5000
10000
15000
% reads
20%
52%
87%
97%
99.7%
Большая часть ридов из сильноэкспрессирующихся генов. Большинство генов
слабо экспрессируются.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Геномный
броузер
Геномный броузер – часть web-программы,
которая от каталогизации образцов и библиотек
до анализа и презентации данных. Масштаб
представления может плавно меняться.
Слева: сравнение экспрессии в нескольких
линиях; справа: от целой хромосомы до
отдельных нуклеотидов.
http://genseq.molgen.mpg.de/ssRNA/
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Примеры пересекающихся генов
YOR163W и YOR164C
Ncaph2 и Ecgf1
Mrpl24 и BC023814
YJR086W, YJR087W и YJR088C
Слева – дрожжевые примеры, справа – мышиные.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Новые гены
дрожжи: новый ген между YNR066C и YNR067C
мышь: новый и неправильно анотированный
экзоны Cdc42bpa гена
мышь: новый экзон Chd3 гена
мышь: новый ген-кандидат
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Анализ структуры (сплайсинга)
на сегодня нет стандартных методов
• детектируем, а не измеряем
• для сильно-экспрессирующихся генов
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• анализ ограниченного числа генов «вручную»
для анализа используется
• выравнивание на in silico базе splice-junctions
• PE-сиквенс: узкий диапазон, низкий выход, двойная
очистка в геле
• разница в представленности экзонов (очень ненадежные
данные, так как вариабельность покрытия при RNA-Seq
существенно выше, чем при ресиквенсе)
Все эти способу не требуют длинных сиквенсов. Длинные
сиквенсы могут понадобится для поиска новых,
неохарактеризованных splice-junctions
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Сплайсинг
EIF4G1 ген на 3-ей хромосоме в двух линиях клеток. HEK (вверху) и B
клетки (внизу), зелёные прямоугольники: 33 известных экзона гена, красная
гистограмма: число ридов в на данном фрагменте, голубые линии - splice
junctions (ширина пропорциональна числу ридов).
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Удаление рибосомной RNA
oligo(dT)
• преимущественная очистка 3′ областей
• один цикл очистки: mRNA≈rRNA
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
Ribo-minus (Invitrogen)
• удаляются 18S, 28S, 5.8S, and 5S rRNA
• если сравнивать с oligo(dT): нет преимущественной очистки 3′
областей, гораздо дороже, экспрессионный профиль практически
тот же
Terminator™ 5'-Phosphate-Dependent Exonuclease
(Epicentre)
• удаляются 18S и 28S rRNA
нормализация
уменьшается содержание всех распространенных типов RNA
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Выбор платформы
• не рассматривается 454, так как в ~200 раз дороже
• из предположения, что обе есть, а не «какую купить»
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
параметр
Illumina
производительность,
перспективы,
приготовление библиотек
SOLiD
≈
цена
сиквенс на SOLiD примерно вдвое дешевле
качество
• если проводится выравнивание относительно
референсного генома, то качество выше у SOLiD
• для de novo сборки качество выше у Illumina
размер вставки
<600bp
длина сиквенса
SR: до 150nt
PE: до 150 и 150nt
параллелизация
• лучше у Illumina: как по умолчанию, так и для barcoding
• SOLiD: 4 поля – 25% потерь площади; 8 полей – 33%
удобство системы
Illumina немного удобнее и заметно безопаснее в смысле
загрязнения старой библиотекой
оптимизация сиквенса и
использование
нестандартных библиотек
Illumina существенно удобнее: легкое
перепрограммирование машины, простой переход на новые
сиквенсовые праймеры
<300bp
SR: до 75nt
PE: до 75 и 25nt
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Wet-протоколы
лигирование 5′
и 3′ адаптеров
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• сложнее и капризнее
• RNA любой длины
• точнее аннотация
RNA
дробление
синтез cDNA
синтез cDNA
дробление
• проще и надежнее
• только сравнительно длинные транскрипты (реальные
проблемы только для микро RNA)
• химическое расщепление (быстрее и удобнее, чем
ультразвук); чувствительно к rRNA загрязнению, два
цикла очистки
• распределение фрагментов существенно
равномернее
• 3′-bias при использовании
oligo(dT) праймера*
• способ устойчив к rRNA
загрязнению, достаточно одного
цикла очистки
• дробление: ультразвук**;
устойчиво к переозвучиванию
• протоколы не выявляющие направление транскрипции устарели
• важно, чтобы все было как можно более одинаковым: протокол, способ щепления,
длина фрагментов и т.п.
• для специальных задач – специальные библиотеки (например, уточнение аннотации
генов)
* само по себе это ни хорошо и ни плохо
** не надо пользоваться Nebulizer; нет денег на Covaris, можно сделать систему за ~3k$
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
dUTP протокол - ориентация
polyA mRNA
Oligo(dT) and
random hexamer
primed
first-strand cDNA
synthesis
Second-strand
synthesis with dUTP
cDNA fragmentation
A
RNA fragmentation
Random hexamer
primed
first-strand cDNA
synthesis
B
Second-strand
synthesis with dUTP
Adapters ligation,
size selection
UNG treatment,
preamplification
Illumina sequencing
Полезность информации о направлении
транскрипции. 5’ область дрожжевого гена
YGR203W пересекается с 5’ областью
неанотированного гена. A: mapping без
ориентации; B: ssRNA-Seq.
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
На сегодняшний день
Очень разная представленность разных генов
• чем выше уровень экспрессии, тем подробнее и качественнее
анализ
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• анализ гетерогенных систем
Анализ структуры откровенно слаб: сейчас, скорее детекция,
чем количественный анализ
Нет корпоративных стандартов
• нет общепринятых алгоритмов анализа
• используются разные wet-протоколы и разные платформы
• не проблема для попарного анализа
Низкая производительность: хорошую библиотеку делать долго
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
На ближайшее время
NB! не рассматривается «естественное улучшение»:
длиннее риды, нормализация, надежнее анализ и т.п.
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
• цена будет падать по-прежнему быстро
• быстрый анализ на сиквенаторах третьего поколения
• биологические базы знаний (модельные организмы,
модельные ткани)
- сплайс-варианты
- уровень и вариабельность экспрессии
• клинические диагностические базы знаний
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Участники
проф. Ханс Лерах
зачем?
•
возможности
•
метод
•
сравнение
•
подробности
•
проблемы
•
перспективы
Дмитрий Пархомчук, кбн - биоинформатика
Татьяна Бородина, кбн
Мария Банару, аспирант
Алексей Давыдов, аспирант
RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А.Солдатов, MPI for Molecular Genetics, Berlin
Download