Возрастные изменения сплайсинга генов в мозге приматов М.С.Гельфанд Институт проблем передачи информации им. А.А.Харкевича РАН РНЦХ РАМН 29.III.2013 Brave New World Методы (и чего от них ждать) • Roche, 454 (2004) – – – – До 400-500 нт (парные) Плохое разрешение polyN 100 мегабаз за проход (обещано 500) Дорого ($1000 за мегабазу) • Solexa/Illumina, GA II (2005) (уже есть HiSeq) – 75 (в обзоре 35, обещано 100) нт (парные) – 50 млн. фрагментов за проход (до 3 гигабаз), 4 дня – $500 за мегабазу (?? – сейчас явно меньше, ~30 тыс за проход) • Applied Biosystems, Solid 2.0 (2007) – 35 нт, одииночные – 3-10 гигабаз за проход, 5-9 дней – $10 за мегабазу • Helicos (2009). Single molecule (no amplification) – – – – Доллар за мегабазу 23 нт (кажется, уже 35). Делеции в polyN Миллионы молекул, большие гигабазы Типичные задачи • Секвенирование de novo – Инфекционные болезни, метагеномика • Пересеквенирование геномов – Медицинская генетика, предрасположенности – Секвенирование опухолей, driver mutations, сигнальные пути • Секвенирование транскриптомов, анализ экспрессии – Классификация измерений (например, дифференциальная диагностика) – Выбор генов, дифференциально экспрессирующихся в двух классах (до/после, рак/норма, диагностика) – Поиск групп совместно регулируемых генов, временные ряды. • RNA-Seq – методы и проблемы • Возрастные изменения сплайсинга в мозге человека • Возрастные изменения сплайсинга в мозге человека, шимпанзе и макаки Данные • «риды» - короткие (<100нт) фрагменты транскриптов • «парные риды» - концы фрагментов примерно известной длины (скажем, ~1000нт) Illumina распределение ошибок по ридам Картирование. Профиль покрытия Biases inherent in NGS technology Biases inherent in NGS technology Sequencing errors at 3'-end of reads Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Biases inherent in NGS technology Sequencing errors at 3'-end of reads G -> T and A -> C errors CG-rich regions are higher covered Biases inherent in NGS technology Sequencing errors at 3'-end of reads G -> T and A -> C errors CG-rich regions are higher covered Sequences preceding errors are G-rich Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered PCR biases Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Mappability bias PCR biases Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Mappability bias PCR biases Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Higher coverage of the 3'-end Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Mappability bias PCR biases Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Higher coverage of the 3'-end Contamination by under-spliced RNAs Biases inherent in NGS technology Sequencing errors at 3'-end of reads CG-rich regions are higher covered Mappability bias PCR biases Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Higher coverage of the 3'-end Contamination by under-spliced RNAs Influence of RNA secondary structure Biases inherent in NGS technology Sequencing errors at 3'-end of reads PCR biases CG-rich regions are higher covered Coverage non-uniformity across transcripts Sequences preceding errors are G-rich G -> T and A -> C errors Nucleotide content bias across the read Higher coverage of the 3'-end Mappability bias Contamination by under-spliced RNAs Influence of RNA secondary structure Given a broad variety of modern sequencing protocols, platforms and versions thereof, with protocol- and platform-specific biases, to what extent are the obtained sequence data consistent across platforms and labs? Data mRNA Genome Illumina 46 exp. 61 exp. SOLiD 3 exp. 7 exp. 117 (all) publicly available experiments in SRA (October 10, 2010) 26 labs all over the world. For each experiment, a subset of ~1.5G bases was selected. Methods • Mapping to the reference human genome (hg19) with bowtie: <26 bp – 1 mismatch 26-50 bp – 2 mismatches >50 bp – 3 mismatches Illumina – base space SOLiD – color space • Per-nucleotide gene coverage profiles • Single-exon genes • Average Pearson correlation coefficients Clustering of experiments Clustering of experiments Illumina RNA DNA SOLiD Illumina DNA RNA SOLiD Clustering of experiments Illumina RNA DNA SOLiD Illumina DNA RNA SOLiD Clustering of experiments Correlation of gene coverage profiles • Within the same lab • R = 0.46 ± 0.14 Between different labs R = 0.27 ± 0.10 неравномерность покрытия Clustering after normalization for 3' bias Альтернативный сплайсинг DNA transcription premRNA Splicing and processing AAA mRNA Translation Protein AAA Elementary alternatives Cassette exon Alternative donor site Alternative acceptor site Retained intron Определение экзон-интронной структуры • картированием на известные гены (в т.ч. всевозможные пары экзонов) – при этом не находятся новые экзоны • de novo – стопки ридов – потенциальные экзоны – риды, картирующиеся в разные стопки => потенциальные пары экзон-экзон => границы экзонов + интроны хорошее соответствие экзонов и покрытых участков ненулевое покрытие интронов, провалы в экзонах ненулевое покрытие интронов – сравнимо с экзонами • RNA-Seq – методы и проблемы • Возрастные изменения сплайсинга в мозге человека • Возрастные изменения сплайсинга в мозге человека, шимпанзе и макаки Возрастные изменения сплайсинга в мозге человека по 6 смешанных образцов (по 5 индивидуальных в каждом) 13 индивидуальных образцов Данные • • • • • 181 555 729 read pairs for Dataset 1 274 927 771 reads for Dataset 2 average sample coverage of 18 million reads 64% mapped reads (up to 3 mismatches) 93% mapped reads within gene boundaries – 85% within exons – 25% on the splice junctions • genes with sufficient coverage – 9 929 in Dataset 1 – 8 617 in Dataset 2 • splice junctions – 200 464 annotated – 21,644 novel Значимые изменения • inclusion ratio (IR) – e = риды, поддерживающие экзон • junctions • внутренние – i = риды (junctions), поддерживающие интрон inclusion ratio= i (l (exon)+ l (read )− 1) i e + (l (exon)+ l (read )− 1) (l ( read )− 1) • логистическая регрессионная модель k at IR = logit intercept + Fa a + Ft t nat k at 2 = logit intercept+ F t + F +F t ln a + F +F t ln a IR t a t:a a2 t:a2 nat • SVI (splicing variation index) = IRmax – IRmin / Irmax • множественное тестирование: Benjamini–Hochberg correction, q-value ≤ 0.05 logit=exp/(1+exp) до 40% генов меняют сплайсинг с возрастом IR самосогласованы sig.12 sig.1 sig.2 not sig. Корреляция между данными из первого и второго набора Корреляция между префронтальной корой и мозжечком Контроль: ПЦР Paralemin Tau Из 35 протестированных примеров, для 27 (79%) результаты ПЦР согласуются с RNAseq HIPK2 IR согласованы с qPCR IR согласованы с белками (mass spec) Распределения коэффициента корреляции между частотами включения вычисленными, основываясь на данных RNAseq и mass-spec Интересные гены с значимыми изменениями на уровне транскриптома и протеома • • • • • • MART (Wang and Liu 2008) DBN1 (Shim and Lubec 2002) paralemmin (Kutzleb et al. 1998) RTN2 (Roebroek et al. 1998) SRCIN1 (Di Stefano et al. 2004) BIN1 (WechslerReya et al. 1997) Splicing patterns from unsupervised clustering of IR profiles Паттерны изменения IR с возрастом Типы возрастные паттернов и типы АС Типы возрастные паттернов и NMD 20% генов, меняющих сплайсинг с возрастом, имеют различные паттерны изменений в разных областях мозга Protocadherin gamma cluster Overrepresented GO terms • • • • • • • • • • Neuronal differentiation Axon guidance Neurogenesis Response to unfolded proteins Cellular macromolecular complex assembly Cell morphogenesis involved in neuron differentiation Muscle contraction Neuron projection development Coated pit Structural molecule activity При старении больше включаются менее консервативные сегменты Down Flat Up Up < down, p-value = 0.0002 Flat < down, p-value = 0.06 1398 300 899 • RNA-Seq – методы и проблемы • Возрастные изменения сплайсинга в мозге человека • Возрастные изменения сплайсинга в мозге человека, шимпанзе и макаки Differences among species | splicing | experiment Gene assembling Human 1. LiftOver of splicing sites Chimp Rhesus ok! ok! ok! 2. Expressed segment: region between two neighboring sites with sufficient coverage coverage less than 1 bad gap > 5nt bad ok! good Gene 1 Gene 2 3. Gene assembling alternative segments intron retention constitutive introns constitutive exons Значимые изменения • inclusion ratio (IR) – i = риды (junctions), поддерживающие интрон – e = риды, поддерживающие экзон • junctions • внутренние i (l (exon)+ l (read )− 1) inclusion ratio= i e + (l (exon)+ l (read )− 1) (l ( read )− 1) • Биномиальная регрессионная модель IR ~ species + tissue + age + species:age IR ~ species + age + age2 + species:age + species:age2 (age = sqrtsqrt “real age”) • SVI (splicing variation index) = IRmax – IRmin / IRmax Differences among species | splicing | verification human-chimpanzee human-macaque Sanity check: PCA, Splicing vs Gene expression Differences among species | splicing | result Significant exons Not significant exons 20% of genes changes splicing with age Correction of age by lifespan Correction of age by lifespan Correction of age by lifespan Example 1. spermidine/spermine N1acetyltransferase family member 2 Human Chimp Rhesus Example 2. small nucleolar RNA host gene 11 Human Chimp Rhesus Example 3. adaptor-related protein complex 1, gamma 2 subunit Human Chimp Rhesus «Человеко-специфичный» возрастной паттерн у удержанных интронов Удержанные интроны - последние Человеко-специфичные удержанные интроны более консервативны template • text