Математическая обработка результатов биологических

advertisement
Информационные технологии в
биологических исследованиях
Раздел 3: «Информационные технологии и
математическая обработка результатов
биологического эксперимента»
Лекция 1: «Особенности экспериментальных
данных в биологии»
«Информационные технологии и
математическая обработка результатов
биологического эксперимента»
Наука – совокупность знаний о какой-то части
явлений природы или общества
Природа вокруг нас, а знания – у нас в голове
Естественные науки изучают «различные формы
движения материи»:
от простейших и наиболее общих (физика)
до жизни во всех ее проявлениях (биология)
Материальные объекты вокруг нас представляют
собой системы – совокупность элементов,
связанных между собой и представляющих некую
целостность
Биологические, живые системы – самые сложные
Информация о системе и ее элементах, которую
мы получаем путем наблюдений или
экспериментов – это и есть данные, которые
могут быть качественными либо
количественными.
Характер данных зависит от системы, к которой
они относятся. Более простые физические и
химические системы поставляют данные,
однозначно характеризующие свойства систем и
не меняющиеся от объекта к объекту.
.
Данные, полученные на молекулярном
уровне не требуют обязательной
статистической обработки
С возрастанием сложности системы при
переходе к организму проявляется
изменчивость
Начиная от клеточного
уровня и выше
статистический анализ и
обработка обязательны
Геном – это не жесткая программа, а база
данных, откуда программы берутся по
мере необходимости
На параметры
организма
существенно влияют
условия реализации
программ
Оптическая спектроскопия
Влияние полярности растворителя на спектр
тирозина.
Растворители: вода (сплошная линия) и 20%ный этиленгликоль (штриховая линия).
Видно возрастание макс в менее полярном
растворителе
Рентген-структурный анализ. Длина волны – 0,2 – 2 нм
Дифракционная
картина, которая
содержит
информацию о
распределении
электронной
плотности в
кристалле
Хроматография
Электрофорез
Вещества детектируются по
времени удержания, которое
зависит от физико-химических
свойств молекул, определяющих их
адсорбцию
Электрофоретическая подвижность
молекул белка или нуклеиновых
кислот обратно пропорциональна их
молекулярной массе.
Позволяет определить молекулярную
массу белка или ДНК. В сочетании с
иммунохимическими методами
(блоттинг) способен обнаруживать
нанограммы вещества)
Примеры биоинформационных алгоритмов и
онлайн-приложений
BLAST - Basic Local Alignment Search Tool — набор алгоритмов
для поиска гомологов белков или генов, для которых
полностью или частично известна первичная
последовательность
Самый часто используемый алгоритм в биологии. BLASTing важнейший подход для современных биологов
При помощи BLAST можно произвести сравнение имеющейся
последовательности с последовательностями из базы данных
и найти схожие или удаленные белки/гены
Основные программы BLAST:
1. Нуклеотидные
предназначен для сравнения нуклеотидной
последовательности с последовательностями
секвенированных полинуклеотидов:
blastn — медленное наиболее эффективное сравнение с целью
поиска всех сходных последовательностей
megablast — быстрое сравнение для поиска близких
последовательностей
dmegablast — быстрое сравнение с целью поиска
дивергировавших последовательностей, обладающих
незначительным сходством
2. Белковые
предназначен для сравнения аминокислотной последовательности белка с последовательностями из баз данных белков и их
фрагментов, доменов и трехмерных структур.
blastp — медленное высокоэффективное сравнение с целью
поиска всех сходных последовательностей
cdart — сравнение с целью поиска гомологичных белков по
доменной архитектуре
rpsblast — сравнение с базой данных консервативных доменов
psi-blast — сравнение с целью поиска последовательностей,
обладающих незначительным сходством
phi-blast — поиск белков, содержащих определённый
пользователем паттерн
3. Транслирующие
Транслируют нуклеотидные последовательности в
аминокислотные
blastx — переводит нуклеотидную последовательность в
аминокислотную и сравнивает последнюю с имеющимися в
базе данных аминокислотными последовательностей белков
tblastn — аминокислотная последовательность сравнивается с
транслированными последовательностями базы данных
полинуклеотидов
tblastx — переводит изучаемую нуклеотидную
последовательность в аминокислотную, а затем сравнивает её с
транслированными последовательностями базы данных
секвенированных нуклеиновых кислот.
4. Геномные
предназначены для сравнения изучаемой нуклеотидной
последовательности с базой данных секвенированного
генома какого-либо организма (арабидопсиса, человека, и
др.)
5. Специальные
прикладные программы, использующие BLAST:
bl2seq — сопоставление двух последовательностей по
принципу локальных выравниваний
VecScreen — определение сегментов нуклеотидной
последовательности нуклеиновой кислоты, которые могут
иметь векторное происхождение
Принципы работы BLAST
- Все выравнивания принято делить на глобальные (последовательности
сравниваются полностью) и локальные (сравниваются только
определённые участки последовательностей).
- BLAST производит локальные выравнивания, что связано с наличием в
различных белках сходных доменов и паттернов. Кроме этого локальное
выравнивание позволяет сравнить иРНК с геномной ДНК. В случае
глобального выравнивания обнаруживается меньшее сходство
последовательностей, особенно их доменов и паттернов.
- После введения изучаемой нуклеотидной или аминокислотной
последовательности (запрос) на одну из веб-страниц BLAST, она вместе с
другой входной информацией (база данных, размера «слова» (участка),
значение величины E и др.) поступает на сервер. BLAST создаёт таблицу
всех «слов» (в белке — это участок последовательностей, который по
умолчанию состоит из трёх аминокислот, а для нуклеиновых кислот из 11
нуклеотидов) и сходных «слов».
Принципы работы BLAST
Затем в базе данных проводится их поиск. Когда обнаруживается
соответствие, то делается попытка продлить размеры «слова» (до 4 и более
аминокислот и 12 и более нуклеотидов) сначала без гэпов (пробелов), а
затем с их использованием. После максимального продления размеров всех
возможных «слов» изучаемой последовательности, определяются
выравнивания с максимальным количеством совпадений для каждой пары
запрос — последовательность базы данных, и полученная информация
фиксируется в структуре SeqAlign.
Форматер, расположенный на сервере BLAST, использует информацию из
SeqAlign и представляет её различными способами (традиционным,
графическим, в виде таблицы).
Для каждой обнаруженной в базе данных программами BLAST
последовательности необходимо определить, насколько она сходна с
изучаемой последовательностью (запрос) и значимо ли это сходство. Для
этого BLAST вычисляет число битов и величину Е (ожидаемое значение,
expected value) для каждой пары последовательностей.
По известной первичной последовательности
аминокислот можно построить пространственную
структуру белков
Как известно, уравнение Шредингера — «плоть и кровь»
квантовых физики и химии — наиболее точный
на сегодняшний день способ описать строение и динамику
молекул. Однако точное (аналитическое) решение возможно
получить лишь для крайне простых систем — например, атома
гелия. Во всех более сложных случаях прибегают
к численному решению приближений этого уравнения — так
называемым полуэмпирическим методам квантовой химии.
Элементарная ячейка структуры белка
Представление молекулы с
точки зрения молекулярной
механики. Здесь параметры
молекулы описываются не
уравнением Шрёдингера, а
суммой «классических»
взаимодействий, самое
сложное из которых —
формула для упругости,
описывающая колебание
пружинки. (На рисунке
схематично показаны лишь три
таких слагаемых: валентная
связь, валентный угол и
торсионный угол.)
Калиевый канал (бактериальный)
Известно, что необходимая для
сворачивания белка (фолдинга)
информация заключена
в линейной
последовательности
аминокислот пептидной
цепочки, и что никакой
дополнительной генетической
информации, большей, чем та,
которая заключена в ДНК,
не требуется
Однако физико-химические аспекты этого сложнейшего процесса,
называемого также фолдингом белка, остаются до сих пор
понятыми лишь приблизительно.
Метод молекулярной динамики
Второй закон Ньютона – произведение массы на
ускорение равно силе
В основе метода
молекулярной
динамики лежит
численное решение
уравнений Ньютона для
набора атомов.
Метод молекулярной динамики
Рассчитаные процессы
инактивации (2 – 4) и
активации (5 – 1)
потенциалзависимого
калиевого канала
Слабые сигналы
Люминесцентные зонды:
GFP, рН-чувствительные, потенциал-чувствительные
Хемилюминесценция:
Экварин – кальций-чувствительный белок
А
Б
-1
1.2
0.8
1.0
0.8
0.6
Толстая линия
внизу - шум
2+
0.6
[Ca ]cyt, мкмоль*л
1.0
2+
[Ca ]cyt, мкмоль*л
-1
1.2
0.4
0.4
0.2
0.2
0.0
0.0
Хемилюминометрическая регистрация уровня [Ca2+]цит в цитоплазме
клеток трансгенных корней Arabidopsis.
Электрофизиологическая регистрация одиночных
ионных каналов
к
Одна
ступенька тока
– включение
одного канала
Величина
ступеньки –
проводимость
канала
Шум – случайный процесс, и
усреднение (многократное
повторение регистраций)
уменьшает шум, в то время
как сигнал остается
неизменным.
Отношение сигнал/шум
(и точность измерений)
существенно возрастают
Электроэнцефалограмма
в ответ на стимул (стрелка)
Усреднение по 2, 16 и 64
регистрациям
Системная биология (systems biology)
Системная биология — активно развивающаяся
междисциплинарная область науки, которая анализирует сложные
биологические системы с учетом их многокомпонентности, наличия
прямых и обратных связей, а также разнородности и большого
количества экспериментальных данных. Предметом исследований в
этой области может являться система регуляции генов, метаболизм,
а также клеточная динамика и взаимодействия в клеточной
популяции
(Биохимик может определить ферменты и продукты цикла Кребса,
но рассчитать динамику изменения их концентрации может только
системный биолог.)
Важнейшим принципом для системной биологии является
«холизм», который должен заменить «редукционизм».
Холистический подход
предполагает, что свойства сложной многокомпонентной
к
системы невозможно представить как сумму свойств ее
отдельных комнонент. Например, физиологические
функции организма «не обнаружимы» при рассмотрении его
отдельных клеток.
Системная биология (systems biology)
Редукционистский подход предполагает, что свойства
сложной многокомпонентной системы можно получить только
при рассмотрении ее отдельных
Декарт утверждал, что
комнонентов.
животные могут быть
Например,
«объяснены» как совокупность
работы отдельных автоматов
физиологические
— De homine, 1662.
функции организма
станут понятны
только при детальном
знании его
отдельных клеток.
Системная биология (systems biology)
Основная задача системной биологии, которая не
пересекается с биоинформатикой это – моделирование
свойств динамических биосистем с дискретным
(имеющим рамки) и непрерывным временем (большая
часть био-систем).
В целом биологические системы неравновесны (открыты, они
постоянно обмениваются со средой энергией и веществом) и
нелинейны (изменения их состояния не полностью
определяется предшествующим).
Поэтому для них используются специальные методы анализа
и описания (нелинейная динамика).
Смежные дисциплины (и их объекты), из которых,
главным образом, берутся и анализируются данные
в биоинформатике и системной биологии:
- Феномика: вариации в фенотипе и ее изменение в течение жизненного
цикла.
- Геномика: ДНК последовательности организмов или клеток. Аннотация,
картирование и анализ генов, экзонов (кодир.) и интронов (некодир.),
других участков.
- Эпигеномика / Эпигенетика: транскриптомная регуляция,
некодирующиеся геномом, например, ДНК метилирование или
ацетилирование гистонов.
- Транскриптомика: измерение изменения экспрессии отдельных генов
при помощи «DNA microarrays» (ДНК-чипов).
- Интерферомика: знание о механизмах и многообразии систем
«корректировки» транскриптов, например, РНК-интерференция.
Смежные дисциплины (и их объекты), из которых,
главным образом, берутся и анализируются данные
в биоинформатике и системной биологии:
- Протеомика (транслятомика – более редкое название): измерения
белков и пептидов при помощи двух-мерного гель-электрофореза в
комбинации с масс-спектрометрией, HPLC и других детекторов.
Подразделяется на фосфопротеомикс, гликопротеомикс, мембранный и
эндомембранный протемикс и др. типы.
- Метаболомика: измерение соотношения, разнообразия и
распределения, а также связи с функциями организма небольших молекул
(т.н. метаболитов), не относящихся к биополимерам.
- Гликомика: измерение соотношения, разнообразия и распределения, а
также связи с функциями организма углеводов.
Смежные дисциплины (и их объекты), из которых,
главным образом, берутся и анализируются данные
в биоинформатике и системной биологии:
- Липидомика: измерение соотношения, разнообразия и распределения,
а также связи с функциями организма липидов.
- Интерактомика: измерение и анализ взаимодействий между
молекулами, химических реакций. Например, белок-белковые
взаимодействия.
- Нейроэлектродинамика: анализ организация и функция нейронов как
динамической системы, способной обрабатывать информацию при
помощи электрических сигналов.
- Иономика и флаксомика: области, изучающие активности и
распределение ионов и их потоков, соответственно.
- Биомика: системный анализ биома (проявлений жизни – явлений
присущих только живым системам).
Развитие системной биологии:
Организационная и теория и теория систем
Богданова – как не странно беларуский ученый и
революционер из Гродно - Александр Малиновский
(псевдоним Богданов – один из создателей и лидеров
РСДРП, совместно с Лениным). Выдающийся философ,
написавший несколько больших трудов о Тектологии,
введенной им науки, раскрывающий единый принцип
устройства, организации и управления биологических и
небиологических систем. Именно он ввел понятия
открытости биологической системы, её
саморегуляции, самоорганизации,
«самоусложнения», возможности
убывания энтропии, благодаря которым многие
такие системы обладают холистическими свойствами.
Малиновский/Богданов - признанный создатель основ
системной биологии, биоинформатики и кибернетики.
Карл Людвиг фон Берталанфи – основной
популяризатор теории систем в США. Главным образом,
заимствовал и развивал идеи в математике систем. Широко
известен как «отец» общей теории систем.
На новом витке обосновал, что термодинамические
классические законы (сохранения энергии и массы и
возрастания энтропии) «не работают» при рассмотрении
биологических систем.
Открытые системы по Берталанфи – могут принимать больше энергии, чем
отдавать. Они усовершенствуют себя сами, по заложенному в них принципу
организации, саморегуляции и самоуправления. В случае биологии – на
основе генетического кода и его реализации (фенома) в пределах,
задаваемых данными условиями существования.
Этапы развития системной биологии:
Модель биологического роста Берталанфи
Самое простое дифференциальное уравнение (уравнение для описания
динамических процессов – подставляются известные параметры и их соотношения, т.е.
коэффициенты, что позволяет найти неизвестные интересующие нас параметры, а
также построить график и по нему установить неизвестные параметры).
Уравнение изменения длины (любых размеров) со временем:
L – длина, t – время
rB – скорость роста по Бертфаланфи Loo – предельная длина организма.
Дополнительные коэффициенты (не указаны выше) – доступности пищи,
уровня метаболизма, фазы онтогенеза и т.п.. Они помогуют более точно
рассчитать изменение роста во времени. Модель используется и сейчас.
Одна из первых моделей, в которой решалась задача физиологии, была
модель распротранения нервного импульса (потенциала действия),
созданна А. Ходжкиным и Э. Хаксли для аксона кальмара (1952 г.)
В 1960 Денис Нобл создал первую модель клеток-пейсмейкеров в сердце –
математическую модель сердечного ритма.
Официальное признание современной Системной биологии как отдельной
науки относят к международному симпозиуму, проходившему в Кливленде
в 1966 г., под названием "Systems Theory and Biology» - Системная теория
и биология.
В 1960-70 годах развивались первые метаболические модели – модели
сетей ферментов и их активности. Появились теории Метаболического
контроля, обратной негативной и позитивной связи для регуляции,
появились первые доступные рассчетные модели для структур белка.
1980-е годы: во время бурного развития молекулярной биологии о
моделировании забыли, тем более, что у биологов развился скептициз к
всемогуществу математики и физики Компьютеры были маломощные и не
позволяли производить необходимые биологам рассчеты.
С начала 90-х годов, так называемой эры геномики, когда появились
первые огромные массивы нуклеотидных и аминокислотных
последовательностей, потребности в их анализе привели к новому бурному
витку развития системной биологии.
Прорыв в быстродействии и доступности компьютерных технологий (19902000 гг.) вылился в привлечении всё большего числа программистов,
математиков и физиков-теоретиков в биологию.
После 2000 появились -омиксы – семейство наук, создавших
необходимость обработки огромных массивов биологических данных.
National Science Foundation (NSF) – своего рода фонд
фундаментальных исследований США
среди задач биологии 21-го века поставил и
серьезный вызов для системной биологии –
построение модели функционирования целой
клетки. Эта задача уже в какой-то степени решена
Karr J.R., Sanghvi
J.C., Macklin D.N.,
Gutschow M.V.,
Jacobs J.M., Bolival
B., Assad-Garcia N.,
Glass J.I., Covert
M.W. (2012).
A Whole-Cell
Computational Model
Predicts Phenotype
from Genotype.
Cell 150, 389–401;
Модель клетки Mycoplasma genitalium как целого, которая состоит из
28 субмоделей различных клеточных процессов. Субмодели
сгруппированы по категориям: ДНК, РНК, белки и метаболизм.
Субмодели связаны друг с другом через общие метаболиты, РНК,
белки и хромосомальную ДНК, что показано стрелками
соответствующих цветов.
Download