Власьев ПРОЕКТИРОВАНИЕ ДАННЫХ И.М., Туральчук К.А.

advertisement
Власьев И.М., Туральчук К.А. ©
Магистрант, СПбГПУ, ИИТУ, СПб
ПРОЕКТИРОВАНИЕ ВЕБ-СЕРВИСА АНАЛИЗА И ВИЗУАЛИЗАЦИИ ГЕНОМНЫХ
ДАННЫХ
Аннотация
В экспериментальный молекулярной биологии методы биоинформатики позволяют
получать полезные результаты из большого количества исходных данных. В этой статье
описывается веб-интерфейс, который использует методы биоинформатики и позволяет
анализировать и визуализировать данные, полученные из открытых источников.
Ключевые слова: data-mining, биоинформатика, веб-сервис, геном, микрочипы, анализ
данных.
Keywords: data-mining, bioinformatics, web-service, genome, microarrays, data analyses.
В экспериментальный молекулярной биологии методы биоинформатики позволяют
получать полезные результаты из большого количества исходных данных. В области генетики и
геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и
наблюдаемых мутаций. Ранее ученые классифицировали различные типы рака основываясь
лишь на том, какой орган был поражен. С помощью анализа геномных данных станет
возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит
разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. В
лабораторных исследованиях методы количественного анализа экспрессии генов находят
применение в ряде опытов, связанных с изучением экспрессий различных генов. В
экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в
большинстве своем обнаруживаются изменения в профилях экспрессии генов. Результаты
подобных исследований проливают свет на механизмы клеточного ответа на изменения
окружающей среды.
Транскрипция — процесс синтеза РНК с использованием ДНК в качестве матрицы,
происходящий во всех живых клетках. Другими словами, это перенос генетической
информации с ДНК на РНК.
Транскрипт — молекула РНК, образующаяся в результате транскрипции (экспрессии
соответствующего гена или участка ДНК).
Транскриптом — совокупность всех транскриптов, синтезируемых одной клеткой или
группой клеток, включая мРНК и некодирующие РНК. Понятие «транскриптом» может
обозначать полный набор транскриптов в данном организме или специфический набор
транскриптов (молекул РНК), представленный в клетках определенного типа.[1]
Наиболее распространенные методы изучения транскриптома — секвенирование РНК и
ДНК-микрочипы.
Количественный анализ экспрессии генов — анализ транскриптома, измерение
транскрипционной активности гена, с помощью определения количества его продукта,
матричной РНК (мРНК), универсальной для большей части генов.
Поскольку
полные
последовательности
генома
стали
доступны,
термин
"биоинформатика" был переоткрыт и обозначал создание и техническое обслуживания баз
данных для хранения биологической информации, такой как последовательности нуклеотидов.
Создание таких баз данных включало в себя не только вопросы оформления, но и создание
комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и
добавлять новые.
©
Власьев И.М., Туральчук К.А., 2015 г.
Примером применения компьютерного анализа последовательностей является
автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды
в геноме используются для задания последовательностей белков. Например, в геномах высших
организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль
неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является
важной задачей современной биоинформатики.
В контексте геномики аннотация — процесс маркировки генов и других объектов в
последовательности ДНК. Первая программная система аннотации геномов была создана в 1995
году Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый
декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор
Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые
обозначения функций этих генов[2]. Большинство современных систем работают сходным
образом, но эти программы постоянно развиваются и улучшаются.
В настоящее время наиболее эффективным методом определения биологической
функции гена является поиск одинаковых последовательностей в базах данных нуклеотидных
последовательностей
ДНК[3].
Распараллеливание
вычислений
и
использование
суперкомпьютеров для решения подобного рода задач позволит не только в сотни раз повысить
скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа
гомологичных последовательностей, обычным делом.
Все эти задачи биоинформатики предъявляют высокие требования к быстродействию и
объему памяти используемых вычислительных средств, еще более возрастающие в связи с
завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни
миллионов нуклеотидов.
Для обработки, анализа и интерпретации данных в биоинформатике используют
технологию Data Mining. Применяются различные методы интеллектуального анализа данных,
такие как деревья решений, метод k ближайших соседей, генные алгоритмы, нейронные сети и
т.д.
Существующие системы аннотации геномных данных имеют ряд недостатков.
Большинство подобных систем позволяют собирать данные из открытых источников, но
исследователь не всегда может быть уверен в том, что он получит всю информацию о
запрашиваемом объекте (набор полей, как правило, определён). Также системы, такие как
Orange Bioinformatics, используют для обработки данных только мощность локальной системы,
что затрудняет работу для исследователей, не имеющих в распоряжении большой
вычислительной мощности. Отсутствует возможность модификации существующих критериев
классификации данных, нельзя подгрузить функционал собственных методов анализа (или же
подобный процесс слишком затруднителен). Таким образом существует потребность в гибком
облачном сервисе анализа и визуализации геномных данных.
Работа направлена на проектирование и создание веб-сервиса анализа и визуализации
геномных данных. Проект сервиса представляет из себя пользовательский веб-интерфейс для
работы с данными и инструментами. Также планируется спроектировать и разработать модуль
загрузки собственных данных, модуль загрузки собственного функционала, модуль облачных
вычислений, набор инструментов анализа данных, модуль для работы с данными из открытых
источников.
Веб-интерфейс представляет из себя веб-сайт, на котором расположены элементы
управления сервисом. Пользователь сможет получить данные из открытых баз, таких как NCBI,
DDBJ, GEO, либо загрузить собственные. Сбор и анализ данных предполагается осуществлять с
помощью методов Data Mining (деревья решения, метод k ближайших соседей, иерархическая
кластеризация и т.д.). Далее пользователь сможет оперировать полученными результатами,
например выбрать нужный набор генов, составить тепловую карту, собрать общую статистику
и т.п., в зависимости от преследуемой цели.
Также пользователь должен иметь возможность подгрузить собственный инструмент
или модифицировать существующий критерий, если это необходимо для исследования. Для
реализации веб-интерфейса планируется использовать PHP и Java. Вычисления будут
производиться в программе на C#, которая будет использовать ресурсы облачных серверов,
таким образом не нагружая компьютер пользователя. На рис.1 представлен примерный
внешний вид веб-интерфейса.
Рис.1. Веб-интерфейс
Теплокарта — это графическое представление данных, где дополнительные
переменные отображаются при помощи цвета.
Подобные
системы
иерархичной
кодировки
цветов
используются
в
изображениях фракталов и других системах представления данных. Термином «теплокарта» так
же иногда называют картограммы.
Биологические тепловые карты обычно используются в молекулярной биологии и
медицине для представления данных по экспрессии множества генов в различных образцах,
полученных, например, от разных пациентов или в разных условиях от одного пациента.
Обычно организована в виде таблицы, в которой цвет квадрата показывает уровень экспрессии,
а столбцы и строки различные гены или образцы, иерархическая организация которых может
быть изображена в виде дерева на полях таблицы. Пример тепловой карты на рис. 2.
Рис.2. Теплокарта, порожденная из микрочиповых данных, отражающих уровни экспрессии генов
в некоторых условиях
Литература
1.
2.
3.
Альбертс Б., Брей Д., Льюис Дж., Рэфф М., Робертс К., Уотсон Дж. Молекулярная биология клетки:
в трех томах. — 2. — Москва: Мир, 1994. — Т. 2. — 539 с. — 10 000 экз. — ISBN 5030019871.
Jonathan Pevsner. Bioinformatics and Functional Genomics. 2013.
Jean-Michel Claverie Ph.D. Bioinformatics For Dummies. 2011.
Download