ugene_for_bio_2010

advertisement
UGENE – интегрированные
инструменты биолога
Константин Оконечников,
НЦиТ Унипро 2010
Вычислительная биология
Примеры характерных задач:
• Поиск гомологов
– Поиск и анализ схожести между генетическими
последовательностями, различные виды выравниваний
• Определение генов
– Идентификация генов и аннотация их функций
• Сборка контигов
– Сборка цельных геномов из известных частей полученных в
результате секвенирования
• Анализ структуры белка
– Предсказание вторичной и третичной структуры, определение
функций
• …и многое другое
2
Форматы и базы данных
EMBL
Genbank
FASTA
MSF
CLUSTAL
GFF
NCBI
EMBL
STOCKHOLM
FASTQ
NEWICK
SAM
ABI
NEXUS
UniProt
ACE
PDB
SCF
MMDB
Колоссальный объем информации!
Например:
Количество записей в NCBI Genbank на 2010 год – 120 000 000
Количество публикаций в PubMed на 2010 год – 20 000 000
3
Многообразие подходов
BLAST,FASTA,SSEARCH,CLUSTAL,MUSCLE,MAFFT,KALIGN,UCLUST,HMMER2,
HMMER3,GARLIC,CONSED,CGVIEW,ERGO,EBBIE,MAUVE,MATTREE,COVE,
PSIBLAST, GOR, PSIPRED, EXPASY, EMBOSS, PHYLIPP, SAM, CASP, BLOCKS, PRIMER3, CSBLAST,
HHPRED,BIOCONDUCTOR,MUMMER,
FEAST,BOWTIE,MAQ,SOAP,BIOPERL,POA, PRANK, FOLDALIGN,RMAP,SITECON,SHRIMP,BATWING,ASAP,
BEAST,MEGA,MESQUITE,SEMPHY,TNT,BIOEDIT,BIOPYTHON,GALAXY, TAVERNA, GENEMARK,
AMAP, MEME, PPSEARCH, ELPH, GENESCAN, ARTEMIS, CLANN, GENLUX, CRNPRED, BRAGI, DIP4FISH
ANGIS,AFFYMETRIX,GENECHIP,ARLEQUIN,BIOPHP,BIORUBY,BIOEXTRACT,
BIOSLAX,BISKIT,CYTOSCAPE,DAVID,DIALIGN-T,
DIALIGN-TX,DNASTAR,ETBLAST FOLDX,FORMATDB,GENSCAN,GENTLE,GESS,
GENMAPP,GENE,ACE, UGENE, ARGO,
DESIGNER,GENEDATA,ENEPATTERN,GENEVESTIGATOR,JALIGNER,MEGAN,ARKA
MODELLER,OLIGO,JPRED,STRIDE,TESS,GLIMMER,BIOECLIPSE,
ENSEMBL,ASTERIAS,DPVIEW,
PAUP,PSORT,PHYLOSCAN,PUPASUITE,PYMOL,RAPTOR,RASMOL,
STING,SIMBIOSYS,SNAGGER,SOAPLAB,SPLITSTREE,ST
EMLOC,T-COFFEE,PILER,USEARCH,DELTASTAT,DCSE,ASID,ARB,ANGLER,
TREEFINDER,UCSF CHIMERA,UTOPIA,VECTOR NTI,YASS,MUSCA,JASPAR
…………………….
4
Минусы существующих подходов
• Зачастую средства и алгоритмы анализа генетических данных
не согласуются между собой.
Суть проблемы: необходима целостность в управлении
данными, возможность построения составных методов
анализа.
• Популярные инструменты не всегда пригодны для
систематического анализа большого количества данных
Суть проблемы: сложность обработки промежуточных
результатов и другие ограничения.
• Многие задачи гораздо эффективнее решаются посредством
использования высокопроизводительных ресурсов
Суть проблемы: нужен специальный опыт в этой области.
5
UGENE – предлагаемое решение
Цель проекта – интеграция наиболее используемых алгоритмов анализа
генетических данных в единой визуальной рабочей среде, удобной для
прикладного специалиста.
•
Свободная лицензия, русификация;
•
Кросс-платформенность (MS Winodws, Mac, Linux);
•
Модульная архитектура, более 30 расширений;
•
Единый, удобный пользовательский интерфейс;
•
Концептуальная целостность в работе данными;
•
Эффективное использование вычислительных ресурсов;
•
Поддержка составных методов анализа данных.
6
Краткий обзор возможностей
UGENE
•
Автоопределение форматов данных, поддержка более 20 форматов.
•
Поиск паттернов и парное выравнивание (Smith Waterman)
•
Сборка контигов (Bowtie, UGENE Genome Aligner)
•
Множественное выравнивание: MUSCLE, Kalign, Clustal, Mafft
•
Сверхбыстрый поиск повторов
•
Визуализация и редактирование хроматограмм
•
Анализ гомологии на основе цепей Маркова (HMMER)
•
Построение филогенетических деревьев (Phylip)
•
Поиск открытых рамок считывания для всех генетических таблиц
•
Поддержка запросов к удаленным базам данных ( BLAST, CDD)
•
Сайты рестрикции, cайты связывания транскрипционных факторов
7
Возможности UGENE
• Удобный редактор
аннотаций
• Мощные возможности
по визуализации и
редактированию
последовательностей
• ДНК
• РНК
• Аминокислотные
8
Возможности UGENE
• Редактор множественных
выравниваний
• Просмотрщик
филогенетических деревьев
• Визуализатор трехмерных
макромолекулярных
биологических структур с
возможностью экспорта
9
Составные методы анализа
Дизайнер вычислительных схем (Workflow Designer) –
комплексный инструмент автоматизации вычислительных процессов,
входящий в среду UGENE.
• Интуитивно понятный интерфейс пользователя;
• Расширяемость – легкое добавление новых вычислительных блоков;
• Каждый блок может иметь различные оптимизированные реализации
для различных платформ;
• Автоматическая загрузка всех доступных вычислительных ресурсов;
• Интерактивность.
10
Пример вычислительной схемы
11
Эффективное использование
вычислительных ресурсов
•
•
•
•
Многоядерные процессоры
Кластеры и грид-системы
Платформо-зависимые оптимизации, GPGPU
Облачные вычисления
Удаленный сервис запуска задач основанный на
мощностях Amazon EC2
Для пользователя запуск вычислительных задач
и работа с платформой не усложняется!
12
Сравнение с аналогами
Web-Сайт:
СLCBio Workbench
VectorNTI
Geneious
Unipro UGENE
http://www.clcbio.com
http://www.invitrogen.com
http://www.geneious.com
http://ugene.unipro.ru
Функциональность:
Поиск гомологов
+
+
+
+
Сборка контигов
+
-
+
+
Анализ структуры
белка
-
+
-
-
Клонирование “in
silico”
+
+
+
-
Поддержка HPC
+
+
-
+
Построение
вычислительных схем
-
-
-
+
~700$*
0
Стоимость программного пакета:
Лицензия на полгода,
1 пользователь
~1200$
~1500$
* может быть бесплатным при определенных условиях
13
Демонстрация
14
Текущее состояние проекта
• Более 1000 активных пользователей
• Проект входит в официальные версии
дистрибутивов Linux: Ubuntu, Fedora, Arch
• Взаимодействие с российскими и рядом
зарубежных институтов в области
вычислительной молекулярной биологии
• Перенос задач на суперкомпьютеры
15
Перспективы
• Анализ данных секвенирования,
визуализация
• Удобный язык для Дизайнера
вычислительных схем
• Новая разработка Query Designer
• Объединенное рабочее пространство
для группы исследователей
• Дальнейшее развитие удаленного
сервиса UGENE
16
Вы и UGENE
• Использование UGENE в повседневной
работе
• Обратная связь
• Специализированные feature-request’ы
• Совместная работа над большими
проектами
• Использование UGENE в
образовательных проектах
17
Полезные ссылки
•
•
•
•
Сайт: http://ugene.unipro.ru
Почтовый алиас: ugene@unipro.ru
Форум: http://ugene.unipro.ru/forum
Видео-канал:
http://youtube.com/uniprougene
• Твиттер:
http://twitter.com/uniprougene
18
Спасибо за внимание!
Вопросы
?
19
Download