ИНФОРМАЦИОННАЯ И ТЕЛЕКОММУНИКАЦИОННАЯ СРЕДА ДЛЯ РЕШЕНИЯ ЗАДАЧ ВЫЧИСЛИТЕЛЬНОЙ БИОЛОГИИ А.Ю.Зайцев, В.В.Корнилов, В.Д.Лахно, М.Н.Устинин Институт математических проблем биологии РАН, Пущинский научный центр РАН, Пущино Московской обл. Тел.: (0967) 73-24-08, (0967) 79-05-70, e-mail: [email protected] В биологических исследованиях компьютеры и суперкомпьютеры становятся все более важным инструментом познания и получения прикладных результатов. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, позволяющее использовать ее для решения весьма трудоемких задач компьютерной биологии, в частности, появление суперкомпьютеров с параллельной архитектурой, так и рост ее применения в биологии. Необходимо широкое развёртывание работ по информационному и вычислительному обеспечению фундаментальной и прикладной физико-химической биологии. Можно сказать, что развитие высокопроизводительных вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии. Задачи, решаемые компьютерной биологией, предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств. В 2000 г. на базе Института математических проблем биологии РАН был создан высокопроизводительный вычислительный кластер Пущинского научного центра РАН. Ведется работа по созданию и отладке программного обеспечения для расчетов на компьютерах с параллельной архитектурой и по обеспечению надежного высокопроизводительного доступа в Интернет, что является необходимым условием проведения работ по вычислительной биологии и биоинформатике. Кластер ПНЦ РАН состоит из 16 однопроцессорных узлов на базе микропроцессора Intel Pentium III. В качестве сетевой среды выступает Fast Ethernet. Дополнительно установлен однопроцессорный компьютер, который используется как файл-сервер и как головная машина для загрузки задач на кластер. Он оснащен двумя сетевыми адаптерами Fast Ethernet, один из которых служит для доступа на кластер извне. Аппаратное обеспечение кластера Конфигурация узла: Материнская плата ASUS P3B-F, чипсет BX, системная шина 133 МГц, процессор Pentium III-800EB, 256 Мбайт оперативной памяти, жесткий диск IDE 10.2 Гбайт Seagate; видео-контроллер Matrox Millenium PCI 2M; Адаптер Fast Ethernet 3Com 3C905TX (10/100) Конфигурация головной машины: Материнская плата ASUS P3B-F, чипсет BX, процессор Pentium III-800E, 256 Мбайт оперативной памяти, 2 жестких диска SCSI 18 Гбайт IBM; 40-скоростной привод CD-ROM; Видео-контроллер Matrox Millenium G400; 2 адаптера Fast Ethernet 3Com 3C905TX (10/100); монитор 17". Сетевая инфраструктура: 24-портовый коммутатор Fast Ethernet – D-Link/DES 1024. Дополнительная аппаратура: электронный переключатель для монитора/клавиатуры на 16 позиций; два металлических шкафа для установки узлов; 3 источника бесперебойного питания Powercom. Программное обеспечение Программное обеспечение строится на базе свободно распространяемой OS Linux (GNU Debian) и интерфейса передачи сообщений MPI как основного средства программной реализации параллельных вычислений. В качестве основного программного средства организации параллельных вычислений используется LAM/MPI версии 6.3.2 – реализация MPI и среда разработки MPI-программ для гетерогенных кластеров из UNIX-машин, разработанная в Ohio Supercomputer Center. Также доступны MPICH/MPI, PVM и некоторые специализированные библиотеки: – ATLAS (Automatically Tuned Linear Algebra Software) – PBLAS – ScaLAPACK – BLACS – P4 – PVM – ROMIO Для тестирования общей производительности кластера использовались тесты NASA Benchmarks класса A. По результатам тестирования можно сделать вывод о том, что производительность кластера ПНЦ сопоставима с производительностью других параллельных машин. Спектр задач, решаемых с использованием кластера, охватывает широкий круг проблем математической биологии и биоинформатики. В настоящее время решаются следующие задачи: – Изучение влияния гидратации на структуру двойной спирали ДНК. Выполнено большое число вычислительных экспериментов с фрагментами ДНК различных нуклеотидных последовательностей и конформаций. В ходе анализа полученных данных был выявлен целый ряд закономерностей в строении водной оболочки двуспиральной ДНК. – Моделирование различных биомолекулярных систем таких как фосфолипидные бислои различного состава, белки (ферредоксин Thermotga Maritima и HiPIP Rhodocyclus tenuis), карбосилановые дендримеры и др. Были рассчитаны различные структурные, механические и энергетические характеристики. Расчеты проводились с использованием программ и методик, разработанных в Лаборатории молекулярной динамики ИМПБ РАН. 1 – Моделирование пространственной структуры молекул н-алканов в вакууме и в водном окружении. Выявлен осциллирующий характер зависимости “диаметра” молекулярного клубка от количества мономерных звеньев, образующих молекулу алкана. – Реконструкция упругих свойств биологических тканей человека, определяющих степень патологии. – Перенос заряда в многосайтовой нуклеотидной цепочке. Были найдены области параметров, в которых возможен необратимый перенос заряда с первого сайта в конец цепи. По результатам тестирования и решения конкретных задач можно сделать следующие выводы: – Кластер показывает хорошую производительность на задачах, не требующих интенсивного межпроцессорного обмена. – Существующая сетевая инфраструктура существенно снижает производительность кластера при решении хорошо распараллеленных задач, требующих большого числа пересылок коротких сообщений. Одна из причин этого заключается в высокой латентности существующей сети. Можно наметить следующие пути развития проекта: – Покупка коммерческого программного обеспечения. – Добавление новых узлов, объединенных высокоскоростной сетью. – Увеличение количества узлов кластера. В настоящее время ведется работа по увеличению количества узлов за счет подключения к кластеру восьми компьютеров ИМПБ РАН в нерабочее время. Подключение производится посредством создания виртуальных туннелей, обеспечивающих шифрование и защиту сетевого трафика. Таким образом, достигается динамическая конфигурация кластера с переменным количеством узлов. Следует иметь в виду, что по причине загруженности внутренней институтской сети такие динамические узлы нельзя рассматривать в качестве серьезных кандидатов на решение параллельных задач. Однако наличие большого количества последовательных пользовательских программ делает этот вариант вполне оправданным и позволяет надеяться, что его реализация существенно разгрузит кластер и даст возможность сосредоточиться на решении основных задач. Следует отметить, что уже на начальном этапе использования кластера ПНЦ РАН он, как правило, полностью загружен. При этом потребность в вычислительных ресурсах для решения задач компьютерной биологии остается очень высокой. Наряду с повышением мощности кластера следует искать другие пути привлечения вычислительных ресурсов. В настоящее время активно ведется работа по проведению расчетов на удаленных высокопроизводительных компьютерах. Прежде всего, это ресурсы МСЦ, ИПМ РАН, НИВЦ МГУ, ИАПУ РАН и др. Однако, для решения многих задач вычислительной биологии необходима передача большого объема данных, а также привлечение распределенных информационных ресурсов (имеется свыше 500 баз данных по биоинформатике). Это предъявляет серьезные требования как к каналам связи между Пущино и Москвой, так и к международным каналам выхода в Интернет. Следует признать. что в настоящее время мощности этих каналов явно недостаточны. В рамках проекта ФЦП "Интеграция" совместно с НИВЦ МГУ начата работа по метакомпьютингу – привлечению через Интернет большого числа компьютеров к решению задач вычислительной биологии. Работа выполняется при поддержке ФЦП “Интеграция“, проект В0018, и грантов РФФИ 01-07-90317, 00-01-05000, 01-01-00894. 2