развитие и использование высокопроизводительных

advertisement
РАЗВИТИЕ И ИСПОЛЬЗОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ
ИНФОРМАЦИОННО-ВЫЧИСЛИТЕЛЬНЫХ РЕСУРСОВ В ПУЩИНСКОМ НАУЧНОМ
ЦЕНТРЕ РАН
В.В.Корнилов (*), В.Д.Лахно (**), М.Н.Устинин (**)
(*) Пущинский научный центр, (**) Институт математических проблем биологии РАН,
Пущино
Тел./факс: (095) 923-80-03, e-mail: kornilov@pprc.psn.ru
В 1961 году было принято решение Правительства о создании в Пущино Научного центра биологических
исследований Академии наук. В настоящее время это город с населением более 20 тыс. человек и всей
необходимой инфраструктурой. Градообразующей базой являются 10 научно-исследовательских институтов
Российской академии наук, традиционными для которых являются следующие направления исследований:
молекулярная биология, биоорганическая химия, биотехнология, генная и клеточная инженерия, промышленная
и экологическая микробиология, биотрансформация вещества и энергии, биофизика, радиобиология,
математическое моделирование и информатика, научное и медицинское приборостроение, астрофизика и
радиоастрономия.
Осознание необходимости глубокой трансформации и реформирования академической науки, объективные
предпосылки к изменению структуры науки с учетом мирового опыта реализуются в развитии исследований,
ориентированных на создание интегративного знания на стыках биологии с математикой, медициной, сельским
хозяйством и другими направлениями. Современные тенденции развития науки требуют интеграции не только в
предметных областях, но и в организации подготовки специалистов высокой квалификации. В городе работают
три учреждения высшего образования: Пущинский Филиал МГУ, Пущинский государственный университет,
Отделение Московской государственной академии приборостроения и информатики. Подготовка специалистов в
этих вузах ведется на кадровой и материальной базе Научного центра, что реализуется в создании при
институтах собственных учебно-научных центров. В настоящее время с помощью ФЦП "Интеграция"
сформированы и ведут подготовку кадров учебно-научные центры во всех 10 исследовательских организациях
ПНЦ РАН. Общее количество преподавателей, участвующих в образовательной деятельности учебно-научных
центров, составляет более 70 человек, в том числе 3 академика, 5 чл.-корр. РАН, 45 докторов наук и 19
кандидатов наук. Имеющаяся кадровая и материально-техническая база, высокий уровень подготовки
привлекают в Пущинский научный центр молодых людей из самых разных уголков страны. Общая численность
студентов, магистрантов, стажеров и аспирантов из 65 различных вузов России и СНГ, обучающихся в
настоящее время в Пущино, превышает 400 человек.
В последнее время стала очевидной необходимость использования мощных вычислительных ресурсов для
решения задач физико-химической биологии. В биологических исследованиях компьютеры и суперкомпьютеры
становятся все более самостоятельным инструментом познания и получения прикладных результатов. Это
обстоятельство не вполне осознается не только учеными, работающими в смежных областях, но и самими
биологами. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, в
частности, появление суперкомпьютеров с параллельной архитектурой, так и бурный рост ее применения в
биологии. Несмотря на широкий фронт использования компьютеров в биологии, в нем можно выделить главные
направления, определяющие развитие таких областей знания, как молекулярная биология и биохимия.
В чем же причина необходимости широкого использования суперкомпьютеров в биологии? Прежде всего,
отметим, что в начале 90-х годов начала выполняться научная программа расшифровки генома человека, в
которую были вложены огромные средства. В настоящее время эта программа находится в стадии своего
завершения. Уже сейчас объявлено, что следующий этап, рассчитанный на 10-15 лет, стартует в начале 21 века.
Он получил название "структурный геном". Речь идет о расшифровке первичной и пространственной структуры
всех белков, входящих в состав человеческого организма. Выполнение этой программы в принципе невозможно
без использования высокопроизводительных вычислительных систем. В настоящее время расшифрована
структура около десяти тысяч белков, в то время как число различных белков в организме человека составляет
сотни тысяч. Знание первичной и пространственной структур белков играет решающую роль для понимания их
функционирования. В частности, знание пространственной структуры лежит в основе современной технологии
создания лекарств. К числу основных вычислительных задач компьютерной биологии в настоящее время
относятся:
– распознавание белок-кодирующих участков в первичной структуре биополимеров;
– сравнительный анализ первичных структур биополимеров;
– расшифровка пространственной структуры биополимеров и их комплексов;
– пространственное сворачивание белков;
– моделирование структуры и динамики биомакромолекул;
– создание и сопровождение специализированных баз данных (баз белковых структур, нуклеотидных
последовательностей, путей метаболизма, клеточных ансамблей и др.).
Современный уровень развития компьютерной биологии и биоинформатики подводит нас к мысли о том, что
все задачи, которые до недавнего времени решались биохимией и молекулярной биологией в реальных
экспериментах, в будущем могут быть решены в виртуальных компьютерных экспериментах. Как показывает
анализ прессы, оснащенность западных научных, медицинских и фармацевтических компаний современной
высокопроизводительной техникой ведущих компьютерных фирм весьма велика. Таким образом, для
поддержания отечественных научно-исследовательских работ на современном международном уровне,
необходимо широкое развёртывание работ по информационному и вычислительному обеспечению
фундаментальной и прикладной физико-химической биологии.
Представляется необходимым решение трёх взаимосвязанных задач:
– обеспечение доступа специалистов к информации, содержащейся в мировых базах данных;
– предоставление возможности проведения высокопроизводительных вычислений;
– обеспечение возможности использования современных вычислительных средств и баз знаний для
обучения молодежи с целью подготовки высококвалифицированных специалистов в приоритетных
областях науки.
Для этого необходимо создание скоростных каналов связи как между российскими институтами и научноучебными центрами, так и с зарубежными партнёрами. В течение трех лет ведутся работы по созданию
информационно-вычислительной сети Пущинского научного центра. К настоящему времени найдено и
реализовано оптимальное организационное решение – Информационно-провайдерский центр преобразован в
Межинститутский отдел вычислительных и информационных ресурсов при Институте математических проблем
биологии РАН. За период с 1997 г. в научно-образовательную сеть ПНЦ включены 14 организаций, включая
институты, вузы, школы, городские службы. Использовались различные источники финансирования, в том числе
собственные средства участников сети, РФФИ, Миннауки РФ, РАН. Топология сети: звездообразная,
двухуровневая (первый уровень – оптоволокно, второй уровень – радиодоступ к нескольким точкам доступа к
оптоволоконным магистралям). Тип среды передачи данных на магистралях: оптоволокно и радиоволны. Общая
протяженность оптоволоконных магистралей составляет около 5 км. Используемые сетевые технологии:
IEEE802.30 (Fast-Ethernet) и IEEE802.11 (Radio-Ethernet). Пропускная способность сети: 2 Мб/с – радиоканал, от
10 до 200 Мб/с – оптоволокно. Внешние каналы связи: радиоканал Пущино-Обнинск; радиорелейный канал
Обнинск-Москва (Радио-МГУ); радиорелейный канал Обнинск-Москва (ИППИ). Центр управления сетью по
состоянию на май 2000 года включает полный комплекс серверов (DNS, почтовые, FTP, HTTP и пр.).
Центральный узел представляет собой систему из 12-портового 100/200 Мб/с маршрутизатора, 24-портового
коммутатора 10/100 Мб/с и оптического концентратора 10 Мб/с. В 1999 году начат перевод центра управления
сетью и основных магистралей в высокопроизводительный режим 100-200 Мб/с. В 2000 году планируется
продолжение перевода сети ПНЦ в высокопроизводительный режим; расширение существующих и организация
новых каналов выхода в Интернет.
Как уже было сказано выше, проведение современных компьютерных экспериментов, требующих больших
объёмов вычислений, таких как молекулярное моделирование, невозможно без помощи суперкомпьютеров.
Здесь представляется необходимым как использовать уже имеющиеся в стране суперкомпьютерные
вычислительные центры, так и создавать локальные вычислительные системы. Отметим, что к весне 2000 года
Пущинский научный центр вышел на второе место в России по использованию централизованных
суперкомпьютерных ресурсов Института прикладной математики и Межведомственного суперкомпьютерного
центра.
При разработке проекта учебно-исследовательского комплекса Пущинского научного центра РАН, учитывая
специфику задач физико-химической биологии, было выбрано решение на базе оборудования фирмы SGI.
Ядром комплекса стал сервер Origin200, оснащенный двумя процессорами R10000 180 MHz, 256 Mb
оперативной памяти, жестким диском ёмкостью 11.2 GB и работающий под управлением ОС IRIX 6.4. На нём
установлено базовое программное обеспечение, предназначенное для проведения вычислительных
экспериментов, он же в настоящий момент выступает и как сервер баз данных. В качестве рабочего места
разработчика прикладного программного обеспечения используется рабочая станция SGI Indigo2 с процессором
R4400SC 200 MHz, 128 Mb оперативной памяти и высокоэффективной графической подсистемой. На данной
станции эффективно решён вопрос отладки и компиляции программ на языках Фортран и Си перед запуском их
на счёт на сервере Origin200, а также производится трёхмерная визуализация результатов моделирования.
Кроме того, при помощи рабочей станции решена проблема администрирования сервера. Остальная часть сети
– стандартные персональные компьютеры с процессорами Intel Pentium. На каждом из подключённых к сети ПК
установлен программный эмулятор X-терминала, что позволяет использовать их как полноценные рабочие
места исследователей с высокоскоростным доступом к вычислительным и информационным ресурсам сервера.
Сервер может обеспечить эффективную работу 10-15 таких рабочих мест. Кроме того, на некоторых ПК, также
являющихся клиентским местами серверного ПО, планируется проведение учебных занятий для студентов и
аспирантов РАН. В настоящее время решается вопрос об оснащении сервера высокоэффективными
программными продуктами, такими как пакет Sybyl компании Tripos, Gaussian (Gaussian, Inc.), и другими
программными приложениями, которые позволят повысить эффективность использования установленной
вычислительной техники при решении задач, поставленных при создании данного комплекса.
Таким образом, современная физико-химическая биология представляет собой уникальную область знаний,
с точки зрения потребности внедрения современных информационных и вычислительных технологий, и
Пущинский научный центр должен стать основным полигоном для такого внедрения.
Работа выполняется при поддержке ФЦП "Интеграция" (проект В0018) и грантов РФФИ N99-07-90461 и N9807-90147.
Download