Организация распределённой вычислительной сети ЦВОИ

advertisement
Организация распределённой
вычислительной сети ЦВОИ
Казанского НЦ РАН
Григорий Шамов, Максим Астафьев
Отдел информационных технологий Казанского НЦ РАН.
mailto:gas@iopc.knc.ru , mailto:maxast@if.kazan.ru
Проект КазНЦ РАН
«Создание центра высокопроизводительных
вычислений для нужд институтов Казанского научного
центра Российской академии наук и высших учебных
заведений г. Казани»
Реализован в 2000 г. при поддержке ФЦП «Интеграция»

Обеспечение удаленного доступа к вычислительным ресурсам
ЦВОИ сотрудников институтов КазНЦ и ВУЗов г.Казани

Интеграция фундаментальной науки и образования, изучение
и внедрение технологий высокопроизводительных
вычислений на многопроцессорных системах в научные
исследования и учебный процесс.
Вычислительный кластер ЦВОИ КазНЦ РАН
Коммутатор
FastEthernet
Управляющий сервер
Диспетчер
заданий PBS
Сервер
доступа (SSH)
WWW - страничка
SENet - Tatarstan
Оценка максимальной производительности
вычислительного кластера с процессорами
ALPHA 21264
SPEC fp 95 DS10L
47,9
SPEC fp 95 DS20E
83,6
LINPAK 1000x1000
~ 6,7 GFLOPs
Параметры производительности
коммуникационной среды кластера
Пропускная способность
(блоки данных > 1Мбайт)
~9 Мбайт\с
Латентность ( на уровне MPI )
~140 мксек
Новые кластеры (2001-2002 гг.)
• Кластер КГТУ(КХТИ)
• Кластер химфака КГУ
11 AMD Athlon 1.2 GHz
7 AMD Athlon 900 MHz
Медный Gigabit Ethernet
Channel bonding
(объединение каналов) для
трёх каналов Fast Ethernet
Intel e1000 NICs in PCI-32 slot
Кластеры были выполнены в виде учебных классов, и предназначались,
помимо научных расчётов для использования в учебном процессе.
При создании кластеров использовались экономичные варианты
коммуникационной среды: Гигабитный Ethernet и объединение
нескольких каналов 100Мб Ethernet.
Throughput
300
250
2*rtl, 2.2.19 tcp
2*tulip, 2.2.19 tcp
200
Mbit/s
4*rtl, 2.2.19 tcp
6*tulip, 2.2.19 tcp
150
3*t*3rtl, 2.2.19 tcp
100
4*tulip, 2.2.19 tcp
50
0
1
10
100
1000
10000
100000
1000000 1000000
0
1E+08
1E+09
Block size, bits
BPS
400
350
300
Mbit/s
Сравнение
результатов прогона
NetPIPE для TCP/IP для
Gigabit Ethernet и
объединения трёх
каналов Fast Ethernet.
Латентность Gigabit
Ethernet равна 93 мс.
Пропускная
способность для
одного, двух и трёх
каналов Fast Ethernet,
по данным программы
NetPIPE на уровне
TCP/IP. Латентности
составлют 41, 43 и 44
мс, соответственно.
6*tulip, 2.2.19 tcp
250
intel e1000
200
150
100
50
0
1
100
10000
1000000
Block size, bits
100000000
10000000000
H
O
H
O
OH
Si O
O
H
O
H
O
O
H
O
O
O
O
Si
Si
O
H
O
Si
O
O
H
O
O
O
Тестовая молекула для
Задачи I, расчёта
RHF/STO-3G градиента -цеолитовый фрагмент
Si24O60H24
O
Si
O
H
O
O
O
Si
HSi
Si
O
O
O OH Si
O
O
H
SiO
O
Si
O
H
Si
O
H
O
O
Si
O
H
SiO
Si
O
O
H
Si
O
O
Si
Si
O
O
O
O
O
OSi O
Si
Si
O
Si
O
O H
H
O
HO
H
Si
H O
O
Si
Тестовая молекула для
Задачи II, расчёта MP2/6-31G*
оптимизации геометрии
нитробензола
H
O
H
O
O H
H
H
O
H
N
O
H
H
Ideal speedup
Задача II, intel
Задача II realtek
Задача I, intel
Задача I, realtek
12
8
6
4
2
0
0
2
4 nCPU 6
8
Ускорение Задачи II для
различного числа
процессоров кластеров
КГTУ и КГУ с
использованием channel
bonding трёх Fast
Ethernet (realtek) и
Gigabit Ethernet (intel).
10
12
10
Ideal speedup
9
Задача II, intel
8
Задача II realtek
7
Задача II, КГУ, 3 channel bonding
6
Задача II, КГУ, no bonding
speedup
speedup
10
Ускорение (speedup) Задач
I и II для различного числа
процессоров (nCPU)
кластера КГТУ, с
использованием Fast
Ethernet (realtek) и Gigabit
Ethernet (intel).
5
4
3
2
1
1
3
5
7
nCPU
9
11
13
Система управления заданиями локальных кластеров.
Должна обеспечить справедливое и надёжное
обслуживание задач пользователей
Предотвратить неконтролируемую конкуренцию процессов
пользователей за ресурсы вычислительных узлов
Предоставить пользователям возможно более удобный
интерфейс для запуска, мониторинга и управления задачами
Maui
http://www.supercluster.org
PBS Pro 5.2
http://www.pbspro.com
Scheduler
Resource
manager
Linux
cluster
User
commands
Доступ
пользователей
Статистика загрузки
вычислительных кластеров
Загрузка, %
Ожидание в
очереди, час
Alpha – кластер ЦВОИ КазНЦ РАН
Учебный кластер КГТУ
Компьютерная химия
на кластере ЦВОИ КазНЦ
 Анализ электронной структуры
молекул
 Изучение механизмов химических
реакций
 Исследования физических и
химических свойств веществ
 Изучение влияния различных сред
Программное обеспечение, наиболее
популярное среди пользователей ЦВОИ:
GAMESS-US, Gaussian98,
Priroda
Опыт использования кластеров Казанского НЦ РАН
Большая загрузка кластера затрудняет выполнение параллельных
задач на большом количестве CPU. Невозможно обеспечить
одновременно полную загрузку кластера и минимальное время
ожидания задач в очереди
Пользователи не в состоянии распределить свои задачи по кластерам
даже для таких единообразно устроенных кластеров как наши.
Пользователям особенно трудно правильно задать свои запросы для
учебных кластеров, которые периодически переводятся в другие
режимы работы.
Возможным решением этих проблем является объединение
локальных кластеров в распределённую вычислительную сеть.
Такая сеть должна обеспечивать увеличение загрузки входящих в неё
кластеров и одновременно уменьшать время ожидания в очереди.
Кроме того, она должна предоставить пользователям единый
интерфейс ко всем доступным вычислительным ресурсам.
Распределенная вычислительная сеть г.Казани
Вычислительный кластер
ЦВОИ КазНЦ РАН
Учебный кластер КГУ
Учебный кластер КГТУ
Трудности создания РВС
Отсутствие опыта создания и
использования РВС
Неотработанность технологий,
нестабильность ПО
Необходимо выделения ресурсов
локального кластера
Необходимо согласовать
политики использования кластеров,
политики планирования заданий
Необходимо организовать учёт
использования ресурсов
Необходимо вмешаться в работу
локальных кластеров на этапе
инсталляции/тестирования РВС
Выгоды от РВС
Уменьшение простоев
Улучшение оборачиваемости
Единый интерфейс для всех
локальных кластеров
Развитие инфраструктуры для
метакомпьютинга.
Компоненты РВС
Метапланировщик
Grid environment
Локальные планировщики
Локальные менеджеры ресурсов
Портал доступа
Silver design overview. http://www.supercluster.org
Преимущества Silver
 Гибкое выделение ресурсов основанное на т.н. «резервировании»
 Совместимость Silver/Maui с широким кругом менеджеров
ресурсов: PBS Pro, OpenPBS, SGE, LSF, LoadLever
 Минимально вторжение в политики локальных кластеров
 Ограниченное использование информации от локальных
кластеров
 Возможность настройки и испытаний РВС в режиме симуляции, не
прерывая нормальной работы локальных кластеров.
 Возможность как использования Globus в качестве Grid
Environmnt’a, так и создания собственных механизмов для
stageing’a, авторизации и запуска задач
 Возможность учёта использованных вычислительных ресурсов
при помощи базы данных Q-bank
 Высокая масштабируемость – Silver разработан так, чтобы
управлять тысячами процессоров на десятках кластеров .
Стендовые испытания Silver на кластерах
Казанского НЦ РАН
Silver 1.0.2
Maui 3.2.0
PBS Pro 5.2
Кластер
КГТУ
Сервер
доступа
Maui 3.2.0
PBS Pro 5.2
Кластер
КазНЦ
Заключение
Проблемы организации использования
высокопроизводительных вычислительных ресурсов
имеют общий характер для большинства сайтов.
Возможным решением их является объединение
локальных вычислителей в распределённые
вычислительные сети.
Что требует как решения технических вопросов, так и
сотрудничество заинтересованных в использовании
высокопроизводительных вычислений организаций
Download