М.В. Якобовский. Cуперкомпьютер и вычислительный

advertisement
Институт прикладной математики им. М.В.Келдыша
Российской академии наук
Cуперкомпьютер и вычислительный
эксперимент
М.В.Якобовский
mail: lira@imamod.ru
web: http://lira.imamod.ru
Ратмино (Дубна)
2011
Задачи большого вызова
(Kenneth G. Wilson, Cornell University, 1987)
• Вычислительная газовая динамика:
– Создание летательных аппаратов, эффективных автомобильных двигателей
– Предсказания погоды, и глобальных климатических изменений
– Оптимизация нефтедобычи, …
• Молекулярная динамика:
– Создание материалов с заданными свойствами
– Разработка новых лекарственных соединений
– Сверхпроводимость, Свойства веществ в экстремальных состояниях, …
• Символьные вычисления
–
–
–
–
•
•
Распознавание речи
Компьютерное зрение
Изучение сложных систем
Автономные системы управления
Квантовая хромодинамика и теория конденсированных сред
Управляемый термоядерный синтез, Геном человека, …
2
http://en.wikipedia.org/wiki/Grand_Challenge
Области применения
многопроцессорных систем
• Задачи большого вызова (HPC)
• Обработка больших объемов данных
–
–
–
–
Ускорители
Секвенаторы
Социальные сети, …
Космическая фотосъёмка
• Задачи реального времени
– Железнодорожные станции
– Управление технологическими процессами
• Системы высокой надёжности
– Бортовые системы
3
Транспьютерная материнская
плата МТБ-8
Транспьютер T-800
• Сделан на основе языка Оккам
6 из 47
Транспьютерная материнская
плата МТБ-8
Транспьютер Т800 и коммутатор
С004
Электронный коммутатор
Узел с общей памятью – два
процессора
Узел PowerXplorer
Гибридная система
Плата и 4 модуля
Развитие суперкомпьютеров
1 Ef/s
оп./с
1018
www.top500.org
1015
1 Pf/s
1 Tf/s
1 Gf/s
1 Mf/s
ENIAC
1946
1012
ЭСЛ-база
CDC Cray 1
6600
10 9
КМОП-база
10 6
Транзисторы
IBM 701
(С)В.К.Левин
10 3
1953 1964 1975 1986 1997 2008 2019 гг.
Производительность процессора
и частота
14000
Производительность MFlops
12000
Частота, MHz
10000
8000
6000
4000
2000
0
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
17
Рост производительности одного процессора
прекратился
несколько
лет
назад
14000
Производительность MFlops
Частота*4, MHz
12000
10000
8000
6000
• Одновременная обработка
фиксированной и плавающей запятой
• Кеш память
• Конвейерная обработка
• Гипертрединг
4000
2000
0
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
18
Компьютер пользователя на порядки слабее суперкомпьютера
flops
2301 Tf
Китай, Tianhe-1A
USA, Jaguar
1 Pflops
281 Tf
МСЦ
100 T
10 T
1T
МГУ, Ломоносов
МГУ, Чебышев
МСЦ
РАН
1,12 Tf
1,65 Tf
МВС-1000М
100 G
60 Gf
10 G
1G
0,42 Gf
1995
2000
2005
2010
2015 г г.
Workstation: 1/100 000
TOP 500
19
Производительность
http://www.bbc.co.uk/news/10187248
20
Страна
http://www.bbc.co.uk/news/10187248
21
Производитель
http://www.bbc.co.uk/news/10187248
22
Процессор
http://www.bbc.co.uk/news/10187248
23
ОС
http://www.bbc.co.uk/news/10187248
24
Приложения
http://www.bbc.co.uk/news/10187248
25
26
Ограничения
Закон Амдаля
S  p 
1% последовательных
операций - сокращение
времени не более чем
в 100 раз
100%
90%
80%
Эффективность
1
1 a
a
p
1
E p 
1  a p  1
a=.0001
a=.001
a=.01
a - доля последовательных действий
70%
60%
50%
40%
30%
20%
10%
0%
0
250
500
750
1000
1250
1500
1750
2000
Число процессоров
•
•
•
•
Ступор производительности последовательных систем
Закон Амдаля
Стена памяти
Высокое энергопотребление традиционных процессоров
27
Особенности момента
• Потребность в суперкомпьютерах высока
• Эффективность использования суперкомпьютеров
низка:
– Не все последовательные алгоритмы адекватны
параллельным вычислительным системам
– Обмены, синхронизация, другие дополнительные
операции снижают эффективность параллельной
программы
– Использование каждого ядра последовательной
программой составляет проценты и доли процентов
28
Компьютерный дизайн лекарств
(Intel -fast, исследование эффективности, Clovertown 2.66GHz)
Реальная производительность,
Mflops
600
500
400
300
200
100
0
1
240 479 718 957 1196 1435 1674 1913 2152 2391 2630 2869 3108 3347 3586 3825 4064 4303 4542 4781 5020 5259 5498 5737 5976 6215 6454
КПД процессора на задаче: 4% !!!
(С) Вл.В.Воеводин
Видеолекции
(показ открытый, кроме 3х часов времени
никаких требований)
• В.В. Воеводин Суперкомпьютеры и КПД
паровоза http://www.intuit.ru/video/70/
• В.К. Левин Суперкомпьютеры - этапы
большого пути и перспективы
http://www.intuit.ru/video/72/
30
Особенности момента
• При решении конкретной задач есть минимальный
объем вычислений на процессорное ядро,
определяющий максимальное число используемых
в расчете ядер
• За счет многопроцессорности сложно сокращать
время решения, но можно повышать сложность
решаемых задач - оперирование большими
объёмами данных
31
Дозвуковая аэродинамическая
труба Т-104, ЦАГИ
•
•
•
•
Скорость потока 10–120 м/с
Диаметр сопла 7 м
Длина рабочей части 13 м
Мощность вентилятора
28.4 МВт
http://www.tsagi.ru/rus/base/t104
Суперкомпьютер СКИФ МГУ «ЧЕБЫШЁВ»
• Пиковая производительность 60 TFlop/s
•
Мощность комплекса 0.72 МВт
http://parallel.ru/cluster/skif_msu.html
32
Малые размеры объекта изучения
33
Условия, отличные от натурных
34
Суперкомпьютеры
• Анализ и обработка результатов натурного эксперимента –
важная, требующая методов высокой точности, ниша для
вычислительного эксперимента
• Суперкомпьютер не просто составляет конкуренцию
натурному эксперименту, но:
– Необходим для его проведения
– Позволяет делать то, что натурный эксперимент делать не
позволяет:
– Виртуальные ядерные испытания
– прогнозирование климата, космология, изучение
свойств вещества в экстремальных условиях
– Синтез лекарств
– Прогнозирование экстремальных событий (допуски на
волны)
35
«… если подобное можно сделать, то это
будет научный подвиг!« (Ландау)
• 1948 г., семинар у Игоря Васильевича Курчатова, вопрос о
мощности взрыва.
• Модель теоретического отдела Института физических
проблем, под руководством академика Льва Давидовича
Ландау, не допускающая аналитического решения.
• Андрей Николаевич Тихонов предложил выполнить
прямой численный расчёт.
– Александр Андреевич Самарский
– около тридцати девушек-вычислителей, выпускниц
геодезического института.
• 1949г., расхождение всего 30 %.
• http://www.pseudology.org/science/SamarskyAA.htm
36
Суперкомпьютер «Ломоносов»
пиковая производительность
414,42 ТФлопс
реальная производительность
350,10 ТФлопс
процессоры
Intel EM64T Xeon X55xx
(Nehalem-EP) 2930 МГц
(11,72 ГФлопс)
число процессорных ядер
35 360
общий объем оперативной памяти
54 312 ГБ
коммуникационная сеть
Infiniband
операционная система
Linux
37
Суперкомпьютер МГУ “Ломоносов”
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
Всего в системе 10т гликоля и 40т воды
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
Вес оборудования машзала – 57 т, СБЭ – 92т
Суперкомпьютер МГУ “Ломоносов”
Общая длина кабелей более 80 км
(С)Вл.В.Воеводин
Суперкомпьютер МГУ “Ломоносов”
Т-Платформы: T-Blade2
•
На 14-слойной системной плате расположены
– 4 четырехъядерных процессора Intel® Xeon 5500,
– 4 трехканальных модуля памяти DDR3 разработки «Т-Платформы»
– интегрированные контроллеры системной сети QDR InfiniBand.
46
Суперкомпьютер МГУ “Ломоносов”
Пиковая производительность
Реальная производительность
Эффективность
Число вычислительных узлов
Число процессоров
Число процессорных ядер
Типы вычислительных узлов
Основной процессор
Оперативная память
Коммуникационная сеть
Система хранения данных
Операционная система
Занимаемая площадь
Энергопотребление вычислителя
420 Тфлопс
350 Тфлопс
83%
4 446
8 892
35 776
T-Blade2, T-Blade 1.1, PowerXCell 8i
Intel Xeon 5570, 2.93 GHz
56,5 ТБайт
QDR Infiniband
1,35 ПБайт
Clusrtx T-Platforms Edition
252 м2
1.5 МВт
(С)Вл.В.Воеводин
48
Kraken
49
50
Tianhe-1A, Китай
• Национальный суперкомпьютерный центр в Тяньжине,
2,5 из 4.7 петафлоп.
• 7168 графических процессоров NVIDIA Tesla M2050 и 14336
процессоров Intel Xeon,
• Энергопотребление 4,04 Мегаватт
• Tianhe-1A - система открытого доступа
51
Системы с неоднородным доступом к
памяти (NUMA)
SGI Altix UV (UltraVioloet) 1000

256 Intel® Xeon® 4-, 6- or 8-core 7500
series (2048 cores)

16 TB памяти

Interconnect Speed 15 ГБ/с, 1мкс
http://www.sgi.com/products/servers/altix/uv/
Москва, 2010 г.
Параллельное программирование с OpenMP: Введение
© Бахтин В.А.
52
Скиф Аврора 24 TFLOPS
http://www.3dnews.ru/editorial/skif_aurora_chelyabinsk/index2.htm
Алексей Дрожжин СКИФ Аврора ЮУрГУ: суровый Челябинский суперкомпьютер
53
Россия в top500
•
•
•
•
•
•
•
•
TOP500:
12. Ломоносов (НИВЦ МГУ)
38. МВС-100К (МСЦ РАН — Межведомственный Суперкомпьютерный Центр
РАН)
107. СКИФ МГУ «Чебышёв» (НИВЦ МГУ) (37-е место в июне 2008 года)
138. IBM BladeCenter HS22 Cluster (банковский сектор)
181. IBM xSeries x3650M2 Cluster (правительственный сектор)
320. HP Cluster Platform 3000 BL460c (РНЦ «Курчатовский институт») (118-е
место в ноябре 2008 года)
377–382. IBM Blue Gene/P (факультет ВМК МГУ) (126–130-е место в ноябре
2008 года)
450. СКИФ-Аврора (ЮУрГУ — Южно-Уральский государственный университет)
55
56
57
58
top500.org
59
Экзафлопсный барьер: проблемы и решения
Виктор Горбунов, Леонид Эйсымонт
Открытые системы :: Платформы,
http://www.osp.ru/os/2010/05/13003034/
60
Архитектура CUDA «Fermi»
• Более трех миллиардов транзисторов и 512 ядер CUDA
•
http://itc.ua/articles/nvidia_geforce_gtx_480_chast_1_arhitektura_fermi_45158
61
Компьютеры с реконфигурируемой архитектурой
(http://fpga.parallel.ru)
МОДУЛЬ АЛЬКОР
Число ПЛИС Vertex V, 11 млн. вентилей, шт. 16
Число элементарных процессоров 512
Объем памяти, Гбайт 2
Производительность, Гфлопс 200
Частота платы, МГц330
Частота информационных обменов, МГЦ 1200
Габариты, мм 6U
Потребляемая мощность 225 Вт
63
Суперкомпьютерный комплекс МГУ
(суперкомпьютер с реконфигурируемой архитектурой)
5 стоек x 4 блока x 4 модуля = 1280 Xilinx Virtex-5, - (n Tflops)
Энергопотребление – 30 КВт на всю систему,
Разработчик – НИИ МВС ЮФУ, г.Таганрог.
Классы систем
•
•
•
•
Распределенная память
Двусторонние обмены
Односторонние обмены
Общая память
– UMA
– ccNUMA
– NUMA
• Grid
• Мультитредовые
• ПЛИС
65
Упорядочить элементы массива
•
•
•
•
O(n2)
O(n log n)
O(n)
O(?)
66
Упорядочить элементы массива
за 1 шаг
010
001
И
И
И
ИЛИ
И
ИЛИ
Якобовский М.В.
проф., д.ф.-м.н.,
зав. сектором
«Программного обеспечения
многопроцессорных систем и
вычислительных сетей»
Института прикладной математики им.
М.В.Келдыша Российской академии наук
mail: lira@imamod.ru
http://lira.imamod.ru
68
Download