Опыт использования вычислительных систем сверхвысокой производительности Четверушкин Б.Н. Институт математического моделирования РАН Развитие отрасли • В настоящее время пользователю стали доступны вычислительные системы с производительностью более 10 Tflops. • Многоядерность процессоров. • Большие возможности в моделировании научных, индустриальных, экономических, экологических и других проблем. • Индустриальные задачи: мультидисциплинарность, сложная геометрия, многовариантность, высокая точность расчётов. • Математическое моделирование на этих системах – важнейший фактор научно-технического прогресса и национальной безопасности. Проблемы К сожалению, указанные возможности реализуются лишь в малой степени. • Трудности адаптации алгоритмов и прикладного программного продукта на архитектуру многопроцессорных, многоядерных систем. • Гибридная архитектура (OpenMP/MPI). • Корректность используемых алгоритмов и математических моделей. • Логическая простота алгоритмов. Постановка задачи ● Размер сетки 128х680х1280, 111 млн. узлов ● DNS выполнено на 512 процессорах суперкомпьютера Marenostrum ● схема 4-го порядка аппроксимации ● Ra = 1011, Pr = 0.71 (воздух) ● Соотношение высоты и ширины – 4 к 1 Heat and Mass Transfer Technological Center Colom 11, E-08222, Terrassa, Barcelona, Spain Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва Результаты расчётов Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва • • • • • • • • • • • • Кинетические и Lattice-Boltzmann схемы Разрывные конечные элементы (Discontinuous Galerkin) Параллельные методы линейной алгебры Неструктурированные и динамически адаптивные сетки Блочное разбиение (Domain Decomposition) Рациональное разбиение на подобласти Визуализация данных высокопроизводительных вычислений Динамическая балансировка загрузки процессоров Современные CAD-технологии Гибридные языки программирования Обработка баз данных сверхбольшого объёма Алгоритмы и программное обеспечение для нетрадиционных архитектур (графические ускорители, ПЛИС) Кинетические, Lattice Boltzman схемы, метод стабилизационных поправок j j j j j+1 j df ( fM f ) dt fd , u f d , E u f 2 j j 2 d 2 j • Отличие от традиционных алгоритмов: в основе лежит дискретная модель для одночастичной функции распределения. • Явные схемы с хорошим (типа Куранта: τ~h) условием устойчивости. • Адаптация на любые, в том числе сложные неструктурированные сетки. • Внутренняя корректность – гарантия сглаживания на расстоянии длины свободного пробега – успешный расчёт различного рода неустойчивостей. Балансные соотношения на произвольной сетке f I j 1 f I ,jM t 1 mes VI , n k i 1 SiI iI f i ,jM1 f i ,jM 2 1 d 2 mes VI ,n f k i 1 S iI iI j i,M f I ,jM d Схемы повышенного порядка точности Метод конечных объемов / Метод конечных элементов Метод конечных объемов: Ci «медианный» контрольный объем Si тетраэдры, соседние к узлу i aj вершины тетраэдра M1 M3 M2 G3 i Ci G2 G G1 Метод конечных элементов: i i , i a j ij , Si T T |ai T F1NS (Q) F2NS (Q) F3NS (Q) Q F1 F2 F3 i dxdydz i dxdydz t x y z x y z Ci Ci NS i dQ NS i NS i B B Ci F ( Q ) n F ( Q ) n F ( Q ) n d F F F x 2 y 3 z 2 3 1 dT Φi Di 1 x y z dt i Ci Si n n x , n y , n z ΦiB , DiB внешняя нормаль к грани контрольного объема граничные конвективный и диффузионный потоки Минимальные размеры в механике сплошной среды Выделяются масштабы, на расстояниях меньше которых нет смысла в дальнейшей детализации решения. С их помощью строятся естественные регуляризаторы, имеющие реальный физический смысл. • Длина свободного пробега в КС и LBS. Задача фильтрации: divu 0 t u k grad p p p0 0 u' u ~ l c divu t xi 2 xi u k grad p p p0 0 Кинетическое уравнение Энскога График давления: 1 – точное решение, 2 – решение без регуляризации, 3 – решение с регуляризацией. Пример декартовой вложенной иерархической сетки с адаптацией к решению Динамическая адаптация сетки Сетка хранится в виде кватернарного дерева Интерполяция и соседние элементы p1 p7 p2 n2 n3 n4 n1 p5 p0 n6 p6 n0 n7 p3 p8 p4 n5 n8 n12 n9 n10 n11 • Размеры смежных ячеек не могут отличаться более чем вдвое. Таким образом, каждая ячейка может иметь от 6 до 12 соседей. • Каждая ячейка имеет 9 точек интерполяции, в которых хранятся величины, аппроксимирующие сеточные функции и их частные производные. • Вычисления в этих точках выполняются с учётом соседних значений. • Точки интерполяции содержат информацию, достаточную для аппроксимации уравнений в частных производных внутри ячейки, поэтому вычисления в смежных областях выполняются независимо. Расчёты в гетерогенной среде Сотовая структура: поле абсолютной проницаемости с изменением величины на четыре порядка (10-8 - 10-12 м2) Адаптация сетки Индустриальные применения Вычислительные эксперименты по ЗПК Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва Базовая численная схема (1/2) 2D контрольные объемы Декартова сетка Неструктурированная треугольная сетка 3D контрольные объемы Декартова сетка Неструктурированная тетраэдральная сетка Медианные ячейки Ячейки на центрах описанных окружностей Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва Базовая численная схема (2/2) Пространственный шаблон для определения потока между узлами I и J (сложность для распараллеливания) 2D треугольная сетка 2D шаблон высокого порядка: Противопоточные треугольники + соседи 3D тетраэдральная сетка 3D шаблон высокого порядка: Противопоточные тетраэдры + соседи Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва Звукопоглощающие конструкции Расчетная область Панель ЗПК Акустические волны в импедансной трубе Резонатор Перфорированный экран Сотовая конструкция резонаторов Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва 3D импедансная труба Течение в отверстии резонаторной камеры 300x106 пространственных узлов, 30 Tflops, MPI + OpenMP Институт Математического Моделирования РАН 125047, Mиусская пл. 4а, Москва Моделирование электронного транспорта в наноструктуре c квантовым каналом Квантовый GaAs/AlGaAs транзистор Математическая модель и методы расчета • Система нелинейных уравнений Шредингера для продольных электронных волн в канале • Уравнение Пуассона для самосогласованного потенциала электрического поля • Задача решается в условиях непрерывного энергетического спектра • Волновые функции разделены по направлению и спину на четыре класса: прямые, обратные, спин «вверх», спин «вниз». • Количество неизвестных волновых функций изменяется в пределах от 4000 до 40000 • Количество точек по пространственной координате изменяется от 200 до 1000 • Уравнения Шредингера и Пуассона дискретизируются методом конечных объемов • Решение дискретных нелинейных уравнений производится с помощью итераций, LU-разложения и продолжения по энергетической координате. Основные уравнения Параллельная реализация • Распараллеливание задачи производится по группам в энергетическом пространстве • При этом используется динамическая балансировка загрузки процессоров, необходимая ввиду неоднородности алгоритма расчета внутри группы Эффективность распараллеливания. Сетка: 500 x 24000 Результаты моделирования: эффект зарядовой поляризации - электрон с положительным спином - электрон с отрицательным спином Эффект зарядовой поляризации канала состоит в том, что усредненный по времени заряд канала квантуется и равен некоторому целому числу, измеряемому в единицах электронного заряда. В результате с помощью внешнего электрического поля можно управлять количеством электронов в квантовом канале транзистора. Эффект можно использовать для реализации новых элементов многозначной памяти зарядового типа. Быстродействие такой памяти составляет доли пикосекунды, то есть выигрыш достигается только за счет многозначности. Однако плотность упаковки может быть в 100 раз выше, чем у современных элементов памяти. Результаты моделирования: эффект спиновой поляризации - электрон с положительным спином - электрон с отрицательным спином Эффект спиновой поляризации состоит в том, что можно управлять не только количеством электронов в канале, но и распределением их спина. В частности, можно заполнить канал электронами только с положительным спином. Эффект можно использовать для реализации новых элементов памяти спинового типа. Быстродействие такой памяти составляет несколько фемтосекунд. Плотность упаковки по крайней мере в 100 раз выше, чем у современных элементов памяти. Используемые многопроцессорные вычислительные системы 1) МСЦ РАН (http://www.jscc.ru) Система МВС-100К содержит 990 вычислительных модулей, в каждом из которых находятся: - по два 4-ядерных процессора Intel® Xeon® 3 ГГц; - от 4 Гб оперативной памяти. Внутренняя сеть – Infiniband DDR, общее число ядер – 7920, пиковая производительность – 95 Tflops. 2) НИВЦ МГУ (http://srcc.msu.ru) Система СКИФ-МГУ содержит 625 вычислительных модулей, в каждом из которых находятся: - по два 4-ядерных процессора Intel® Xeon® 3 ГГц; - от 8 Гб оперативной памяти. Внутренняя сеть – Infiniband DDR, общее число ядер – 5000, пиковая производительность – 60 Tflops. НЕВЯЗКОЕ ОБТЕКАНИЕ КУЗОВА АВТОМОБИЛЯ (М = 0.12) Сетка: 430949 узлов, 2430306 тетраэдров НЕВЯЗКОЕ ОБТЕКАНИЕ КУЗОВА АВТОМОБИЛЯ Сетка: 209028730 узлов, 1244316672 тетраэдра (24 Гб) МВС: МВС-100К 1. Запуск задачи на 128, 192, 256, 320, 384 и 437 модулях с порождением 2 и 4 параллельных MPI процессов (до 1748 параллельных процессов). 2. Запуск задачи на 437 модулях в рамках гибридной модели параллелизма MPI + OpenMP (3496 параллельных процессов) CPU with Copper heat sink Assume that all power heats the heat sink 97.5mm, 78 Copper fins …… 100mm Copper 0.3mm thick 35mm to wall ~1.4mm 10mm pump air @ T=20C, flux ~.004-.005 m3/sec …… 7mm Cu CPU POWER=65W 30x30 mm (1000 x 3500 x 150 = 525 млн. расчётных узлов) Двумерная система уравнений динамики транспортного потока u v x x 2 u P uv t x y x 2 x x 2 y x y y y 2 v y uv f ; y 2 y y y 2 x x 2 u u 2 uv f P t x y x x x 3 2 u 3 Pu u v x 2 x x 2 y y y y u 2 2 uv y u v x fu ; y 2 y y y 2 x x u u2 v ku k d u k t y y. 2 t y y xt x Въезд с малым потоком машин Плотность повышается за въездом Въезд с большим потоком машин Плотность повышается перед въездом Временное расширение дороги • • Пропускная способность дороги падает по сравнению с прямой дорогой. Для получения преимущества в пропускной способности расширение дороги должно быть достаточно длинным. Заключение Без решения фундаментальных проблем дальнейшее использование высокопроизводительных вычислительных систем для решения индустриальных задач оказывается затруднительным. Налицо тесная связь программирования и прикладной математики. Необходима подготовка специалистов высшей квалификации, сочетающих глубокие знания в области прикладной и теоретической математики, программирования и математического моделирования.