Векторно-конвейерные компьютеры 957 kB

advertisement
Векторно-конвейерные компьютеры
Входные регистры
Конвейерное АЛУ
Память
1
Входные регистры
АЛУ
АЛУ
АЛУ
Память
Основное
назначение
векторных
операций
состоит
в
распараллеливании выполнения операторов цикла, в которых в
основном и сосредоточена большая часть вычислительной работы.
2
Первый векторно-конвейерный компьютер Cray-1 появился в
1976 г. Архитектура его оказалась настолько удачной, что он дал
начало целому семейству компьютеров PVP (Parallel Vector
Processing).
Название этому семейству дали два принципа, заложенных в
архитектуре процессоров: конвейерная организация обработки
потока команд и введение в систему команд набора векторных
операций, которые позволяют работать с целыми массивами
данных.
Суперкомпьютер Cray Y-MP C90
3
Interprocessor
Communications
Векторные
регистры
8 регистров
128 элементов
64 разряда
CPU 1
Т - регистры
64 регистров
64 разряда
Memory
CPU 2
В- регистры
64 регистров
32 разряда
Маска
вектора
128 разрядов
Векторные
FU
Длина
вектора
8 разрядов
FU с
плавающей
точкой
S - регистры
8 регистров
64 разряда
Скалярные
FU
A- регистры
8 регистров
32 разряда
Адресные
FU
Буфер
инструкций
CPU
14
I/O контроль
CPU
15
CPU 0
I/O section
LOSP – 6 MB/s
HISP – 200 MB/s
VHISP – 1800 MB/s
К внешним
устройствам
4
Оперативная
память
(Memory)
разделяется
между
процессорами и секцией ввода/вывода. В ней используются 80разрядные слова: 64 бита информационных и 16 - для коррекции
ошибок. Для увеличения скорости выборки память разделена на 8
секций, в каждой из которых 8 подсекций, а в последних - 16
банков. Физические адреса чередуются так, что имеется
возможность параллельного обращения к нескольким банкам.
Секция ввода/вывода содержит три подсекции, которые
работают с каналами трех типов:
а) LOSP – низкоскоростными (Low speed);
б) HISP – высокоскоростными (High speed);
в) VHISP – очень высокоскоростными (Very high speed).
5
Секция межпроцессорного взаимодействия
(Interprocessor Communication):
а) Регистры:
- векторные (V);
- адресные (А);
- скалярные (S);
- вспомогательные (В – адресные, Т - скалярные);
- длины вектора и маски вектора.
б) Функциональные устройства (4 группы):
- адресные (два);
- скалярные (четыре);
- векторные (пять - семь);
- с плавающей точкой (три).
в) Секция управления, которая содержит буферы команд.
Для повышения производительности используется, так называемое,
векторное зацепление функциональных устройств. При этом регистр
результатов является входным для следующих операций: выход сразу
подается на вход. Зацепления на следующие операции:
а) чтение векторов;
б) сложение;
в) умножение;
6
г) запись векторов.
Суперкомпьютеры NEC SX
Типичным примером PVP-решений могут служить системы SX, которые
создает подразделение корпорации NEC - HNSX Supercomputers
7
Суперкомпьютеры различных поколений NEC совместимы
снизу вверх. К основным компонентам архитектуры NEC SX
относятся центральный процессор, подсистема оперативной
памяти и подсистема ввода-вывода.
Эти компоненты объединяются в узлы SMP-архитектуры,
которые, в свою очередь, связаны через межсоединение
Internode Crossbar Switch (IXS). Вся память всех узлов является
общей; иными словами, многоузловые модели SX имеют
архитектуру NUMA.
Каждый центральный процессор в NEC SX состоит из двух
основных блоков: векторного и скалярного устройств. В
архитектуре SX имеются операционные векторные регистры (над
ними выполняются основные команды) и векторные регистры
данных.
В большинстве случаев применение векторных регистров
позволяет заметно уменьшить трафик при обмене данными
между центральным процессором и оперативной памятью.
8
Исполнительные
блоки
векторного
устройства
конвейеризованы.
Скалярное устройство в SX содержит кэш данных и кэш
команд, а также 64-разрядные регистры общего
назначения. Так, для SX-5 размеры указанной кэш-памяти
составляют по 64 Кбайт, а число регистров общего
назначения равно 128.
Все команды выдает на исполнение скалярное устройство,
способное декодировать до четырех команд за такт.
Например, как скалярное, так и векторное устройства SX-5
оперируют с 32- и 64-разрядными числами с плавающей
точкой в формате IEEE. Скалярное устройство SX-5
поддерживает также 128-разрядные числа расширенной
точности.
В составе процессора, кроме основных блоков скалярного и векторного, можно также выделить
интерфейс с оперативной памятью и так называемые
коммуникационные регистры. Они служат в первую
очередь
для
обеспечения
синхронизации
при
распараллеливании задач.
9
Серия SX-5
Эти
суперкомпьютеры
предназначены
для
крупномасштабных
параллельных
вычислений,
что
обеспечивается набором параллельно работающих узлов,
каждый из которых, в свою очередь, представляет собой
полноценный векторно-конвейерный SMP-суперкомпьютер.
10
Суперкомпьютер SX-7
11
Суперкомпьютер SX-8
12
Характеристики много узловой системы NEC SX-8
13
Cуперкомпьютер Earth Simulator
Высокопроизводительная векторно-параллельная система
"Имитатор Земли" (Earth Simulator) в "Центре моделирования Земли"
(Earth Simulator Center, ESC)
14
Система Earth Simulator размещена в здании, похожем на
авиационный ангар, с площадью пола равной 50х65 м2 (оно
принадлежит Институту наук о Земле в Иокогаме - Yokohama Institute
for Earth Sciences).
Суперкомпьютер состоит из 640 узлов производительностью 64
GFLOP/узел c общим числом процессоров 5120, для соединения
которых потребовалось 2800 км кабеля. Каждый узел состоит из
восьми
векторных
процессоров
производительностью
8
GFLOP/процессор и пиковой производительностью в 40 GFLOP.
Высокоскоростная сеть, соединяющая процессоры, обеспечивает
скорость передачи данных в 12,3 Гбайт.
Для охлаждения системы через рабочие помещения в течение 10 с
прокачивается 1 млн кубических метров воздуха.
Все 640 узлов Earth Simulator основаны на архитектуре NEC SX.
Каждый процессорный узел PN (Processor Node) состоит из восьми
арифметических процессоров векторного типа AP (Arithmetic
Processor), 16 Гбайт основной памяти MS (Memory System), удаленного
устройства управления RCU (Remote Control Unit) и процессора вводавывода I/O. В состав Earth Simulator входит 5120 AP. Пиковая
производительность каждого AP составляет 8 GFLOPS, а
теоретическая производительность всей системы может достигать 40
15
TFLOPS. Время цикла составляет 2 нс.
Подсистема MDPS (Mass Data Processing System) включает четыре
файловых сервисных процессора, 250 Тбайт дисковой и 1,5 Пбайт
ленточной памяти. Последняя выполнена на базе библиотеки
StorageTek 9310. Объем оперативной памяти для всей системы
составляет 10 Тбайт, а общий объем дисковой памяти, включающий
рабочее дисковое пространство (около 460 Тбайт), превышает 700
Тбайт.
В качестве ОС используется SUPER-UX. ПО и среда разработки,
основанные на Unix, созданые специально для суперкомпьютеров NEC
SX-серий. Используются языки программирования Fortran90, HPF, C и
C++. Трансляторы этих языков могут выполнять автоматическое
распараллеливание и векторизацию.
Одна из основных особенностей Earth Simulator связана с
организацией межузлового коммутатора и с иерархической
системой объединения узлов.
Межузловой коммутатор соединяет 640 узлов, причем любая
их пара может обмениваться данными с пропускной способностью,
равной 12,3 Гбайт/с в одном направлении, так что суммарная
пропускная способность коммутатора равна 7,9 Тбайт/с.
16
NEC организовала систему Earth Simulator в виде
двухуровневого кластера, назвав его суперкластерной
системой. Набор из 640 узлов разбит на 40 кластеров, по 16
узлов на кластер. Предусмотрено два их типа- S-кластер (один
на всю конфигурацию) и L-кластеры (остальные 39).
S-кластер имеет два специализированных узла для
интерактивной обработки; другие узлы S-кластера используются
для относительно небольших пакетных заданий. Только Sкластер содержит пользовательские диски суммарной емкостью
255 Тбайт.
17
Download