Numéro d’article: 000132886

Сервер Dell EMC DSS 8440 на базе графических процессоров NVIDIA RTX для рабочих нагрузок HPC и ИИ

Résumé: Dell EMC DSS8440 Server — это 2-Сокетовый сервер 4U, предназначенный для высокопроизводительных вычислительных систем, машинного обучения (ML) и для глубокого обучения. В этой статье приведено сравнение производительности различных графических процессоров, таких как NVIDIA Волта V100S и NVIDIA Tesla T4 Тенсор Core, а также NVIDIA Quadro RTX GPU в этой системе. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Дипси Черлопалле и Федор

Dell EMC HPC и AI инновационные лаборатории, 2020 июня

Dell EMC DSS8440 Server — это 2-сокетовый сервер 4U, предназначенный для высокопроизводительных вычислительных систем, машинного обучения (ml) и для глубокого обучения. Он поддерживает различные графические процессоры, такие как NVIDIA Волта V100S SLN321776_en_US__1iC_External_Link_BD_v1 и NVIDIA Tesla T4 тенсор Core, а также NVIDIA Quadro RTX GPU .

SLN321776_en_US__4image (18426)

(Рис. 1 Dell EMC DSS840 Server)

В этом блоге мы оценены производительность экономичного NVIDIA Quadro RTX 6000, а графические процессоры NVIDIA Quadro RTX 8000 по сравнению с верхним уровнем ускорителя V100S GPU с помощью различных отраслевых инструментов по тестированию промышленных стандартов. Сюда входит тестирование в отношении единой рабочей нагрузки VS Precision. Хотя серия Quadro существовала в течение длительного времени, RTX графические процессоры с архитектурой NVIDIA Туринг, которые были запущены в конце 2018. Технические характеристики в табл. 1 показывают, что графический процессор RTX 8000 является главным для RTX 6000 с точки зрения более высоких конфигураций памяти. Однако графические процессоры RTX 8000 и RTX 6000 имеют более высокие требования к питанию в сравнении с графическим процессором V100S. Для рабочих нагрузок, которым требуется более высокая емкость памяти, RTX 8000 является лучшим вариантом.

Технические характеристики	RTX 6000	RTX 8000	V100S-32 ГБАЙТ
Архитектура	Turing		Volta
Модули	24 ГБАЙТ GDDR6	48 ГБАЙТ GDDR6	32 ГБАЙТ HBM2
Тактовая частота по умолчанию (МГц)	1395		1245
Максимальная тактовая частота графического процессора (МГц)	1770		1597
Ядра CUDA	4608		5120
FP32 (максимум ТФЛОПС)	16,3		16,4
Полоса пропускания памяти (ГБИТ/с)	672		1134
Питание	295 Вт		250 Вт

Таблица. 1 технические характеристики графического процессора

Сервер	DellEMC, PowerEdge, DSS8440
Процессор	2 x Intel Xeon 6248, 20 C, 2,5 ГГц
Модули	24 x 32 Гбайт @ 2933 MT/s (всего 768 Гбайт)
ПРОЦЕССОРА	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Волта V100S-PCIe
Хранилища	1 x Dell Express Flash NVMe, 1 ТБАЙТ 2,5 "U. 2 (P4500)
Источники питания	4 x 2400 Вт

Таблица. 2. сведения о конфигурации сервера

BIOS	2.5.4
ОС	RHEL 7,6
Ядро	3.10.0-957.el7.x86_64
Профиль системы	Оптимизация производительности
Куда Toolkit Драйвер куда	10,1 440.33.01

Таблица. 3 сведения о встроенном по системы

Приложение	Версия
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel мкл 2018 Update 4
ламмпс	Март 3 2020 опенмпи — 4.0.3
млперф	v. обучение док. 19,03

Таблица. 4 сведения о приложении

Cause

ламмпс

Ламмпс SLN321776_en_US__6iC_External_Link_BD_v1 — Это приложение Молекулар Dynamics, которое поддерживается для исследователей в Сандиа National лабораториях и Темпле университета. ЛАММПС был скомпилирован с пакетом коккос SLN321776_en_US__6iC_External_Link_BD_v1 для эффективной работы на процессорах NVIDIA. Набор данных Леннард Jones использовался для сравнения производительности, а Тиместепс/s — метрикой, как показано на рис. 2.

SLN321776_en_US__8image (18427)

(Рис. 2 Леннард Джонс)

Как показано в табл. 1, графические процессоры RTX 6000 и RTX 8000 имеют такое же количество ядер, производительность одной точности и полоса пропускания графического процессора, но разные модули памяти графического процессора. Так как оба RTX GPU имеют одинаковую конфигурацию, производительность также также находится в одном и том же диапазоне. Для данного приложения хорошо масштабируется RTX GPU, и производительность для графических процессоров идентична.

Производительность Волта V100S GPU составляет примерно три раза быстрее, чем Quadro RTX GPU. Ключевым фактором для этой более высокой производительности является увеличенная полоса пропускания памяти графического процессора V100S.

High Performance Linpack (HPL)

ХПЛ — это стандартный тест производительности HPC, который измеряет производительность вычислительных систем. Он используется в качестве эталонного эталонного теста в списке TOP500, чтобы ранжировать компьютеры по всему миру.

На приведенном ниже рисунке показана производительность RTX 6000, RTX 8000 и V100S GPU с помощью сервера DSS 8440. Как видите, производительность RTX GPU значительно ниже, чем графический процессор V100S. Это должно быть ожидаемым, так как ХПЛ выполняет оптимизацию матрицы LU, которая в первую очередь выполняет операции с плавающей запятой в первую очередь.

SLN321776_en_US__9image (18428)

(Рис. 3 ХПЛ производительность с разными GPU-процессорами)

При сравнении теоретической производительности с плавающей точкой, то есть Рпеак обоих графических процессоров, мы видим, что производительность графического процессора V100S гораздо выше. Теоретическое значение Рпеак для одного RTX графического процессора составляет примерно 500GFlops. Это значение обеспечивает меньшую производительность (Рмакс) на каждый графический процессор. Значение Рпеак для графического процессора Волта V100S — 8.2 Тфлопс, что приводит к значительному увеличению производительности каждой платы.

млперф

Потребность в стандартных отраслевых испытаниях производительности для инструктора в разработке Млперф Suite. Этот пакет включает в себя тестовые показатели для оценки производительности и получения данных о производительности и программном обеспечении для МАШИНного обеспечения. Этот раздел предназначен только для учебных показателей производительности графических процессоров. В следующей таблице перечислены рабочие нагрузки глубокого обучения, наборы данных и целевые критерии, используемые для оценки графических процессоров.

Измерения	Набора данных	Мишень Quality	Эталонная модель внедрения
Классификация образа	Имаженет (224x224)	75,9% Top-1 точность	Реснет-50 в 1,5 в
Обнаружение объектов (плотная масса)	КОКО 2017	23% карты	SSD-ResNet34
Обнаружение объектов (большой вес)	КОКО 2017	0,377 Box минимальный AP 0,339 маска минимум ap	Маска R-КНН
Перевод (в текущем виде)	ВМТ Английский (немецкий)	24,0 БЛЕУ	гнмт
Перевод (без повторного текущего)	ВМТ Английский (немецкий)	25,0 БЛЕУ	2.0
Подкреплением Learning	-	Предварительно обученная контрольная точка	Мини-переход

Табл. 5 наборов данных млперф и критериев целевого объекта (Источник:https://mlperf.org/Training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

на следующем рисунке показано время, которое должно соответствовать целевым критериям для RTX и V100S GPU:

SLN321776_en_US__11image (18441)
(Рис. 4 Млперф. производительность)

Результаты рассматриваются после выполнения нескольких запусков, удаления самого высокого и наименьшего значений, а также усреднения других запусков в соответствии с приведенными выше рекомендациями. Производительность для обоих процессоров RTX аналогична. Процентное значение дисперсии между обоими процессорами RTX минимально и в пределах допустимого диапазона в соответствии с инструкциями по Млперф. Хотя высокопроизводительный графический процессор Волта V100 обеспечивает наилучшую производительность, Кроме того, все графические процессоры RTX хорошо работают, за исключением производительности обнаружения объектов.

На момент публикации тестовый контроль классификации образа в Млперф завершился сбоем с RTX GPU из-за ошибки свертки. Эта проблема будет устранена в будущем выпуске Куднн.

Résolution

Резюме

В этом блоге мы обсуждали производительность сервера Dell EMC DSS 8440 GPU и видеоадаптеров NVIDIA RTX для рабочих нагрузок HPC и AI. Производительность для обоих RTX GPU аналогична, однако графический модуль RTX 8000 будет лучшим выбором для приложений, которым требуется больший объем памяти. Для рабочих нагрузок с двойной точностью или рабочих нагрузок, которым требуется высокая полоса пропускания Волта V100S, и новый графический адаптер NVIDIA A100 является лучшим вариантом.

В будущем мы планируем обеспечить анализ производительности RTX графических процессоров с другими приложениями с одной точностью и исследованием вывода на RTX и A100 графические процессоры.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell