Производительность HPC и ИИ на сервере DSS8440 с графическими процессорами V100S

Summary: Графический процессор, V100S, V100, DSS8440, 8 графических процессоров, MLPerf, HPL, LAMMPS, эталонный тест

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Авторы: Фрэнк Хан (Frank Han), Ренгань Сюй (Rengan Xu), Цюй Та
Лаборатория Dell EMC HPC & AI Innovation Lab, май 2020 г.

Краткое содержание

В этом блоге представлены результаты исследования, в котором оценивались 8x V100S на DSS8440 для различных приложений HPC и глубокого обучения, включая HPL, LAMMPS и MLPerf-v0.6 сюита. Подводя итог,

  • Приложения с ограниченной пропускной способностью графического процессора , такие как LAMMPS, могут воспользоваться преимуществами новых графических процессоров V100S и получат повышенную производительность как для одного, так и для нескольких графических процессоров.
  • Приложения глубокого обучения, такие как протестированные в MLPerf, получат преимущества от более высокой тактовой частоты и более высокой пропускной способности V100S.
  • Приложения, использующие вычисления на базе графического процессора, такие как эталонная HPL для высокопроизводительных вычислений, получат такую же производительность, как и V100-PCIe.

В оставшейся части этого блога подробно описаны результаты тестирования.  Обратите внимание, что в будущем те же приложения будут запускаться на DSS8440 с графическими процессорами RTX (вместо V100S), а также будут проводиться другие тесты, такие как производительность V100S на платформе AMD.

Resolution

Обзор испытательного стенда

Переменная Сервер Dell EMC DSS8440 — это сервер, оптимизированный для ускорителей, специально созданный для рабочих нагрузок, связанных с высокопроизводительными вычислениями и глубинным обучением. Переменная NVIDIA V100S является новейшим представителем серии Tesla Volta и представляет собой видеокарту двойной ширины 32G PCIe на базе графического процессора. В этом блоге будут представлены результаты исследования, в котором оценивались 8x V100S на DSS8440 для различных приложений HPC и глубокого обучения, включая HPL, LAMMPS и MLPerf-v0.6 сюита.

Сведения об аппаратном и программном обеспечении протестированного сервера DSS 8440, а также сравнение моделей V100S и V100-PCIe приведены в Таблице 1 и Таблице 2.

 

Таблица 1. Сведения об аппаратном и программном обеспечении

SLN321304_en_US__1image(15660)

Таблица 2. Технические характеристики V100S и V100-PCIe различаются
SLN321304_en_US__2image(15661)

 

Производительность приложений HPC

 

 SLN321304_en_US__3image(15658)

Рис. 1. Результаты V100S и V100-PCIe HPL на DSS8440

На рисунке 1 показаны показатели производительности HPL. Между V100S и V100-PCIe нет большой разницы, так как HPL является приложением для экстремальных стресс-тестов. Температура воздуха в помещении невелика Функция разгона графического процессора, поэтому частота графических процессоров очень быстро падает до базовой тактовой частоты. Поскольку V100S и V100-PCIe имеют почти одинаковую базовую тактовую частоту, для приложений, ограниченных вычислениями на графическом процессоре, таких как HPL, V100S обеспечивает примерно тот же уровень производительности, что и V100-PCIe. 

SLN321304_en_US__4image(15659)

Рис. 2. Результаты LAMMPS V100S и V100-PCIe на DSS8440

На рисунке 2 приведены результаты LAMMPS с набором данных Леннарда Джонса. LAMMPS является примером кода молекулярной динамики, который, как известно, является приложением с ограниченной полосой пропускания графического процессора. Производительность V100S на 27% выше, чем у V100-PCIe в этом тестировании. Ускорению способствует не только увеличение частоты разгона на 15% и увеличение пропускной способности на 26%, но и более новая версия программного обеспечения. Номера V100-PCIe были получены с помощью старого пакета KOKKOS в версии LAMMPS 8Feb2019. Однако в более новой версии от 24 января 2020 года была добавлена поддержка использования cuFFT на графическом процессоре с KOKKOS. Более подробную информацию можно найти в этом Примечания к выпуску LAMMPS от 24 января 2020 г..

 

Производительность приложений глубинного обучения

SLN321304_en_US__5image(15662)

Рис. 3. Результаты V100S и V100-PCIe MLPerf на DSS8440

Обучение MLPerf, закрытый дивизион, версия 0.6 имеет 6 субтестов, охватывающих широкий спектр областей глубокого обучения, включая классификацию изображений (ResNet-50), обнаружение объектов (Mask R-CNN и SSD), трансляцию (NMT и Transformer) и обучение с подкреплением (MiniGo). Результаты сравнения обеих плат графического процессора представлены на рис. 3. Прирост производительности при использовании пакета MLPerf для систем V100S наблюдался примерно на 1–5%, что согласуется с увеличением пропускной способности в файлах журналов результатов на 1–5%. Отслеживалась выходная тактовая частота графического процессора в режиме реального времени, и было замечено, что графические процессоры V100S работали на 1-5% выше во всех этих тестах, поэтому выигрыш в производительности был получен за счет более высокой частоты повышения частоты V100S.

Выводы и планы на будущее

В этом блоге сравнивались производительность приложений HPC с HPL, LAMMPS и производительность глубинного обучения с MLPerf и плат графических процессоров V100S и V100-PCIe на одном сервере DSS8440. Приложения, ограниченные пропускной способностью графического процессора, такие как LAMMPS, могут воспользоваться преимуществами новых графических процессоров V100S и получить повышенную производительность как для одного, так и для нескольких графических процессоров. Приложения глубинного обучения, протестированные в MLPerf, также получают преимущества от более высокой тактовой частоты и более высокой пропускной способности V100S. Эталонный тест HPL HPL, ограниченный вычислениями на базе графических процессоров, обеспечивает такую же производительность, как и V100-PCIe. В будущем те же приложения на DSS8440 будут работать с графическими процессорами RTX, а также будут изучены некоторые другие тесты, такие как производительность V100S на платформе AMD.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.