Производительность HPC и ИИ на сервере DSS8440 с графическими процессорами V100S
Summary: Графический процессор, V100S, V100, DSS8440, 8 графических процессоров, MLPerf, HPL, LAMMPS, эталонный тест
Symptoms
Лаборатория Dell EMC HPC & AI Innovation Lab, май 2020 г.
Краткое содержание
В этом блоге представлены результаты исследования, в котором оценивались 8x V100S на DSS8440 для различных приложений HPC и глубокого обучения, включая HPL, LAMMPS и MLPerf-v0.6 сюита. Подводя итог,
- Приложения с ограниченной пропускной способностью графического процессора , такие как LAMMPS, могут воспользоваться преимуществами новых графических процессоров V100S и получат повышенную производительность как для одного, так и для нескольких графических процессоров.
- Приложения глубокого обучения, такие как протестированные в MLPerf, получат преимущества от более высокой тактовой частоты и более высокой пропускной способности V100S.
- Приложения, использующие вычисления на базе графического процессора, такие как эталонная HPL для высокопроизводительных вычислений, получат такую же производительность, как и V100-PCIe.
В оставшейся части этого блога подробно описаны результаты тестирования. Обратите внимание, что в будущем те же приложения будут запускаться на DSS8440 с графическими процессорами RTX (вместо V100S), а также будут проводиться другие тесты, такие как производительность V100S на платформе AMD.
Resolution
Обзор испытательного стенда
Переменная Сервер Dell EMC DSS8440 — это сервер, оптимизированный для ускорителей, специально созданный для рабочих нагрузок, связанных с высокопроизводительными вычислениями и глубинным обучением. Переменная NVIDIA V100S является новейшим представителем серии Tesla Volta и представляет собой видеокарту двойной ширины 32G PCIe на базе графического процессора. В этом блоге будут представлены результаты исследования, в котором оценивались 8x V100S на DSS8440 для различных приложений HPC и глубокого обучения, включая HPL, LAMMPS и MLPerf-v0.6 сюита.
Сведения об аппаратном и программном обеспечении протестированного сервера DSS 8440, а также сравнение моделей V100S и V100-PCIe приведены в Таблице 1 и Таблице 2.
Таблица 1. Сведения об аппаратном и программном обеспечении

Таблица 2. Технические характеристики V100S и V100-PCIe различаются
Производительность приложений HPC

Рис. 1. Результаты V100S и V100-PCIe HPL на DSS8440
На рисунке 1 показаны показатели производительности HPL. Между V100S и V100-PCIe нет большой разницы, так как HPL является приложением для экстремальных стресс-тестов. Температура воздуха в помещении невелика Функция разгона графического процессора, поэтому частота графических процессоров очень быстро падает до базовой тактовой частоты. Поскольку V100S и V100-PCIe имеют почти одинаковую базовую тактовую частоту, для приложений, ограниченных вычислениями на графическом процессоре, таких как HPL, V100S обеспечивает примерно тот же уровень производительности, что и V100-PCIe.

Рис. 2. Результаты LAMMPS V100S и V100-PCIe на DSS8440
На рисунке 2 приведены результаты LAMMPS с набором данных Леннарда Джонса. LAMMPS является примером кода молекулярной динамики, который, как известно, является приложением с ограниченной полосой пропускания графического процессора. Производительность V100S на 27% выше, чем у V100-PCIe в этом тестировании. Ускорению способствует не только увеличение частоты разгона на 15% и увеличение пропускной способности на 26%, но и более новая версия программного обеспечения. Номера V100-PCIe были получены с помощью старого пакета KOKKOS в версии LAMMPS 8Feb2019. Однако в более новой версии от 24 января 2020 года была добавлена поддержка использования cuFFT на графическом процессоре с KOKKOS. Более подробную информацию можно найти в этом Примечания к выпуску LAMMPS от 24 января 2020 г..
Производительность приложений глубинного обучения

Рис. 3. Результаты V100S и V100-PCIe MLPerf на DSS8440
Обучение MLPerf, закрытый дивизион, версия 0.6 имеет 6 субтестов, охватывающих широкий спектр областей глубокого обучения, включая классификацию изображений (ResNet-50), обнаружение объектов (Mask R-CNN и SSD), трансляцию (NMT и Transformer) и обучение с подкреплением (MiniGo). Результаты сравнения обеих плат графического процессора представлены на рис. 3. Прирост производительности при использовании пакета MLPerf для систем V100S наблюдался примерно на 1–5%, что согласуется с увеличением пропускной способности в файлах журналов результатов на 1–5%. Отслеживалась выходная тактовая частота графического процессора в режиме реального времени, и было замечено, что графические процессоры V100S работали на 1-5% выше во всех этих тестах, поэтому выигрыш в производительности был получен за счет более высокой частоты повышения частоты V100S.
Выводы и планы на будущее
В этом блоге сравнивались производительность приложений HPC с HPL, LAMMPS и производительность глубинного обучения с MLPerf и плат графических процессоров V100S и V100-PCIe на одном сервере DSS8440. Приложения, ограниченные пропускной способностью графического процессора, такие как LAMMPS, могут воспользоваться преимуществами новых графических процессоров V100S и получить повышенную производительность как для одного, так и для нескольких графических процессоров. Приложения глубинного обучения, протестированные в MLPerf, также получают преимущества от более высокой тактовой частоты и более высокой пропускной способности V100S. Эталонный тест HPL HPL, ограниченный вычислениями на базе графических процессоров, обеспечивает такую же производительность, как и V100-PCIe. В будущем те же приложения на DSS8440 будут работать с графическими процессорами RTX, а также будут изучены некоторые другие тесты, такие как производительность V100S на платформе AMD.