Wydajność HPC i AI na komputerach DSS8440 z kartami graficznymi V100S

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, test porównawczy

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Autorów: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, maj 2020 r.

Podsumowanie dla kadry kierowniczej

Na blogu przedstawiono wyniki badania oceniającego 8x V100S na DSS8440 dla różnych aplikacji HPC i głębokiego uczenia, w tym HPL, LAMMPS i MLPerf-v0.6MLPerf-v0.6 suita. Podsumowując:

  • Aplikacje ograniczone przepustowością GPU , takie jak LAMMPS, mogą korzystać z nowych procesorów graficznych V100S i uzyskać zwiększoną wydajność zarówno dla jednego, jak i wielu procesorów graficznych.
  • Aplikacje do głębokiego uczenia, takie jak te testowane w MLPerf, uzyskają korzyści z wyższego taktowania i wyższej przepustowości V100S.
  • Aplikacje obliczeniowe GPU , takie jak test porównawczy HPC HPL, uzyskają taką samą wydajność jak V100-PCIe.

Dalsza część tego bloga przedstawia szczegóły tych testów.  Należy pamiętać, że w przyszłości te same aplikacje będą uruchamiane na DSS8440 z procesorami graficznymi RTX (zamiast V100S), a także będą uruchamiane inne testy, takie jak wydajność V100S na platformie AMD.

Resolution

Przegląd stanowiska testowego

Kolumna Serwer Dell EMC DSS8440 to serwer zoptymalizowany pod kątem akceleratorów, zaprojektowany specjalnie z myślą o obliczeniach o wysokiej wydajności i obciążeniach związanych z głębokim uczeniem. Kolumna NVIDIA V100S to najnowszy członek serii Tesla Volta i jest to karta GPU o podwójnej szerokości 32 GB PCIe. Na blogu zostaną przedstawione wyniki badania oceniającego 8x V100S na DSS8440 dla różnych aplikacji HPC i głębokiego uczenia, w tym HPL, LAMMPS i MLPerf-v0.6MLPerf-v0.6 suita.

Szczegóły dotyczące sprzętu i oprogramowania testowanego serwera DSS 8440 oraz porównanie V100S i V100-PCIe przedstawiono w tabeli 1 i tabeli 2.

 

Tabela 1: Szczegółowe informacje o sprzęcie i oprogramowaniu

SLN321304_en_US__1image(15660)

Tabela 2: Różnica w specyfikacji V100S i V100-PCIe
SLN321304_en_US__2image(15661)

 

Wydajność aplikacji HPC

 

 SLN321304_en_US__3image(15658)

Rysunek 1. Wyniki V100S i V100-PCIe HPL na DSS8440

Rysunek 1 przedstawia dane dotyczące wydajności systemu HPL. Nie ma dużej różnicy między V100S a V100-PCIe, ponieważ HPL jest aplikacją do ekstremalnych testów obciążeniowych. Jest mało miejsca na temperaturę dla Funkcja przyspieszenia GPU, dlatego częstotliwość procesorów graficznych bardzo szybko wraca do bazowej częstotliwości zegara. Ponieważ V100S i V100-PCIe mają prawie taką samą podstawową częstotliwość zegara, w przypadku aplikacji ograniczonych obliczeniami GPU, takich jak HPL, V100S zapewnia mniej więcej taki sam poziom wydajności jak V100-PCIe. 

SLN321304_en_US__4image(15659)

Rysunek 2. Wyniki V100S i V100-PCIe LAMMPS na DSS8440

Rysunek 2 przedstawia przedziały czasowe wyników LAMMPS z zestawem danych Lennarda Jonesa. LAMMPS jest przykładem kodu dynamiki molekularnej, o którym wiadomo, że jest aplikacją ograniczoną przepustowością GPU. System V100S zapewnia w tym teście o 27% wyższą wydajność niż V100-PCIe. Przyspieszenie wynika nie tylko z 15% wyższej częstotliwości doładowania i 26% większej przepustowości, ale także z nowszej wersji oprogramowania. Numery V100-PCIe zostały uzyskane przy użyciu starego pakietu KOKKOS w wersji LAMMPS 8Feb2019. Jednak nowsza wersja 24 stycznia 2020 r. dodała obsługę używania cuFFT na GPU z KOKKOS. Większość szczegółów można znaleźć w tym Informacje o wersji LAMMPS z 24 stycznia 2020 r..

 

Wydajność aplikacji do uczenia głębokiego

SLN321304_en_US__5image(15662)

Rysunek 3. Wyniki V100S i V100-PCIe MLPerf na DSS8440

MLPerf trening zamknięty dywizja 0.6 wersja składa się z 6 podtestów obejmujących szerokie dziedziny głębokiego uczenia, w tym klasyfikację obrazów (ResNet-50), wykrywanie obiektów (Maska R-CNN i SSD), translację (NMT i Transformer) oraz uczenie przez wzmacnianie (MiniGo). Wyniki porównania obu kart GPU przedstawiono na rysunku 3. Zaobserwowano około 1–5% wzrost wydajności w pakiecie MLPerf dla V100S, co jest zgodne z 1–5% wyższą przepływnością w plikach dziennika wyników. Monitorowano moc wyjściową częstotliwości zegara GPU w czasie rzeczywistym i zaobserwowano, że procesory graficzne V100S działały z 1-5% wyższą częstotliwością we wszystkich tych testach, więc korzyści w zakresie wydajności wynikały z wyższej częstotliwości V100S.

Wnioski i przyszłe prace

W tym blogu porównano wydajność aplikacji HPC z HPL, LAMMPS i wydajność głębokiego uczenia z MLPerf z kartami GPU V100S i V100-PCIe na tym samym serwerze DSS8440. Aplikacje ograniczone przepustowością GPU, takie jak LAMMPS, mogą korzystać z nowych procesorów graficznych V100S i uzyskać zwiększoną wydajność zarówno dla jednego, jak i wielu procesorów graficznych. Aplikacje do uczenia głębokiego przetestowane w MLPerf również czerpią korzyści z wyższego taktowania i wyższej przepustowości V100S. Test porównawczy HPL HPL z ograniczeniami obliczeniowymi GPU uzyskuje taką samą wydajność jak V100-PCIe. W przyszłości te same aplikacje na DSS8440 będą uruchamiane z procesorami graficznymi RTX, a niektóre inne testy, takie jak wydajność V100S na platformie AMD, zostaną zbadane.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.