Wydajność HPC i AI na komputerach DSS8440 z kartami graficznymi V100S
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, test porównawczy
Symptoms
Dell EMC HPC & AI Innovation Lab, maj 2020 r.
Podsumowanie dla kadry kierowniczej
Na blogu przedstawiono wyniki badania oceniającego 8x V100S na DSS8440 dla różnych aplikacji HPC i głębokiego uczenia, w tym HPL, LAMMPS i MLPerf-v0.6MLPerf-v0.6 suita. Podsumowując:
- Aplikacje ograniczone przepustowością GPU , takie jak LAMMPS, mogą korzystać z nowych procesorów graficznych V100S i uzyskać zwiększoną wydajność zarówno dla jednego, jak i wielu procesorów graficznych.
- Aplikacje do głębokiego uczenia, takie jak te testowane w MLPerf, uzyskają korzyści z wyższego taktowania i wyższej przepustowości V100S.
- Aplikacje obliczeniowe GPU , takie jak test porównawczy HPC HPL, uzyskają taką samą wydajność jak V100-PCIe.
Dalsza część tego bloga przedstawia szczegóły tych testów. Należy pamiętać, że w przyszłości te same aplikacje będą uruchamiane na DSS8440 z procesorami graficznymi RTX (zamiast V100S), a także będą uruchamiane inne testy, takie jak wydajność V100S na platformie AMD.
Resolution
Przegląd stanowiska testowego
Kolumna Serwer Dell EMC DSS8440 to serwer zoptymalizowany pod kątem akceleratorów, zaprojektowany specjalnie z myślą o obliczeniach o wysokiej wydajności i obciążeniach związanych z głębokim uczeniem. Kolumna NVIDIA V100S to najnowszy członek serii Tesla Volta i jest to karta GPU o podwójnej szerokości 32 GB PCIe. Na blogu zostaną przedstawione wyniki badania oceniającego 8x V100S na DSS8440 dla różnych aplikacji HPC i głębokiego uczenia, w tym HPL, LAMMPS i MLPerf-v0.6MLPerf-v0.6 suita.
Szczegóły dotyczące sprzętu i oprogramowania testowanego serwera DSS 8440 oraz porównanie V100S i V100-PCIe przedstawiono w tabeli 1 i tabeli 2.
Tabela 1: Szczegółowe informacje o sprzęcie i oprogramowaniu

Tabela 2: Różnica w specyfikacji V100S i V100-PCIe
Wydajność aplikacji HPC

Rysunek 1. Wyniki V100S i V100-PCIe HPL na DSS8440
Rysunek 1 przedstawia dane dotyczące wydajności systemu HPL. Nie ma dużej różnicy między V100S a V100-PCIe, ponieważ HPL jest aplikacją do ekstremalnych testów obciążeniowych. Jest mało miejsca na temperaturę dla Funkcja przyspieszenia GPU, dlatego częstotliwość procesorów graficznych bardzo szybko wraca do bazowej częstotliwości zegara. Ponieważ V100S i V100-PCIe mają prawie taką samą podstawową częstotliwość zegara, w przypadku aplikacji ograniczonych obliczeniami GPU, takich jak HPL, V100S zapewnia mniej więcej taki sam poziom wydajności jak V100-PCIe.

Rysunek 2. Wyniki V100S i V100-PCIe LAMMPS na DSS8440
Rysunek 2 przedstawia przedziały czasowe wyników LAMMPS z zestawem danych Lennarda Jonesa. LAMMPS jest przykładem kodu dynamiki molekularnej, o którym wiadomo, że jest aplikacją ograniczoną przepustowością GPU. System V100S zapewnia w tym teście o 27% wyższą wydajność niż V100-PCIe. Przyspieszenie wynika nie tylko z 15% wyższej częstotliwości doładowania i 26% większej przepustowości, ale także z nowszej wersji oprogramowania. Numery V100-PCIe zostały uzyskane przy użyciu starego pakietu KOKKOS w wersji LAMMPS 8Feb2019. Jednak nowsza wersja 24 stycznia 2020 r. dodała obsługę używania cuFFT na GPU z KOKKOS. Większość szczegółów można znaleźć w tym Informacje o wersji LAMMPS z 24 stycznia 2020 r..
Wydajność aplikacji do uczenia głębokiego

Rysunek 3. Wyniki V100S i V100-PCIe MLPerf na DSS8440
MLPerf trening zamknięty dywizja 0.6 wersja składa się z 6 podtestów obejmujących szerokie dziedziny głębokiego uczenia, w tym klasyfikację obrazów (ResNet-50), wykrywanie obiektów (Maska R-CNN i SSD), translację (NMT i Transformer) oraz uczenie przez wzmacnianie (MiniGo). Wyniki porównania obu kart GPU przedstawiono na rysunku 3. Zaobserwowano około 1–5% wzrost wydajności w pakiecie MLPerf dla V100S, co jest zgodne z 1–5% wyższą przepływnością w plikach dziennika wyników. Monitorowano moc wyjściową częstotliwości zegara GPU w czasie rzeczywistym i zaobserwowano, że procesory graficzne V100S działały z 1-5% wyższą częstotliwością we wszystkich tych testach, więc korzyści w zakresie wydajności wynikały z wyższej częstotliwości V100S.
Wnioski i przyszłe prace
W tym blogu porównano wydajność aplikacji HPC z HPL, LAMMPS i wydajność głębokiego uczenia z MLPerf z kartami GPU V100S i V100-PCIe na tym samym serwerze DSS8440. Aplikacje ograniczone przepustowością GPU, takie jak LAMMPS, mogą korzystać z nowych procesorów graficznych V100S i uzyskać zwiększoną wydajność zarówno dla jednego, jak i wielu procesorów graficznych. Aplikacje do uczenia głębokiego przetestowane w MLPerf również czerpią korzyści z wyższego taktowania i wyższej przepustowości V100S. Test porównawczy HPL HPL z ograniczeniami obliczeniowymi GPU uzyskuje taką samą wydajność jak V100-PCIe. W przyszłości te same aplikacje na DSS8440 będą uruchamiane z procesorami graficznymi RTX, a niektóre inne testy, takie jak wydajność V100S na platformie AMD, zostaną zbadane.