HPC und AI-Leistung auf DSS8440 mit V100S-GPUs

Zusammenfassung: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, Benchmark

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Autoren: Frank Han, Rengan Xu, Quy Ta
, Dell EMC HPC & AI Innovation Lab, Mai 2020

Kurzbeschreibung

In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite. Zusammenfassung:

  • Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine Leistungssteigerung sowohl für einzelne als auch für mehrere GPUs.
  • Deep-Learning-Anwendungen, wie sie in MLPerf getestet wurden, profitieren von dem höheren erhöhten Takt und der höheren Bandbreite von V100S.
  • GPU-rechengebundene Anwendungen wie die HPC-Benchmark HPL erhalten die gleiche Leistung wie V100-PCIe.

Im weiteren Verlauf dieses Blogs werden die Details dieser Tests erläutert.  Beachten Sie, dass in Zukunft dieselben Anwendungen auf DSS8440 mit RTX-GPUs (anstelle der V100S) ausgeführt werden und auch andere Tests, wie die V100S-Leistung auf der AMD-Plattform, durchgeführt werden.

Lösung

Übersicht über das Testbed

Die Spalte Dell EMC DSS8440 Server ist ein Accelerator-optimierter Server, der speziell für High-Performance Computing- und Deep-Learning-Workloads entwickelt wurde. Die Spalte NVIDIA V100S ist das neueste Mitglied der Tesla Volta-Serie und es handelt sich um eine 32G-PCIe-basierte GPU-Karte mit doppelter Breite. In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite.

Die Hardware- und Softwaredetails des getesteten DSS 8440-Servers und der Vergleich von V100S und V100-PCIe sind in Tabelle 1 und Tabelle 2 aufgeführt.

 

Tabelle 1: Die Hardware- und Softwaredetails

SLN321304_en_US__1image(15660)

Tabelle 2: V100S und V100-PCIe unterscheiden sich in den Spezifikationen
SLN321304_en_US__2image(15661)

 

HPC-Anwendungsleistung

 

 SLN321304_en_US__3image(15658)

Abbildung 1: V100S- und V100-PCIe-HPL-Ergebnisse auf DSS8440

Abbildung 1 zeigt die HPL-Leistungszahlen. Es gibt keinen großen Unterschied zwischen V100S und V100-PCIe, da HPL eine extreme Belastungstestanwendung ist. Es gibt wenig Temperaturraum für die GPU-Boost-Funktion, daher fällt die Frequenz der GPUs sehr schnell auf die Basistaktrate zurück. Da V100S und V100-PCIe nahezu die gleiche Basistaktrate haben, bietet V100S für GPU-Compute-begrenzte Anwendungen wie HPL ungefähr die gleiche Leistung wie V100-PCIe. 

SLN321304_en_US__4image(15659)

Abbildung 2: V100S- und V100-PCIe-LAMMPS-Ergebnisse auf DSS8440

Abbildung 2 zeigt die Zeitschrittergebnisse von LAMMPS mit Lennard Jones-Datenvolumen. LAMMPS ist ein Beispiel für Molekulardynamik-Code, der bekanntermaßen eine GPU-bandbreitenbegrenzte Anwendung ist. V100S bietet in diesem Test 27 % mehr Leistung als V100-PCIe. Zur Beschleunigung trägt nicht nur die um 15 % höhere Boost-Frequenz und 26 % mehr Bandbreite bei, sondern auch die neuere Softwareversion. V100-PCIe-Nummern wurden unter Verwendung des alten KOKKOS-Pakets in der LAMMPS 8Feb2019-Version abgerufen. Die neuere Version 24Jan2020 hatte jedoch Unterstützung für die Verwendung von cuFFT auf der GPU mit KOKKOS hinzugefügt. Die meisten Details finden Sie hier: LAMMPS 24Jan2020 – Versionshinweise.

 

Deep-Learning-Anwendungsleistung

SLN321304_en_US__5image(15662)

Abbildung 3: V100S- und V100-PCIe-MLPerf-Ergebnisse auf DSS8440

MLPerf Training Closed Division 0.6 Version verfügt über 6 Untertests, die zahlreiche Deep-Learning-Bereiche abdecken, darunter Bildklassifizierung (ResNet-50), Objekterkennung (Mask R-CNN und SSD), Übersetzung (NMT und Transformer) und Reinforcement Learning (MiniGo). Die Vergleichsergebnisse beider GPU-Karten sind in Abbildung 3 dargestellt. In der gesamten MLPerf-Suite wurden für V100S Leistungssteigerungen von etwa 1 bis 5 % beobachtet, was mit dem um 1 bis 5 % höheren Durchsatz in den Ergebnisprotokolldateien übereinstimmt. Die Echtzeitausgabe der GPU-Taktrate wurde überwacht und es wurde festgestellt, dass die V100S-GPUs in all diesen Tests um 1 bis 5 % höher liefen, sodass die Leistungsvorteile durch die höhere Boost-Frequenz von V100S erzielt wurden.

Schlussfolgerungen und zukünftige Arbeiten

In diesem Blog wurden die Leistung von HPC-Anwendungen mit HPL, LAMMPS und die Deep-Learning-Leistung mit MLPerf mit V100S- und V100-PCIe-GPU-Karten auf demselben DSS8440-Server verglichen. Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine höhere Leistung für einzelne und mehrere GPUs. Deep-Learning-Anwendungen, die in MLPerf getestet wurden, profitieren ebenfalls von dem höheren erhöhten Takt und der höheren Bandbreite von V100S. Die GPU-Compute-gebundene HPC-Benchmark HPL erhält die gleiche Leistung wie V100-PCIe. In Zukunft werden dieselben Anwendungen auf DSS8440 mit RTX-GPUs ausgeführt und einige andere Tests wie die V100S-Leistung auf der AMD-Plattform werden untersucht.

Betroffene Produkte

DSS 8440, High Performance Computing Solution Resources
Artikeleigenschaften
Artikelnummer: 000133353
Artikeltyp: Solution
Zuletzt geändert: 16 Juli 2025
Version:  4
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.