HPC und AI-Leistung auf DSS8440 mit V100S-GPUs
Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, Benchmark
Symptoms
, Dell EMC HPC & AI Innovation Lab, Mai 2020
Kurzbeschreibung
In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite. Zusammenfassung:
- Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine Leistungssteigerung sowohl für einzelne als auch für mehrere GPUs.
- Deep-Learning-Anwendungen, wie sie in MLPerf getestet wurden, profitieren von dem höheren erhöhten Takt und der höheren Bandbreite von V100S.
- GPU-rechengebundene Anwendungen wie die HPC-Benchmark HPL erhalten die gleiche Leistung wie V100-PCIe.
Im weiteren Verlauf dieses Blogs werden die Details dieser Tests erläutert. Beachten Sie, dass in Zukunft dieselben Anwendungen auf DSS8440 mit RTX-GPUs (anstelle der V100S) ausgeführt werden und auch andere Tests, wie die V100S-Leistung auf der AMD-Plattform, durchgeführt werden.
Resolution
Übersicht über das Testbed
Die Spalte Dell EMC DSS8440 Server ist ein Accelerator-optimierter Server, der speziell für High-Performance Computing- und Deep-Learning-Workloads entwickelt wurde. Die Spalte NVIDIA V100S ist das neueste Mitglied der Tesla Volta-Serie und es handelt sich um eine 32G-PCIe-basierte GPU-Karte mit doppelter Breite. In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite.
Die Hardware- und Softwaredetails des getesteten DSS 8440-Servers und der Vergleich von V100S und V100-PCIe sind in Tabelle 1 und Tabelle 2 aufgeführt.
Tabelle 1: Die Hardware- und Softwaredetails

Tabelle 2: V100S und V100-PCIe unterscheiden sich in den Spezifikationen
HPC-Anwendungsleistung

Abbildung 1: V100S- und V100-PCIe-HPL-Ergebnisse auf DSS8440
Abbildung 1 zeigt die HPL-Leistungszahlen. Es gibt keinen großen Unterschied zwischen V100S und V100-PCIe, da HPL eine extreme Belastungstestanwendung ist. Es gibt wenig Temperaturraum für die GPU-Boost-Funktion, daher fällt die Frequenz der GPUs sehr schnell auf die Basistaktrate zurück. Da V100S und V100-PCIe nahezu die gleiche Basistaktrate haben, bietet V100S für GPU-Compute-begrenzte Anwendungen wie HPL ungefähr die gleiche Leistung wie V100-PCIe.

Abbildung 2: V100S- und V100-PCIe-LAMMPS-Ergebnisse auf DSS8440
Abbildung 2 zeigt die Zeitschrittergebnisse von LAMMPS mit Lennard Jones-Datenvolumen. LAMMPS ist ein Beispiel für Molekulardynamik-Code, der bekanntermaßen eine GPU-bandbreitenbegrenzte Anwendung ist. V100S bietet in diesem Test 27 % mehr Leistung als V100-PCIe. Zur Beschleunigung trägt nicht nur die um 15 % höhere Boost-Frequenz und 26 % mehr Bandbreite bei, sondern auch die neuere Softwareversion. V100-PCIe-Nummern wurden unter Verwendung des alten KOKKOS-Pakets in der LAMMPS 8Feb2019-Version abgerufen. Die neuere Version 24Jan2020 hatte jedoch Unterstützung für die Verwendung von cuFFT auf der GPU mit KOKKOS hinzugefügt. Die meisten Details finden Sie hier: LAMMPS 24Jan2020 – Versionshinweise.
Deep-Learning-Anwendungsleistung

Abbildung 3: V100S- und V100-PCIe-MLPerf-Ergebnisse auf DSS8440
MLPerf Training Closed Division 0.6 Version verfügt über 6 Untertests, die zahlreiche Deep-Learning-Bereiche abdecken, darunter Bildklassifizierung (ResNet-50), Objekterkennung (Mask R-CNN und SSD), Übersetzung (NMT und Transformer) und Reinforcement Learning (MiniGo). Die Vergleichsergebnisse beider GPU-Karten sind in Abbildung 3 dargestellt. In der gesamten MLPerf-Suite wurden für V100S Leistungssteigerungen von etwa 1 bis 5 % beobachtet, was mit dem um 1 bis 5 % höheren Durchsatz in den Ergebnisprotokolldateien übereinstimmt. Die Echtzeitausgabe der GPU-Taktrate wurde überwacht und es wurde festgestellt, dass die V100S-GPUs in all diesen Tests um 1 bis 5 % höher liefen, sodass die Leistungsvorteile durch die höhere Boost-Frequenz von V100S erzielt wurden.
Schlussfolgerungen und zukünftige Arbeiten
In diesem Blog wurden die Leistung von HPC-Anwendungen mit HPL, LAMMPS und die Deep-Learning-Leistung mit MLPerf mit V100S- und V100-PCIe-GPU-Karten auf demselben DSS8440-Server verglichen. Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine höhere Leistung für einzelne und mehrere GPUs. Deep-Learning-Anwendungen, die in MLPerf getestet wurden, profitieren ebenfalls von dem höheren erhöhten Takt und der höheren Bandbreite von V100S. Die GPU-Compute-gebundene HPC-Benchmark HPL erhält die gleiche Leistung wie V100-PCIe. In Zukunft werden dieselben Anwendungen auf DSS8440 mit RTX-GPUs ausgeführt und einige andere Tests wie die V100S-Leistung auf der AMD-Plattform werden untersucht.