HPC und AI-Leistung auf DSS8440 mit V100S-GPUs

Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, Benchmark

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Autoren: Frank Han, Rengan Xu, Quy Ta
, Dell EMC HPC & AI Innovation Lab, Mai 2020

Kurzbeschreibung

In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite. Zusammenfassung:

  • Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine Leistungssteigerung sowohl für einzelne als auch für mehrere GPUs.
  • Deep-Learning-Anwendungen, wie sie in MLPerf getestet wurden, profitieren von dem höheren erhöhten Takt und der höheren Bandbreite von V100S.
  • GPU-rechengebundene Anwendungen wie die HPC-Benchmark HPL erhalten die gleiche Leistung wie V100-PCIe.

Im weiteren Verlauf dieses Blogs werden die Details dieser Tests erläutert.  Beachten Sie, dass in Zukunft dieselben Anwendungen auf DSS8440 mit RTX-GPUs (anstelle der V100S) ausgeführt werden und auch andere Tests, wie die V100S-Leistung auf der AMD-Plattform, durchgeführt werden.

Resolution

Übersicht über das Testbed

Die Spalte Dell EMC DSS8440 Server ist ein Accelerator-optimierter Server, der speziell für High-Performance Computing- und Deep-Learning-Workloads entwickelt wurde. Die Spalte NVIDIA V100S ist das neueste Mitglied der Tesla Volta-Serie und es handelt sich um eine 32G-PCIe-basierte GPU-Karte mit doppelter Breite. In diesem Blog werden die Ergebnisse der Studie vorgestellt, in der 8 x V100S auf DSS8440 für verschiedene HPC- und Deep-Learning-Anwendungen wie HPL, LAMMPS und MLPerf-v0.6 Suite.

Die Hardware- und Softwaredetails des getesteten DSS 8440-Servers und der Vergleich von V100S und V100-PCIe sind in Tabelle 1 und Tabelle 2 aufgeführt.

 

Tabelle 1: Die Hardware- und Softwaredetails

SLN321304_en_US__1image(15660)

Tabelle 2: V100S und V100-PCIe unterscheiden sich in den Spezifikationen
SLN321304_en_US__2image(15661)

 

HPC-Anwendungsleistung

 

 SLN321304_en_US__3image(15658)

Abbildung 1: V100S- und V100-PCIe-HPL-Ergebnisse auf DSS8440

Abbildung 1 zeigt die HPL-Leistungszahlen. Es gibt keinen großen Unterschied zwischen V100S und V100-PCIe, da HPL eine extreme Belastungstestanwendung ist. Es gibt wenig Temperaturraum für die GPU-Boost-Funktion, daher fällt die Frequenz der GPUs sehr schnell auf die Basistaktrate zurück. Da V100S und V100-PCIe nahezu die gleiche Basistaktrate haben, bietet V100S für GPU-Compute-begrenzte Anwendungen wie HPL ungefähr die gleiche Leistung wie V100-PCIe. 

SLN321304_en_US__4image(15659)

Abbildung 2: V100S- und V100-PCIe-LAMMPS-Ergebnisse auf DSS8440

Abbildung 2 zeigt die Zeitschrittergebnisse von LAMMPS mit Lennard Jones-Datenvolumen. LAMMPS ist ein Beispiel für Molekulardynamik-Code, der bekanntermaßen eine GPU-bandbreitenbegrenzte Anwendung ist. V100S bietet in diesem Test 27 % mehr Leistung als V100-PCIe. Zur Beschleunigung trägt nicht nur die um 15 % höhere Boost-Frequenz und 26 % mehr Bandbreite bei, sondern auch die neuere Softwareversion. V100-PCIe-Nummern wurden unter Verwendung des alten KOKKOS-Pakets in der LAMMPS 8Feb2019-Version abgerufen. Die neuere Version 24Jan2020 hatte jedoch Unterstützung für die Verwendung von cuFFT auf der GPU mit KOKKOS hinzugefügt. Die meisten Details finden Sie hier: LAMMPS 24Jan2020 – Versionshinweise.

 

Deep-Learning-Anwendungsleistung

SLN321304_en_US__5image(15662)

Abbildung 3: V100S- und V100-PCIe-MLPerf-Ergebnisse auf DSS8440

MLPerf Training Closed Division 0.6 Version verfügt über 6 Untertests, die zahlreiche Deep-Learning-Bereiche abdecken, darunter Bildklassifizierung (ResNet-50), Objekterkennung (Mask R-CNN und SSD), Übersetzung (NMT und Transformer) und Reinforcement Learning (MiniGo). Die Vergleichsergebnisse beider GPU-Karten sind in Abbildung 3 dargestellt. In der gesamten MLPerf-Suite wurden für V100S Leistungssteigerungen von etwa 1 bis 5 % beobachtet, was mit dem um 1 bis 5 % höheren Durchsatz in den Ergebnisprotokolldateien übereinstimmt. Die Echtzeitausgabe der GPU-Taktrate wurde überwacht und es wurde festgestellt, dass die V100S-GPUs in all diesen Tests um 1 bis 5 % höher liefen, sodass die Leistungsvorteile durch die höhere Boost-Frequenz von V100S erzielt wurden.

Schlussfolgerungen und zukünftige Arbeiten

In diesem Blog wurden die Leistung von HPC-Anwendungen mit HPL, LAMMPS und die Deep-Learning-Leistung mit MLPerf mit V100S- und V100-PCIe-GPU-Karten auf demselben DSS8440-Server verglichen. Anwendungen, die durch die GPU-Bandbreite eingeschränkt sind, wie LAMMPS, können die Vorteile der neuen V100S-GPUs nutzen und erhalten eine höhere Leistung für einzelne und mehrere GPUs. Deep-Learning-Anwendungen, die in MLPerf getestet wurden, profitieren ebenfalls von dem höheren erhöhten Takt und der höheren Bandbreite von V100S. Die GPU-Compute-gebundene HPC-Benchmark HPL erhält die gleiche Leistung wie V100-PCIe. In Zukunft werden dieselben Anwendungen auf DSS8440 mit RTX-GPUs ausgeführt und einige andere Tests wie die V100S-Leistung auf der AMD-Plattform werden untersucht.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.