HPC- en AI-prestaties op DSS8440 met V100S-GPU's (in het Engels)

Summary: GPU, V100S, V100, DSS8440, 8 GPU's, MLPerf, HPL, LAMMPS, benchmark

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Authors: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, mei 2020

Samenvatting

In deze blog presenteren we de resultaten van het onderzoek waarin 8x V100S op DSS8440 werden geëvalueerd voor verschillende HPC- en deep learning-toepassingen, waaronder HPL, LAMMPS en MLPerf-v0.6 suite. Samenvattend:

  • Applicaties die worden beperkt door GPU-bandbreedte, zoals LAMMPS, kunnen profiteren van de nieuwe V100S GPU's en krijgen betere prestaties voor zowel enkele als meerdere GPU's.
  • Deep learning-applicaties, zoals de applicaties die zijn getest in MLPerf, zullen profiteren van de hogere verhoogde kloksnelheid en hogere bandbreedte van V100S.
  • GPU-compute-gebonden applicaties zoals de HPC-benchmark HPL krijgen dezelfde prestaties als V100-PCIe.

In de rest van deze blog worden de details van deze tests uiteengezet.  Houd er rekening mee dat in de toekomst dezelfde applicaties zullen worden uitgevoerd op DSS8440 met RTX GPU's (in plaats van de V100S) en dat ook andere tests, zoals V100S-prestaties op het AMD-platform, zullen worden uitgevoerd.

Resolution

Overzicht van het testbed

De Dell EMC DSS8440 server is een voor accelerators geoptimaliseerde server, speciaal ontworpen voor high-performance computing en deep learning-workloads. De NVIDIA V100S is het nieuwste lid in de Tesla Volta-serie en het is een 32G PCIe-gebaseerde GPU-kaart met dubbele breedte. In deze blog presenteren we de resultaten van het onderzoek waarin 8 x V100S on DSS8440 worden geëvalueerd voor verschillende HPC- en deep learning-applicaties, waaronder HPL, LAMMPS en MLPerf-v0.6 suite.

De hardware- en softwaregegevens van de geteste DSS 8440 server en de vergelijking van V100S en V100-PCIe worden vermeld in tabel 1 en tabel 2.

 

Tabel 1: De hardware- en softwaregegevens

SLN321304_en_US__1image(15660)

Tabel 2: V100S en V100-PCIe verschillen in specificatie
SLN321304_en_US__2image(15661)

 

HPC-applicatieprestaties

 

 SLN321304_en_US__3image(15658)

Afbeelding 1: Resultaten van V100S en V100-PCIe HPL op DSS8440

Figuur 1 toont de HPL-prestatiecijfers. Er is niet veel verschil tussen V100S en V100-PCIe, omdat HPL een extreme stresstesttoepassing is. Er is weinig ruimte voor de temperatuur voor de GPU Boost-functie, daarom valt de frequentie van de GPU's zeer snel terug naar de basiskloksnelheid. Omdat V100S en V100-PCIe bijna dezelfde basiskloksnelheid hebben, levert V100S voor GPU-compute-gebonden applicaties zoals HPL ongeveer hetzelfde prestatieniveau als V100-PCIe. 

SLN321304_en_US__4image(15659)

Afbeelding 2: Resultaten van V100S en V100-PCIe LAMMPS op DSS8440

Figuur 2 toont de timestep/s-resultaten van de LAMMPS met Lennard Jones-dataset. LAMMPS is een voorbeeld van moleculaire dynamicacode waarvan bekend is dat het een GPU-bandbreedtegebonden applicatie is. De V100S levert in deze tests 27% betere prestaties dan de V100-PCIe. De versnelling wordt niet alleen bijgedragen door de 15% hogere boostfrequentie en 26% meer bandbreedte, maar ook door de nieuwere softwareversie. V100-PCIe-nummers zijn verkregen met behulp van het oude KOKKOS-pakket in LAMMPS 8Feb2019-versie. De nieuwere versie 24Jan2020 had echter ondersteuning toegevoegd voor het gebruik van cuFFT op de GPU met KOKKOS. De meeste details zijn hierin te vinden LAMMPS 24Jan2020 release note.

 

Deep learning-applicatieprestaties

SLN321304_en_US__5image(15662)

Afbeelding 3: V100S en V100-PCIe MLPerf resultaten op DSS8440

MLPerf training gesloten divisie 0.6 versie heeft 6 subtests die brede deep learning-domeinen bestrijken, waaronder beeldclassificatie (ResNet-50), objectdetectie (Mask R-CNN en SSD), Translation (NMT en Transformer) en reinforcement learning (MiniGo). De vergelijkingsresultaten van beide GPU-kaarten worden weergegeven in afbeelding 3. Er werden ongeveer 1-5% prestatiewinsten waargenomen in de MLPerf-suite voor V100S, wat consistent is met de 1-5% hogere doorvoer in de resultatenlogbestanden. De real-time output van de GPU-kloksnelheid werd gemonitord en er werd waargenomen dat V100S GPU's in al die tests 1-5% hoger werkten, dus de prestatievoordelen kwamen van de hogere verhoogde frequentie van V100S.

Conclusies en toekomstige werken

In deze blog werden de prestaties van HPC-applicaties met HPL, LAMMPS en deep learning met MLPerf vergeleken met V100S- en V100-PCIe GPU-kaarten op dezelfde DSS8440-server. Applicaties die worden beperkt door GPU-bandbreedte, zoals LAMMPS, kunnen profiteren van de nieuwe V100S GPU's en krijgen betere prestaties voor zowel enkele als meerdere GPU's. Deep learning-applicaties die in MLPerf zijn getest, profiteren ook van de hogere kloksnelheid en hogere bandbreedte van V100S. De GPU compute bounded HPC-benchmark HPL krijgt dezelfde prestaties als V100-PCIe. In de toekomst zullen dezelfde applicaties op DSS8440 worden uitgevoerd met RTX GPU's en zullen enkele andere tests, zoals V100S-prestaties op het AMD-platform, worden onderzocht.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.