HPC- og AI-programmers ydeevne på DSS8440 med V100S GPU'er

Oversigt: GPU, V100S, V100, DSS8440, 8 GPU'er, MLPerf, HPL, LAMMPS, Benchmark

Denne artikel gælder for Denne artikel gælder ikke for Denne artikel er ikke knyttet til et bestemt produkt. Det er ikke alle produktversioner, der er identificeret i denne artikel.

Symptomer

Forfattere: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, maj 2020

Resumé

Denne blog præsenterer resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite. Opsummeret:

  • Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er.
  • Deep learning-applikationer, som dem, der er testet i MLPerf, får fordele fra det højere boostede ur og højere båndbredde i V100S.
  • GPU-beregningsbundne programmer som f.eks. HPC-benchmarket for HPL får samme ydeevne som V100-PCIe.

Resten af denne blog beskriver detaljerne i denne test.  Bemærk, at i fremtiden vil de samme applikationer blive kørt på DSS8440 med RTX GPU'er (i stedet for V100S), og andre tests, som V100S-ydeevne på AMD-platformen, vil også blive kørt.

Løsning

Oversigt over testbænken

Ikonet Dell EMC DSS8440 server er en acceleratoroptimeret server, der er specielt udviklet til højtydende databehandling og deep learning-workloads. Ikonet NVIDIA V100S er det seneste medlem i Tesla Volta-serien, og det er et 32G PCIe-baseret GPU-kort med dobbelt bredde. Denne blog vil præsentere resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite.

Hardware- og softwareoplysningerne for den testede DSS 8440-server og sammenligningen af V100S og V100-PCIe er angivet i tabel 1 og tabel 2.

 

Tabel 1: Oplysninger om hardware og software

SLN321304_en_US__1image(15660)

Tabel 2: V100S og V100-PCIe forskel i specifikation
SLN321304_en_US__2image(15661)

 

HPC-programmers ydeevne

 

 SLN321304_en_US__3image(15658)

Figur 1: V100S og V100-PCIe HPL-resultater på DSS8440

Figur 1 viser HPL-ydeevnetallene. Der er ikke den store forskel mellem V100S og V100-PCIe, fordi HPL er en ekstrem stresstestapplikation. Der er lidt temperaturrum til GPU boost-funktion, derfor falder GPU'ernes frekvens meget hurtigt tilbage til basisklokfrekvensen. Da V100S og V100-PCIe har næsten samme basisklokfrekvens, leverer V100S omtrent samme ydeevne til GPU-beregningsafgrænsede programmer som HPL. 

SLN321304_en_US__4image(15659)

Figur 2: V100S og V100-PCIe LAMMPS resultater på DSS8440

Figur 2 viser timestep/s-resultaterne for LAMMPS med Lennard Jones-datasættet. LAMMPS er et eksempel på molekylær dynamikkode, som er kendt for at være en GPU-båndbreddeafgrænset applikation. V100S leverer 27 % mere ydeevne end V100-PCIe i denne test. Hastigheden bidrager ikke kun fra den 15% højere boostfrekvens og 26% mere båndbredde, men også fra den nyere softwareversion. V100-PCIe-numre blev opnået ved hjælp af gammel KOKKOS-pakke i LAMMPS 8Feb2019-version. Den nyere version 24Jan2020 havde dog tilføjet understøttelse af brug af cuFFT på GPU'en med KOKKOS. De fleste detaljer kan findes i denne LAMMPS 24Jan2020 produktbemærkning.

 

Deep Learning-programydeevne

SLN321304_en_US__5image(15662)

Figur 3: V100S og V100-PCIe MLPerf-resultater på DSS8440

MLPerf træning lukket division 0.6 version har 6 undertests, der dækker brede deep learning-domæner, herunder billedklassificering (ResNet-50), objektdetektion (Mask R-CNN og SSD), oversættelse (NMT og transformer) og forstærkningsindlæring (MiniGo). Sammenligningsresultaterne for begge GPU-kort er vist i figur 3. Omkring 1-5 % forbedringer i ydeevnen blev observeret på tværs af MLPerf-pakken for V100S, hvilket er i overensstemmelse med den 1-5 % højere overførselshastighed i resultatlogfilerne. Outputtet i realtid af GPU-urfrekvensen blev overvåget, og det blev observeret, at V100S GPU'er kørte med 1-5% højere i alle disse tests, så ydelsesfordelene kom fra den højere boostede frekvens af V100S.

Konklusioner og fremtidige værker

I denne blog sammenlignes HPC-programmers ydeevne med HPL, LAMMPS og deep learning-ydeevne med MLPerf med V100S- og V100-PCIe GPU-kort på samme DSS8440 server. Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er. Deep learning-programmer, der er testet i MLPerf, får også fordele fra det højere boostede ur og den højere båndbredde i V100S. GPU-beregningsbegrænset HPC-benchmark HPL får samme ydeevne som V100-PCIe. I fremtiden vil de samme applikationer på DSS8440 blive kørt med RTX GPU'er, og nogle andre tests som V100S-ydeevne på AMD-platformen vil blive undersøgt.

Berørte produkter

DSS 8440, High Performance Computing Solution Resources
Artikelegenskaber
Artikelnummer: 000133353
Artikeltype: Solution
Senest ændret: 16 jul. 2025
Version:  4
Find svar på dine spørgsmål fra andre Dell-brugere
Supportservices
Kontrollér, om din enhed er dækket af supportservices.