HPC- og AI-ytelse på DSS8440 med V100S GPU-er

Summary: GPU, V100S, V100, DSS8440, 8 GPU-er, MLPerf, HPL, LAMMPS, ytelsesprøve

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Forfattere: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & Ai Innovation Lab, mai 2020

Sammendrag

Denne bloggen presenterer resultatene av studien som evaluerte 8x V100S på DSS8440 for forskjellige HPC- og dyplæringsapplikasjoner, inkludert HPL, LAMMPS og MLPerf-v0.6 suite. Oppsummert:

  • Programmer begrenset av GPU-båndbredde som LAMMPS kan dra nytte av de nye V100S GPU-ene og vil få økt ytelse for både én og flere GPU-er.
  • Dyplæringsapplikasjoner, som de som testes i MLPerf, vil dra nytte av den høyere forsterkede klokken og høyere båndbredde til V100S.
  • GPU-databehandlingsbundne applikasjoner som HPC-ytelsesprøve HPL vil få samme ytelse som V100-PCIe.

Resten av denne bloggen legger ut detaljene i denne testingen.  Merk at i fremtiden vil de samme applikasjonene bli kjørt på DSS8440 med RTX-GPUer (i stedet for V100S), og andre tester, som V100S-ytelse på AMD-plattformen, vil også bli kjørt.

Resolution

Oversikt over testen

Informasjonen i Dell EMC DSS8440-server er en akseleratoroptimalisert server som er spesielt utformet for workloader med databehandling med høy ytelse og dyp læring. Informasjonen i NVIDIA V100S er det siste medlemmet i Tesla Volta-serien, og det er et 32G PCIe-basert GPU-kort med dobbel bredde. Denne bloggen vil presentere resultatene av studien som evaluerer 8x V100S på DSS8440 for forskjellige HPC- og dyplæringsapplikasjoner, inkludert HPL, LAMMPS og MLPerf-v0.6 suite.

Maskinvare- og programvaredetaljene for den testede DSS 8440-serveren og sammenligningen av V100S og V100-PCIe er oppført i tabell 1 og tabell 2.

 

Tabell 1: Maskinvare- og programvaredetaljer

SLN321304_en_US__1image(15660)

Tabell 2: V100S og V100-PCIe forskjeller i spesifikasjoner
SLN321304_en_US__2image(15661)

 

HPC-applikasjonsytelse

 

 SLN321304_en_US__3image(15658)

Figur 1: V100S og V100-PCIe HPL-resultater på DSS8440

Figur 1 viser HPL-ytelsestallene. Det er ikke mye forskjell mellom V100S og V100-PCIe, fordi HPL er en ekstrem stresstestapplikasjon. Det er lite temperaturrom for GPU Boost-funksjon, derfor faller frekvensen til GPU-ene veldig raskt tilbake til basisklokkefrekvensen. Fordi V100S og V100-PCIe har nesten samme basisklokkefrekvens, leverer V100S for GPU-beregningsbegrensede applikasjoner som HPL omtrent samme ytelse som V100-PCIe. 

SLN321304_en_US__4image(15659)

Figur 2: V100S og V100-PCIe LAMMPS resultater på DSS8440

Figur 2 har timestep/s-resultatene fra LAMMPS med Lennard Jones datasett. LAMMPS er et eksempel på molekylær dynamikkkode som er kjent for å være en GPU-båndbreddebegrenset applikasjon. V100S leverer 27 % mer ytelse enn V100-PCIe i denne testingen. Hastighetsøkningen bidrar ikke bare fra 15% høyere boostfrekvens og 26% mer båndbredde, men også fra den nyere programvareversjonen. V100-PCIe-numre ble oppnådd ved hjelp av gammel KOKKOS-pakke i LAMMPS 8Feb2019-versjon. Den nyere versjonen 24Jan2020 hadde imidlertid lagt til støtte for bruk av cuFFT på GPU med KOKKOS. De fleste detaljer finner du i denne Utgivelsesmerknad for LAMMPS 24Jan2020.

 

Applikasjonsytelse for dyp læring

SLN321304_en_US__5image(15662)

Figur 3: V100S og V100-PCIe MLPerf resultater på DSS8440

MLPerf trening lukket divisjon 0.6 versjon har 6 deltester som dekker brede dype læringsdomener, inkludert bildeklassifisering (ResNet-50), objektdeteksjon (Mask R-CNN og SSD), oversettelse (NMT og transformator) og forsterkningslæring (MiniGo). Sammenligningsresultatene for begge GPU-kortene er presentert i figur 3. Rundt 1–5 % ytelsesforbedringer ble observert på tvers av MLPerf-pakken for V100S, noe som stemmer overens med den 1–5 % høyere gjennomstrømningen i resultatloggfilene. Sanntidsutgangen av GPU-klokkefrekvensen ble overvåket, og det ble observert at V100S GPUer kjørte 1-5% høyere i alle disse testene, så ytelsesfordelene kom fra den høyere forsterkede frekvensen til V100S.

Konklusjoner og fremtidige arbeider

I denne bloggen ble HPC-applikasjonsytelsen med HPL, LAMMPS og ytelse for dyp læring med MLPerf sammenlignet med V100S- og V100-PCIe GPU-kort på samme DSS8440-server. Applikasjoner begrenset av GPU-båndbredde som LAMMPS kan dra nytte av de nye V100S GPUene og vil få økt ytelse for både enkle og flere GPUer. Dyplæringsapplikasjoner som er testet i MLPerf, drar også nytte av den høyere forsterkede klokken og høyere båndbredde til V100S. GPU-databehandlingsbegrenset HPC-ytelsesprøve for HPL får samme ytelse som V100-PCIe. I fremtiden vil de samme applikasjonene på DSS8440 bli kjørt med RTX-GPUer, og noen andre tester som V100S-ytelse på AMD-plattformen vil bli utforsket.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.