HPC- og AI-ytelse på DSS8440 med V100S GPU-er
Summary: GPU, V100S, V100, DSS8440, 8 GPU-er, MLPerf, HPL, LAMMPS, ytelsesprøve
Symptoms
Dell EMC HPC & Ai Innovation Lab, mai 2020
Sammendrag
Denne bloggen presenterer resultatene av studien som evaluerte 8x V100S på DSS8440 for forskjellige HPC- og dyplæringsapplikasjoner, inkludert HPL, LAMMPS og MLPerf-v0.6 suite. Oppsummert:
- Programmer begrenset av GPU-båndbredde som LAMMPS kan dra nytte av de nye V100S GPU-ene og vil få økt ytelse for både én og flere GPU-er.
- Dyplæringsapplikasjoner, som de som testes i MLPerf, vil dra nytte av den høyere forsterkede klokken og høyere båndbredde til V100S.
- GPU-databehandlingsbundne applikasjoner som HPC-ytelsesprøve HPL vil få samme ytelse som V100-PCIe.
Resten av denne bloggen legger ut detaljene i denne testingen. Merk at i fremtiden vil de samme applikasjonene bli kjørt på DSS8440 med RTX-GPUer (i stedet for V100S), og andre tester, som V100S-ytelse på AMD-plattformen, vil også bli kjørt.
Resolution
Oversikt over testen
Informasjonen i Dell EMC DSS8440-server er en akseleratoroptimalisert server som er spesielt utformet for workloader med databehandling med høy ytelse og dyp læring. Informasjonen i NVIDIA V100S er det siste medlemmet i Tesla Volta-serien, og det er et 32G PCIe-basert GPU-kort med dobbel bredde. Denne bloggen vil presentere resultatene av studien som evaluerer 8x V100S på DSS8440 for forskjellige HPC- og dyplæringsapplikasjoner, inkludert HPL, LAMMPS og MLPerf-v0.6 suite.
Maskinvare- og programvaredetaljene for den testede DSS 8440-serveren og sammenligningen av V100S og V100-PCIe er oppført i tabell 1 og tabell 2.
Tabell 1: Maskinvare- og programvaredetaljer

Tabell 2: V100S og V100-PCIe forskjeller i spesifikasjoner
HPC-applikasjonsytelse

Figur 1: V100S og V100-PCIe HPL-resultater på DSS8440
Figur 1 viser HPL-ytelsestallene. Det er ikke mye forskjell mellom V100S og V100-PCIe, fordi HPL er en ekstrem stresstestapplikasjon. Det er lite temperaturrom for GPU Boost-funksjon, derfor faller frekvensen til GPU-ene veldig raskt tilbake til basisklokkefrekvensen. Fordi V100S og V100-PCIe har nesten samme basisklokkefrekvens, leverer V100S for GPU-beregningsbegrensede applikasjoner som HPL omtrent samme ytelse som V100-PCIe.

Figur 2: V100S og V100-PCIe LAMMPS resultater på DSS8440
Figur 2 har timestep/s-resultatene fra LAMMPS med Lennard Jones datasett. LAMMPS er et eksempel på molekylær dynamikkkode som er kjent for å være en GPU-båndbreddebegrenset applikasjon. V100S leverer 27 % mer ytelse enn V100-PCIe i denne testingen. Hastighetsøkningen bidrar ikke bare fra 15% høyere boostfrekvens og 26% mer båndbredde, men også fra den nyere programvareversjonen. V100-PCIe-numre ble oppnådd ved hjelp av gammel KOKKOS-pakke i LAMMPS 8Feb2019-versjon. Den nyere versjonen 24Jan2020 hadde imidlertid lagt til støtte for bruk av cuFFT på GPU med KOKKOS. De fleste detaljer finner du i denne Utgivelsesmerknad for LAMMPS 24Jan2020.
Applikasjonsytelse for dyp læring

Figur 3: V100S og V100-PCIe MLPerf resultater på DSS8440
MLPerf trening lukket divisjon 0.6 versjon har 6 deltester som dekker brede dype læringsdomener, inkludert bildeklassifisering (ResNet-50), objektdeteksjon (Mask R-CNN og SSD), oversettelse (NMT og transformator) og forsterkningslæring (MiniGo). Sammenligningsresultatene for begge GPU-kortene er presentert i figur 3. Rundt 1–5 % ytelsesforbedringer ble observert på tvers av MLPerf-pakken for V100S, noe som stemmer overens med den 1–5 % høyere gjennomstrømningen i resultatloggfilene. Sanntidsutgangen av GPU-klokkefrekvensen ble overvåket, og det ble observert at V100S GPUer kjørte 1-5% høyere i alle disse testene, så ytelsesfordelene kom fra den høyere forsterkede frekvensen til V100S.
Konklusjoner og fremtidige arbeider
I denne bloggen ble HPC-applikasjonsytelsen med HPL, LAMMPS og ytelse for dyp læring med MLPerf sammenlignet med V100S- og V100-PCIe GPU-kort på samme DSS8440-server. Applikasjoner begrenset av GPU-båndbredde som LAMMPS kan dra nytte av de nye V100S GPUene og vil få økt ytelse for både enkle og flere GPUer. Dyplæringsapplikasjoner som er testet i MLPerf, drar også nytte av den høyere forsterkede klokken og høyere båndbredde til V100S. GPU-databehandlingsbegrenset HPC-ytelsesprøve for HPL får samme ytelse som V100-PCIe. I fremtiden vil de samme applikasjonene på DSS8440 bli kjørt med RTX-GPUer, og noen andre tester som V100S-ytelse på AMD-plattformen vil bli utforsket.