HPC- og AI-programmers ydeevne på DSS8440 med V100S GPU'er
Summary: GPU, V100S, V100, DSS8440, 8 GPU'er, MLPerf, HPL, LAMMPS, Benchmark
Symptoms
Dell EMC HPC & AI Innovation Lab, maj 2020
Resumé
Denne blog præsenterer resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite. Opsummeret:
- Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er.
- Deep learning-applikationer, som dem, der er testet i MLPerf, får fordele fra det højere boostede ur og højere båndbredde i V100S.
- GPU-beregningsbundne programmer som f.eks. HPC-benchmarket for HPL får samme ydeevne som V100-PCIe.
Resten af denne blog beskriver detaljerne i denne test. Bemærk, at i fremtiden vil de samme applikationer blive kørt på DSS8440 med RTX GPU'er (i stedet for V100S), og andre tests, som V100S-ydeevne på AMD-platformen, vil også blive kørt.
Resolution
Oversigt over testbænken
Ikonet Dell EMC DSS8440 server er en acceleratoroptimeret server, der er specielt udviklet til højtydende databehandling og deep learning-workloads. Ikonet NVIDIA V100S er det seneste medlem i Tesla Volta-serien, og det er et 32G PCIe-baseret GPU-kort med dobbelt bredde. Denne blog vil præsentere resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite.
Hardware- og softwareoplysningerne for den testede DSS 8440-server og sammenligningen af V100S og V100-PCIe er angivet i tabel 1 og tabel 2.
Tabel 1: Oplysninger om hardware og software

Tabel 2: V100S og V100-PCIe forskel i specifikation
HPC-programmers ydeevne

Figur 1: V100S og V100-PCIe HPL-resultater på DSS8440
Figur 1 viser HPL-ydeevnetallene. Der er ikke den store forskel mellem V100S og V100-PCIe, fordi HPL er en ekstrem stresstestapplikation. Der er lidt temperaturrum til GPU boost-funktion, derfor falder GPU'ernes frekvens meget hurtigt tilbage til basisklokfrekvensen. Da V100S og V100-PCIe har næsten samme basisklokfrekvens, leverer V100S omtrent samme ydeevne til GPU-beregningsafgrænsede programmer som HPL.

Figur 2: V100S og V100-PCIe LAMMPS resultater på DSS8440
Figur 2 viser timestep/s-resultaterne for LAMMPS med Lennard Jones-datasættet. LAMMPS er et eksempel på molekylær dynamikkode, som er kendt for at være en GPU-båndbreddeafgrænset applikation. V100S leverer 27 % mere ydeevne end V100-PCIe i denne test. Hastigheden bidrager ikke kun fra den 15% højere boostfrekvens og 26% mere båndbredde, men også fra den nyere softwareversion. V100-PCIe-numre blev opnået ved hjælp af gammel KOKKOS-pakke i LAMMPS 8Feb2019-version. Den nyere version 24Jan2020 havde dog tilføjet understøttelse af brug af cuFFT på GPU'en med KOKKOS. De fleste detaljer kan findes i denne LAMMPS 24Jan2020 produktbemærkning.
Deep Learning-programydeevne

Figur 3: V100S og V100-PCIe MLPerf-resultater på DSS8440
MLPerf træning lukket division 0.6 version har 6 undertests, der dækker brede deep learning-domæner, herunder billedklassificering (ResNet-50), objektdetektion (Mask R-CNN og SSD), oversættelse (NMT og transformer) og forstærkningsindlæring (MiniGo). Sammenligningsresultaterne for begge GPU-kort er vist i figur 3. Omkring 1-5 % forbedringer i ydeevnen blev observeret på tværs af MLPerf-pakken for V100S, hvilket er i overensstemmelse med den 1-5 % højere overførselshastighed i resultatlogfilerne. Outputtet i realtid af GPU-urfrekvensen blev overvåget, og det blev observeret, at V100S GPU'er kørte med 1-5% højere i alle disse tests, så ydelsesfordelene kom fra den højere boostede frekvens af V100S.
Konklusioner og fremtidige værker
I denne blog sammenlignes HPC-programmers ydeevne med HPL, LAMMPS og deep learning-ydeevne med MLPerf med V100S- og V100-PCIe GPU-kort på samme DSS8440 server. Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er. Deep learning-programmer, der er testet i MLPerf, får også fordele fra det højere boostede ur og den højere båndbredde i V100S. GPU-beregningsbegrænset HPC-benchmark HPL får samme ydeevne som V100-PCIe. I fremtiden vil de samme applikationer på DSS8440 blive kørt med RTX GPU'er, og nogle andre tests som V100S-ydeevne på AMD-platformen vil blive undersøgt.