HPC- og AI-programmers ydeevne på DSS8440 med V100S GPU'er

Summary: GPU, V100S, V100, DSS8440, 8 GPU'er, MLPerf, HPL, LAMMPS, Benchmark

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Forfattere: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, maj 2020

Resumé

Denne blog præsenterer resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite. Opsummeret:

  • Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er.
  • Deep learning-applikationer, som dem, der er testet i MLPerf, får fordele fra det højere boostede ur og højere båndbredde i V100S.
  • GPU-beregningsbundne programmer som f.eks. HPC-benchmarket for HPL får samme ydeevne som V100-PCIe.

Resten af denne blog beskriver detaljerne i denne test.  Bemærk, at i fremtiden vil de samme applikationer blive kørt på DSS8440 med RTX GPU'er (i stedet for V100S), og andre tests, som V100S-ydeevne på AMD-platformen, vil også blive kørt.

Resolution

Oversigt over testbænken

Ikonet Dell EMC DSS8440 server er en acceleratoroptimeret server, der er specielt udviklet til højtydende databehandling og deep learning-workloads. Ikonet NVIDIA V100S er det seneste medlem i Tesla Volta-serien, og det er et 32G PCIe-baseret GPU-kort med dobbelt bredde. Denne blog vil præsentere resultaterne af undersøgelsen, der evaluerer 8x V100S på DSS8440 til forskellige HPC- og deep learning-applikationer, herunder HPL, LAMMPS og MLPerf-v0.6 Suite.

Hardware- og softwareoplysningerne for den testede DSS 8440-server og sammenligningen af V100S og V100-PCIe er angivet i tabel 1 og tabel 2.

 

Tabel 1: Oplysninger om hardware og software

SLN321304_en_US__1image(15660)

Tabel 2: V100S og V100-PCIe forskel i specifikation
SLN321304_en_US__2image(15661)

 

HPC-programmers ydeevne

 

 SLN321304_en_US__3image(15658)

Figur 1: V100S og V100-PCIe HPL-resultater på DSS8440

Figur 1 viser HPL-ydeevnetallene. Der er ikke den store forskel mellem V100S og V100-PCIe, fordi HPL er en ekstrem stresstestapplikation. Der er lidt temperaturrum til GPU boost-funktion, derfor falder GPU'ernes frekvens meget hurtigt tilbage til basisklokfrekvensen. Da V100S og V100-PCIe har næsten samme basisklokfrekvens, leverer V100S omtrent samme ydeevne til GPU-beregningsafgrænsede programmer som HPL. 

SLN321304_en_US__4image(15659)

Figur 2: V100S og V100-PCIe LAMMPS resultater på DSS8440

Figur 2 viser timestep/s-resultaterne for LAMMPS med Lennard Jones-datasættet. LAMMPS er et eksempel på molekylær dynamikkode, som er kendt for at være en GPU-båndbreddeafgrænset applikation. V100S leverer 27 % mere ydeevne end V100-PCIe i denne test. Hastigheden bidrager ikke kun fra den 15% højere boostfrekvens og 26% mere båndbredde, men også fra den nyere softwareversion. V100-PCIe-numre blev opnået ved hjælp af gammel KOKKOS-pakke i LAMMPS 8Feb2019-version. Den nyere version 24Jan2020 havde dog tilføjet understøttelse af brug af cuFFT på GPU'en med KOKKOS. De fleste detaljer kan findes i denne LAMMPS 24Jan2020 produktbemærkning.

 

Deep Learning-programydeevne

SLN321304_en_US__5image(15662)

Figur 3: V100S og V100-PCIe MLPerf-resultater på DSS8440

MLPerf træning lukket division 0.6 version har 6 undertests, der dækker brede deep learning-domæner, herunder billedklassificering (ResNet-50), objektdetektion (Mask R-CNN og SSD), oversættelse (NMT og transformer) og forstærkningsindlæring (MiniGo). Sammenligningsresultaterne for begge GPU-kort er vist i figur 3. Omkring 1-5 % forbedringer i ydeevnen blev observeret på tværs af MLPerf-pakken for V100S, hvilket er i overensstemmelse med den 1-5 % højere overførselshastighed i resultatlogfilerne. Outputtet i realtid af GPU-urfrekvensen blev overvåget, og det blev observeret, at V100S GPU'er kørte med 1-5% højere i alle disse tests, så ydelsesfordelene kom fra den højere boostede frekvens af V100S.

Konklusioner og fremtidige værker

I denne blog sammenlignes HPC-programmers ydeevne med HPL, LAMMPS og deep learning-ydeevne med MLPerf med V100S- og V100-PCIe GPU-kort på samme DSS8440 server. Programmer, der er begrænset af GPU-båndbredde som LAMMPS, kan drage fordel af de nye V100S GPU'er og vil få øget ydeevne for både enkelt og flere GPU'er. Deep learning-programmer, der er testet i MLPerf, får også fordele fra det højere boostede ur og den højere båndbredde i V100S. GPU-beregningsbegrænset HPC-benchmark HPL får samme ydeevne som V100-PCIe. I fremtiden vil de samme applikationer på DSS8440 blive kørt med RTX GPU'er, og nogle andre tests som V100S-ydeevne på AMD-platformen vil blive undersøgt.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.