Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC DSS 8440-server drevet af NVIDIA RTX GPU'er til HPC og AI-arbejdsbelastninger

Résumé: Dell EMC DSS8440-serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ML) og dybfrosne arbejdsbelastninger. Denne artikel sammenligner ydeevnen af forskellige GPU'er, f. eks. NVIDIA Volta V100S og NVIDIA Tesla T4 Intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'er i dette system. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle og Henrik han

 

Dell EMC HPC og AI-innovations laboratoriet 2020. juni

 

Dell EMC DSS8440 -serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ml) og dybfrosne arbejdsbelastninger. Den understøtter forskellige GPU'er, såsom NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'erSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840-server)

I denne blog vurderer vi ydeevnen for de omkostningseffektive NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000-GPU'er sammenlignet med den øverste niveau Accelerator V100S GPU ved hjælp af forskellige industristandard benchmarking-værktøjer. Dette omfatter test mod enkelte arbejdsmængder i modsætning til dobbelt præcision. Mens Quadro-serien har eksisteret i lang tid, RTX GPU'er med NVIDIA Turing-arkitektur, der blev lanceret i sen 2018. Specifikationerne i tabel 1 viser, at RTX 8000-GPU'EN er uovertruffen for RTX 6000 med hensyn til større hukommelseskonfiguration. Men RTX 8000-og RTX 6000-GPU'erne har højere strømbehov sammenlignet med V100S-GPU'EN. For arbejdsbelastninger, der kræver en højere hukommelseskapacitet, er RTX 8000 det bedste valg.

Specifikationer RTX 6000 RTX 8000 V100S-32 GB
Arkitektur Turing Volta
Hukommelse 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard clocking-hastighed (MHz) 1395 1245
Maksimal GPU-hastighed (MHz) 1770 1597
CUDA-kerner 4608 5120
FP32 (TFLOPS maksimum) 16,3 16,4
Hukommelsesbåndbredde (GB/s) 672 1134
Strøm 295 W 250 W

Tabel. 1 GPU-specifikationer

Server DellEMC,PowerEdge, DSS8440
Processor 2 x Intel Xeon 6248, 20 °C @ 2,5 GHz
Hukommelse 24 x 32 GB @ 2933 MT/s (768 GB i alt)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Storage 1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger 4 x 2400 W

Tabel. 2 server konfigurationsoplysninger

BIOS 2.5.4
OS: RHEL 7,6
Kerne 3.10.0-957.el7.x86_64
System profil Ydeevneoptimeret
CUDA Toolkit
CUDA-driver
10,1
440.33.01

Tabel. 3 oplysninger om system firmware

Program Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 opdatering 4
LAMMPS Marts 3 2020
OpenMPI – 4.0.3
MLPERF v 0,6-træningSLN321776_en_US__1iC_External_Link_BD_v1
dockingstation 19,03

Tabel. 4 applikations oplysninger

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 er en molekyle-Dynamics-ansøgning, der vedligeholdes af forskere på Sandia nationale laboratorier og Temple University. LAMMPS blev kompileret med KOKKOS-pakkenSLN321776_en_US__6iC_External_Link_BD_v1 for at køre effektivt på NVIDIA GPU'er. Lennard Jones-datasæt blev brugt til at sammenligne ydeevne, og Timesteps/s er metrikværdi som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jones-graf)

 Som angivet i tabel 1 har RTX 6000-og RTX 8000-GPU'er samme antal kerner, enkeltpræcisions ydeevne og GPU-båndbredde, men forskellig GPU-hukommelse. Da begge RTX-GPU'er har en lignende konfiguration, er ydelsen også i samme område. RTX-Gpu'ers skalaen for dette program, og ydeevnen for begge GPU'er er identiske.

Volta V100S GPU-ydeevnen er ca. tre gange hurtigere end Quadro RTX-GPU'er. Hoved faktoren for denne højere ydelse er den større GPU-hukommelsesbåndbredde for V100S-GPU'EN.


High Performance Linpack (HPL)

HPL er en standard HPCs benchmark, der måler databehandlings ydelsen. Den bruges som reference benchmark af TOP500-listen for at rangere verdens computere over hele verden.

Følgende figur viser ydeevnen for RTX 6000, RTX 8000 og V100S GPU'er vha. DSS 8440-server. Som du kan se, er ydeevnen af RTX-GPU'er betydeligt lavere end V100S-GPU'EN. Det forventes, at HPL udfører en Matrix LU factorization, som primært er Double Precision-flydende punkter.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL ydeevne med forskellige GPU'er)

Hvis vi sammenligner den teoretiske flydende punkt-ydeevne, dvs. Rpeak af begge GPU'er, ser vi, at V100S GPU-ydelsen er meget højere. Den teoretiske Rpeak-værdi på en enkelt RTX-GPU er ca. 500GFlops. Denne værdi giver mindre ydeevne (Rmax) pr. GPU. Rpeak-værdien for Volta V100S GPU er 8.2 TFlops, hvilket resulterer i en meget højere ydeevne fra hvert kort.


MLPerf

Behovet for industri standardens ydelses benchmark for ML-led for at udvikle MLPerf-pakken. Denne pakke omfatter benchmarks til evaluering af uddannelses-og udlednings ydelse af ML hardware og software. Dette afsnit vedrører kun visning af ydeevnen i GPU'er. Følgende tabel viser de dybe indlærings belastninger, datasæt og destinations kriterier, der bruges til at evaluere GPU'erne.

- Sætte Kvalitetsmål Reference implementerings model
Billed klassificering ImageNet (224x224) 75,9% Top-1 nøjagtighed Resnet-50 v 1.5
Objekt registrering
(lys vægt)
COCO 2017 23% kort SSD-ResNet34
Objekt registrering
(tung vægt)
COCO 2017 0,377 afkrydsningsfelt minimum KREDITOR-
0,339-maske minimum AP
Mask R-CNN
Oversættelse
(tilbagevendende)
WMT engelsk-tysk 24,0 BLEU GNMT
Oversættelse
(ikke-tilbagevendende)
 WMT engelsk-tysk  25,0 BLEU Transformer
Styrkelse af indlæring Ikke til rådighed Præ-uddannet kontrolpunkt Mini Go

Table. 5 MLPerf-datasæt og destinations kriterier (kilde:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for at opfylde kriterierne for både RTX og V100S GPU'er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ydeevne)

Resultaterne tages i betragtning, efter at der er udført flere kørsler, bortset af den højeste og laveste værdi og den gennemsnittet af de andre løbere i henhold til de viste retningslinjer. Ydeevnen for begge RTX-GPU'er er ens. Procentsatsen for afvigelse mellem begge RTX-GPU'er er minimal og inden for godkendelses området i henhold til MLPerf-retningslinjerne. Mens Volta V100 GPU giver den bedste ydelse, fungerer RTX-GPU'er også godt, undtagen for benchmark for objekt registrering.

På tidspunktet for udgivelsen mislykkedes system klassificerings benchmarket i MLPerf med RTX GPU'er pga. en convolution-fejl. Dette problem forventes løst i en fremtidig cuDNN-frigivelse.

Résolution

Overblik

I denne blog gennemgådes ydeevnen af Dell EMC DSS 8440 GPU-serveren og NVIDIA RTX-GPU'er til HPC og AI-arbejdsbelastninger. Ydeevnen for begge RTX-GPU'er er det samme, men RTX 8000-GPU'EN vil være det bedste valg til programmer, der kræver en højere mængde hukommelse. Til Double Precision arbejdsbelastninger eller arbejdsbelastninger, der kræver høj hukommelsesbåndbredde Volta V100S og den nye NVIDIA A100-GPU er det bedste valg.

I fremtiden planlægger vi at levere en test af ydeevne på RTX-GPU'er med andre enkeltpræcisions programmer og en aflednings undersøgelse på RTX-og A100-GPU'er.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution