Numéro d’article: 000132886

Dell EMC DSS 8440-server drevet af NVIDIA RTX GPU'er til HPC og AI-arbejdsbelastninger

Résumé: Dell EMC DSS8440-serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ML) og dybfrosne arbejdsbelastninger. Denne artikel sammenligner ydeevnen af forskellige GPU'er, f. eks. NVIDIA Volta V100S og NVIDIA Tesla T4 Intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'er i dette system. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle og Henrik han

Dell EMC HPC og AI-innovations laboratoriet 2020. juni

Dell EMC DSS8440 -serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ml) og dybfrosne arbejdsbelastninger. Den understøtter forskellige GPU'er, såsom NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4 intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'er .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840-server)

I denne blog vurderer vi ydeevnen for de omkostningseffektive NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000-GPU'er sammenlignet med den øverste niveau Accelerator V100S GPU ved hjælp af forskellige industristandard benchmarking-værktøjer. Dette omfatter test mod enkelte arbejdsmængder i modsætning til dobbelt præcision. Mens Quadro-serien har eksisteret i lang tid, RTX GPU'er med NVIDIA Turing-arkitektur, der blev lanceret i sen 2018. Specifikationerne i tabel 1 viser, at RTX 8000-GPU'EN er uovertruffen for RTX 6000 med hensyn til større hukommelseskonfiguration. Men RTX 8000-og RTX 6000-GPU'erne har højere strømbehov sammenlignet med V100S-GPU'EN. For arbejdsbelastninger, der kræver en højere hukommelseskapacitet, er RTX 8000 det bedste valg.

Specifikationer	RTX 6000	RTX 8000	V100S-32 GB
Arkitektur	Turing		Volta
Hukommelse	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standard clocking-hastighed (MHz)	1395		1245
Maksimal GPU-hastighed (MHz)	1770		1597
CUDA-kerner	4608		5120
FP32 (TFLOPS maksimum)	16,3		16,4
Hukommelsesbåndbredde (GB/s)	672		1134
Strøm	295 W		250 W

Tabel. 1 GPU-specifikationer

Server	DellEMC,PowerEdge, DSS8440
Processor	2 x Intel Xeon 6248, 20 °C @ 2,5 GHz
Hukommelse	24 x 32 GB @ 2933 MT/s (768 GB i alt)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Storage	1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger	4 x 2400 W

Tabel. 2 server konfigurationsoplysninger

BIOS	2.5.4
OS:	RHEL 7,6
Kerne	3.10.0-957.el7.x86_64
System profil	Ydeevneoptimeret
CUDA Toolkit CUDA-driver	10,1 440.33.01

Tabel. 3 oplysninger om system firmware

Program	Version
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 opdatering 4
LAMMPS	Marts 3 2020 OpenMPI – 4.0.3
MLPERF	v 0,6-træning dockingstation 19,03

Tabel. 4 applikations oplysninger

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 er en molekyle-Dynamics-ansøgning, der vedligeholdes af forskere på Sandia nationale laboratorier og Temple University. LAMMPS blev kompileret med KOKKOS-pakken for at køre effektivt på NVIDIA GPU'er. Lennard Jones-datasæt blev brugt til at sammenligne ydeevne, og Timesteps/s er metrikværdi som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jones-graf)

Som angivet i tabel 1 har RTX 6000-og RTX 8000-GPU'er samme antal kerner, enkeltpræcisions ydeevne og GPU-båndbredde, men forskellig GPU-hukommelse. Da begge RTX-GPU'er har en lignende konfiguration, er ydelsen også i samme område. RTX-Gpu'ers skalaen for dette program, og ydeevnen for begge GPU'er er identiske.

Volta V100S GPU-ydeevnen er ca. tre gange hurtigere end Quadro RTX-GPU'er. Hoved faktoren for denne højere ydelse er den større GPU-hukommelsesbåndbredde for V100S-GPU'EN.

High Performance Linpack (HPL)

HPL er en standard HPCs benchmark, der måler databehandlings ydelsen. Den bruges som reference benchmark af TOP500-listen for at rangere verdens computere over hele verden.

Følgende figur viser ydeevnen for RTX 6000, RTX 8000 og V100S GPU'er vha. DSS 8440-server. Som du kan se, er ydeevnen af RTX-GPU'er betydeligt lavere end V100S-GPU'EN. Det forventes, at HPL udfører en Matrix LU factorization, som primært er Double Precision-flydende punkter.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL ydeevne med forskellige GPU'er)

Hvis vi sammenligner den teoretiske flydende punkt-ydeevne, dvs. Rpeak af begge GPU'er, ser vi, at V100S GPU-ydelsen er meget højere. Den teoretiske Rpeak-værdi på en enkelt RTX-GPU er ca. 500GFlops. Denne værdi giver mindre ydeevne (Rmax) pr. GPU. Rpeak-værdien for Volta V100S GPU er 8.2 TFlops, hvilket resulterer i en meget højere ydeevne fra hvert kort.

MLPerf

Behovet for industri standardens ydelses benchmark for ML-led for at udvikle MLPerf-pakken. Denne pakke omfatter benchmarks til evaluering af uddannelses-og udlednings ydelse af ML hardware og software. Dette afsnit vedrører kun visning af ydeevnen i GPU'er. Følgende tabel viser de dybe indlærings belastninger, datasæt og destinations kriterier, der bruges til at evaluere GPU'erne.

-	Sætte	Kvalitetsmål	Reference implementerings model
Billed klassificering	ImageNet (224x224)	75,9% Top-1 nøjagtighed	Resnet-50 v 1.5
Objekt registrering (lys vægt)	COCO 2017	23% kort	SSD-ResNet34
Objekt registrering (tung vægt)	COCO 2017	0,377 afkrydsningsfelt minimum KREDITOR- 0,339-maske minimum AP	Mask R-CNN
Oversættelse (tilbagevendende)	WMT engelsk-tysk	24,0 BLEU	GNMT
Oversættelse (ikke-tilbagevendende)	WMT engelsk-tysk	25,0 BLEU	Transformer
Styrkelse af indlæring	Ikke til rådighed	Præ-uddannet kontrolpunkt	Mini Go

Table. 5 MLPerf-datasæt og destinations kriterier (kilde:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for at opfylde kriterierne for både RTX og V100S GPU'er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ydeevne)

Resultaterne tages i betragtning, efter at der er udført flere kørsler, bortset af den højeste og laveste værdi og den gennemsnittet af de andre løbere i henhold til de viste retningslinjer. Ydeevnen for begge RTX-GPU'er er ens. Procentsatsen for afvigelse mellem begge RTX-GPU'er er minimal og inden for godkendelses området i henhold til MLPerf-retningslinjerne. Mens Volta V100 GPU giver den bedste ydelse, fungerer RTX-GPU'er også godt, undtagen for benchmark for objekt registrering.

På tidspunktet for udgivelsen mislykkedes system klassificerings benchmarket i MLPerf med RTX GPU'er pga. en convolution-fejl. Dette problem forventes løst i en fremtidig cuDNN-frigivelse.

Résolution

Overblik

I denne blog gennemgådes ydeevnen af Dell EMC DSS 8440 GPU-serveren og NVIDIA RTX-GPU'er til HPC og AI-arbejdsbelastninger. Ydeevnen for begge RTX-GPU'er er det samme, men RTX 8000-GPU'EN vil være det bedste valg til programmer, der kræver en højere mængde hukommelse. Til Double Precision arbejdsbelastninger eller arbejdsbelastninger, der kræver høj hukommelsesbåndbredde Volta V100S og den nye NVIDIA A100-GPU er det bedste valg.

I fremtiden planlægger vi at levere en test af ydeevne på RTX-GPU'er med andre enkeltpræcisions programmer og en aflednings undersøgelse på RTX-og A100-GPU'er.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell