Numéro d’article: 000132886

Dell EMC DSS 8440-server som drivs med NVIDIA RTX-grafikprocessorer för HPC- och AI-arbetsbelastningar

Résumé: Dell EMC DSS8440-servern är en 2-sockel, 4U-Server utformad för högpresterande dator hantering, Machine Learning (ML) och djupgående inlärnings arbets belastning. I den här artikeln jämförs prestanda för olika GPU: er, till exempel NVIDIA Volta V100S och NVIDIA Tesla T4-tums intensitet och NVIDIA Quadro RTX GPU i detta system. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle och Franke han

Dell EMC HPC och AI-Innovation Lab juni 2020

Dell EMC DSS8440 -servern är en 2-sockel, 4U-Server utformad för högpresterande dator hantering, Machine Learning (ml) och djupgående inlärnings arbets belastning. Den stöder olika GPU: er som NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 och NVIDIA Tesla T4 behållning Core GPU såväl som NVIDIA Quadro RTX GPU .

SLN321776_en_US__4image (18426)

(Bild. 1 Dell EMC DSS840-Server)

I den här bloggen utvärderas prestandan för kostnads effektiva NVIDIA Quadro RTX 6000 och NVIDIA Quadro RTX 8000 GPU: er jämfört med den övre nivån Accelerator V100S GPU med hjälp av olika branschstandardiserade benchmarking-verktyg. Detta inbegriper testning av arbets belastningar med enkel vs (dubbel precision). Även om Quadro-serien funnits länge har RTX GPU: er med NVIDIA Turing-arkitektur lanserats i slutet 2018. Specifikationerna i tabell 1 visar att RTX 8000-GPU är överlägset RTX-6000 i termer av konfiguration med högre minne. Men RTX 8000 och RTX 6000 GPU: er har högre ström behov jämfört med V100S GPU. För arbets belastningar som kräver högre minnes kapacitet är RTX 8000 det bästa valet.

Specifikationer	RTX 6000	RTX 8000	V100S-32 GB
Arkitektur	Turing		Volta
Minne	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standard klock frekvens (MHz)	1395		1245
GPU: n (maximal) klock frekvens (MHz)	1770		1597
CUDA-kärnor	4608		5120
FP32 (TFLOPS maximum)	16,3		16,4
Minnes bandbredd (GB/s)	672		1134
Strömförsörjning	295 W		250 W

Tabell. 1 GPU-specifikationer

Server	DellEMC, PowerEdge, DSS8440
Processor	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Minne	24 x 32 GB @ 2933 MT/s (768 GB totalt)
DISKRET	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Lagring	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strömkällor	4 x 2400 W

Tabell. 2 -Server konfigurations Detaljer

BIOS	2.5.4
Operativsystem:	RHEL 7,6
Kärna	3.10.0-957.el7.x86_64
System profil	Prestandaoptimerad
CUDA Toolkit CUDA-drivrutin	10,1 440.33.01

Tabell. 3 information om systemets fasta program vara

Indicator	Version
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 uppdatering 4
LAMMPS	Mars 3 2020 OpenMPI – 4.0.3
MLPERF	v 0,6-utbildning docknings Station 19,03

Tabell. 4 tillämpnings uppgifter

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 är ett molekyl Dynamics-program som upprätthålls av forskare på Sandia nationella laboratorier och Temple University. LAMMPS har kompilerats med KOKKOS-paketet för att fungera effektivt på NVIDIA GPU: er. Lennard Jones dataset användes för att utföra prestanda jämförelse och Timesteps/s som mått som visas i bild 2:

SLN321776_en_US__8image (18427)

(Bild. 2 Lennard Jones-diagram)

Enligt vad som anges i tabell 1 har RTX 6000 och RTX 8000 GPU: er har samma antal kärnor, enkel precisions prestanda och GPU-bandbredd men olika GPU-minne. Eftersom båda RTX GPU: er har en liknande konfiguration är prestanda även i samma intervall. RTX GPU-skalbarheten för detta program och prestandan för båda GPU: erna är identiska.

Volta V100S GPU-prestandan är ungefär tre gånger snabbare än Quadro RTX GPU. Nyckel faktorn för detta högre prestanda är den största bandbredden för GPU: n i V100S-GPU.

HPL (High Performance Linpack)

HPL är en standard HPC benchmark som mäter datorns prestanda. Den används som referens riktmärke av TOP500-listan för att rangordna superdatorer över hela världen.

Följande bild visar prestandan för RTX 6000, RTX 8000 och V100S GPU med hjälp av DSS 8440 Server. Som du ser är prestandan för RTX GPU: er betydligt lägre än V100S GPU. Detta ska förväntas eftersom HPL utför en Matrix LU factorization som huvudsakligen är dubbel precisions flytt ALS operation.

SLN321776_en_US__9image (18428)

(Bild. 3 HPL prestanda med olika GPU: er)

Om vi jämför den teoretiska flytt ALS prestandan, dvs. Rpeak av båda GPU: erna, ser vi att GPU-prestandan för V100S är mycket högre. Det teoretiska Rpeak-värdet på en enda RTX-GPU är ungefär 500GFlops. Det här värdet ger mindre prestanda (Rmax) per GPU. Rpeak-värdet för Volta V100S GPU är 8.2 TFlops, vilket resulterar i mycket högre prestanda från varje kort.

MLPerf

Behovet av branschstandardiserade prestandatester för ML ledde till utvecklingen av MLPerf-sviten. I denna svit ingår riktmärken för utvärdering av utbildnings-och uteffekts prestanda för ML maskin vara och program vara. Det här avsnittet handlar endast om utbildnings prestanda för GPU: er. I följande tabell visas de djupgående inlärnings arbets uppgifter, data uppsättningar och mål kriterier som används för att utvärdera GPU: erna.

Benchmarking	Mängden	Kvalitets mål	Referens implementerings modell
Bild klassificering	ImageNet (224x224)	75,9% upp till 1-exakthet	Resnet-50 v 1.5
Objekt detektering (ljus vikt)	COCO 2017	23% mAP	SSD-ResNet34
Objekt detektering (tung vikt)	COCO 2017	0,377 Box minsta AP 0,339 mask minsta AP	Mask R-CNN
Översättning (återkommande)	WMT engelska-tyska	24,0 BLEU	GNMT
Översättning (ej återkommande)	WMT engelska-tyska	25,0 BLEU	Transformator
Förstärknings inlärning	Ej tillämpligt	Förtränad kontroll punkt	Mini go

Tabell. 5 MLPerf data uppsättningar och mål kriterier (Källa:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

följande bild visar tiden för att uppfylla mål kriteriet för både RTX-och V100S GPU:

SLN321776_en_US__11image (18441)
(Bild. 4 MLPERF prestanda)

Resultaten beaktas när flera sekvenser har utförts, kastats bort det högsta och lägsta värdet och medelvärdet för andra körningar enligt rikt linjerna i listan. Prestandan för båda RTX GPU: er är likartade. Skillnaden i procent mellan båda RTX GPU: er är minimal och inom acceptans intervallet enligt MLPerf-riktlinjer. Volta V100 GPU ger bästa prestanda, men RTX-GPU: erna fungerar även bra utom för att mäta objekt avkänning.

Vid tidpunkten för publiceringen misslyckades bild klassificeringen i MLPerf med RTX GPU: er på grund av ett convolution-fel. Det här problemet förväntas åtgärdas i en framtida cuDNN-version.

Résolution

Sammanfattning:

I den här bloggen har vi beskrivit prestandan för Dell EMC DSS 8440 GPU-servern och NVIDIA RTX GPU: er för HPC och AI-arbetsbelastningar. Prestanda för båda RTX GPU: er liknar däremot RTX 8000 GPU-enheten är ett bästa val för program som kräver en större mängd minne. För arbets belastningar med dubbel precision, eller arbets belastning som kräver hög minnes bandbredd Volta V100S och den nya NVIDIA A100-GPU: n är det bästa valet.

I framtiden planerar vi att tillhandahålla en prestanda studie på RTX GPU: er med andra enkla precision-program och en test konsekvens på RTX och A100 GPU.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell