Numéro d’article: 000132886

Dell EMC DSS 8440 server aangedreven door NVIDIA RTX-GPU’s voor HPC- en AI-workloads (in het Engels)

Résumé: De Dell EMC DSS8440-server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ML) en diep leer werk. Dit artikel vergelijkt de prestaties van verschillende Gpu's, zoals NVIDIA Volta V100S en NVIDIA Tesla T4 tensor core Gpu's en NVIDIA Quadro RTX Gpu's in dit systeem. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle en Frank Han

Dell EMC HPC en AI-innovatie Lab juni 2020

De Dell EMC DSS8440 -server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ml) en diep leer werk. Het ondersteunt diverse Gpu's, zoals NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 en Nvidia Tesla T4 TENSOR core gpu's en NVIDIA Quadro RTX gpu's .

SLN321776_en_US__4image (18426)

(Figuur. 1 Dell EMC DSS840-server)

In deze blog evalueren we de prestaties van de rendabele NVIDIA Quadro RTX 6000 en de NVIDIA Quadro RTX 8000-Gpu's vergeleken met de bovenlaag versneller V100S GPU met behulp van verschillende industriestandaard benchmarking tools. Dit omvat het testen tegen de werklast van enkele VS nauwkeurigheid. Hoewel de Quadro-serie een lange tijd heeft bevonden, RTX Gpu's met NVIDIA Turing-architectuur gelanceerd in de eind 2018. De specificaties in tabel 1 tonen aan dat de RTX 8000-GPU zich boven de RTX 6000 in termen van een hogere geheugenconfiguratie bevindt. De RTX 8000-en RTX 6000-Gpu's hebben echter hogere stroom behoeften dan de V100S GPU. Voor werklasten die een hogere geheugencapaciteit vereisen, is de RTX 8000 de beste keuze.

Specificaties	RTX 6000	RTX 8000	V100S-32 GB
Architectuur	Turing		Volta
Geheugen	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standaard kloksnelheid (MHz)	1395		1245
Maximale kloksnelheid GPU (MHz)	1770		1597
CUDA-kernen	4608		5120
FP32 (TFLOPS maximum)	16,3		16,4
Geheugenbandbreedte (GB/s)	672		1134
Voeding	295 W		250 W

Tabel. 1 GPU-specificaties

Server	DellEMC, PowerEdge, DSS8440
Processor	2 x Intel Xeon 6248, 20 C bij 2,5 GHz
Geheugen	24 x 32 GB bij 2933 MT/s (totaal 768 GB)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Storage	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Voedingen	4 x 2400 W

Tabel. 2 configuratiegegevens van server

BIOS	2.5.4
BESTURINGSSYSTEEM	RHEL 7,6
Kern	3.10.0-957.el7.x86_64
Systeemprofiel	Prestaties geoptimaliseerd
CUDA Toolkit CUDA-stuurprogramma	10,1 440.33.01

Tabel. 3 Details systeem firmware

Applicatie	Versie
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel mkl 2018-update 4
LAMMPS	Maart 3 2020 openmpi-4.0.3
MLPERF	v 0,6 training docker 19,03

Tabel. 4 toepassingsinformatie

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 is een moleculaire Dynamics-toepassing die wordt onderhouden door onderzoekers op Sandia National laboratoria en Temple University. LAMMPS is gecompileerd met het KOKKOS-pakket om efficiënt op NVIDIA-gpu's te werken. Lennard Jansen-dataset wordt gebruikt voor de prestatie vergelijking en timesteps/s is de metric zoals wordt weergegeven in afbeelding 2:

SLN321776_en_US__8image (18427)

(Afbeelding) 2 Lennard Jansen-grafiek)

Zoals vermeld in tabel 1, hebben de RTX 6000 en RTX 8000 hetzelfde aantal kernen, enkele precisie prestatie en GPU-bandbreedte maar ander GPU-geheugen. Omdat beide RTX-Gpu's een vergelijkbare configuratie hebben, is de werking ook in hetzelfde bereik. RTX GPU schaalt goed voor deze toepassing en de prestaties voor beide Gpu's zijn identiek.

De prestaties van de Volta V100S GPU is ongeveer drie keer sneller dan de Quadro RTX Gpu's. De sleutel factor voor deze hogere prestaties is de grotere GPU-geheugenbandbreedte van de V100S-GPU.

High Performance Linpack (HPL)

HPL is een standaard HPC benchmarktest waarmee de prestaties van de computer worden gemeten. Dit wordt gebruikt als referentie benchmark van de TOP500-lijst om supercomputeren overal ter wereld te rangschikken.

De volgende afbeelding toont de prestaties van de RTX 6000, RTX 8000 en V100S-Gpu's met behulp van de DSS 8440-server. Zoals u ziet kunnen de prestaties van de RTX-Gpu's aanzienlijk lager zijn dan de V100S-GPU. Dit is te verwachten omdat de HPL een matrix LU-factorization uitvoert. Dit is voornamelijk dubbele precisie drijvende punt bewerkingen.

SLN321776_en_US__9image (18428)

(Figuur. 3 HPL prestaties met verschillende gpu's)

Als we de theoretische drijvende-komma prestaties vergelijken, dat wil zeggen, Rpeak van beide Gpu's, zien we dat de prestaties van de V100S GPU veel hoger zijn. De theoretische Rpeak-waarde op een enkele RTX-GPU is ongeveer 500GFlops. Deze waarde levert minder prestatie (Rmax) per GPU op. De Rpeak-waarde voor Volta V100S GPU is 8.2 TFlops, wat leidt tot veel hogere prestaties van elke kaart.

MLPerf

De behoefte aan industriestandaard benchmarks voor de prestaties van ML leidde tot de ontwikkeling van het MLPerf-pakket. Deze suite omvat benchmarks voor het evalueren van trainingen en het afleiden van de prestaties van ML-hardware en-software. In dit gedeelte worden alleen de trainings prestaties van Gpu's geadresseerd. In de volgende tabel vindt u een lijst met de diepgaande werkbelastingen, datasets en doel criteria die worden gebruikt voor het evalueren van de Gpu's.

Ijkpunt	Dataset	Kwaliteits doel	Referentie-implementatie model
Afbeeldings classificatie	ImageNet (224x224)	75,9% hoogst-1 nauwkeurigheid	ResNet-50 v 1.5
Object detectie (lichtgewicht)	COCO 2017	23% kaart	SSD-ResNet34
Object detectie (zwaar gewicht)	COCO 2017	0,377 doos minimaal AP 0,339-masker minimaal AP	Masker R-CNN
Vertaling (terugcourant)	WMT Engels-Duits	24,0 BLEU	GNMT
Vertaling (niet-recurrent)	WMT Engels-Duits	25,0 BLEU	Transformator
Versterking van het leerproces	N.v.t.	Vooraf getraind controlepunt	Mini-go

Tabel. 5 MLPerf datasets en doel criteria (Bron:https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

de volgende afbeelding toont de tijd die voldoet aan de doel criteria voor de RTX-en V100S-gpu's:

SLN321776_en_US__11image (18441)
(Afbeelding. 4 MLPERF-prestaties)

De resultaten worden beschouwd na het uitvoeren van meerdere runs, het verwijderen van de hoogste en de laagste waarde, en het gemiddelde berekenen van de andere uitvoeringen volgens de genoemde richtlijnen. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. Het percentage afwijking tussen de RTX Gpu's is minimaal en binnen het acceptatie bereik volgens de MLPerf-richtlijnen. Hoewel Volta V100 GPU de beste prestaties biedt, kunnen de RTX-Gpu's ook goed worden uitgevoerd met uitzondering van de benchmark methode voor objectdetectie.

Ten tijde van de publicatie kon de benchmark code van de installatiekopie in MLPerf niet worden opgetreden met RTX-Gpu's vanwege een convolutie fout. Dit probleem zal naar verwachting in een toekomstige cuDNN-release worden verholpen.

Résolution

Samenvatting:

In deze blog hebben we de prestaties van de Dell EMC DSS 8440 GPU server en NVIDIA RTX-Gpu's besproken voor HPC en AI-workloads. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. de RTX 8000-GPU is echter een beste keuze voor toepassingen die een grotere hoeveelheid geheugen nodig hebben. Voor snelle Precision-werklasten of werklasten die een hoge geheugenbandbreedte Volta-V100S vereisen en de nieuwe NVIDIA A100 GPU de beste keuze.

In de toekomst is het van plan om een prestatieonderzoek op RTX-Gpu's uit te voeren met andere single Precision-toepassingen en een de-onderzoek op RTX en A100 Gpu's.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell