Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC DSS 8440 server aangedreven door NVIDIA RTX-GPU’s voor HPC- en AI-workloads (in het Engels)

Résumé: De Dell EMC DSS8440-server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ML) en diep leer werk. Dit artikel vergelijkt de prestaties van verschillende Gpu's, zoals NVIDIA Volta V100S en NVIDIA Tesla T4 tensor core Gpu's en NVIDIA Quadro RTX Gpu's in dit systeem. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle en Frank Han

 

Dell EMC HPC en AI-innovatie Lab juni 2020

 

De Dell EMC DSS8440 -server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ml) en diep leer werk. Het ondersteunt diverse Gpu's, zoals NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 en Nvidia Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 TENSOR core gpu's en NVIDIA Quadro RTX gpu'sSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figuur. 1 Dell EMC DSS840-server)

In deze blog evalueren we de prestaties van de rendabele NVIDIA Quadro RTX 6000 en de NVIDIA Quadro RTX 8000-Gpu's vergeleken met de bovenlaag versneller V100S GPU met behulp van verschillende industriestandaard benchmarking tools. Dit omvat het testen tegen de werklast van enkele VS nauwkeurigheid. Hoewel de Quadro-serie een lange tijd heeft bevonden, RTX Gpu's met NVIDIA Turing-architectuur gelanceerd in de eind 2018. De specificaties in tabel 1 tonen aan dat de RTX 8000-GPU zich boven de RTX 6000 in termen van een hogere geheugenconfiguratie bevindt. De RTX 8000-en RTX 6000-Gpu's hebben echter hogere stroom behoeften dan de V100S GPU. Voor werklasten die een hogere geheugencapaciteit vereisen, is de RTX 8000 de beste keuze.

Specificaties RTX 6000 RTX 8000 V100S-32 GB
Architectuur Turing Volta
Geheugen 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standaard kloksnelheid (MHz) 1395 1245
Maximale kloksnelheid GPU (MHz) 1770 1597
CUDA-kernen 4608 5120
FP32 (TFLOPS maximum) 16,3 16,4
Geheugenbandbreedte (GB/s) 672 1134
Voeding 295 W 250 W

Tabel. 1 GPU-specificaties

Server DellEMC, PowerEdge, DSS8440
Processor 2 x Intel Xeon 6248, 20 C bij 2,5 GHz
Geheugen 24 x 32 GB bij 2933 MT/s (totaal 768 GB)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Storage 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Voedingen 4 x 2400 W

Tabel. 2 configuratiegegevens van server

BIOS 2.5.4
BESTURINGSSYSTEEM RHEL 7,6
Kern 3.10.0-957.el7.x86_64
Systeemprofiel Prestaties geoptimaliseerd
CUDA Toolkit
CUDA-stuurprogramma
10,1
440.33.01

Tabel. 3 Details systeem firmware

Applicatie Versie
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel mkl 2018-update 4
LAMMPS Maart 3 2020
openmpi-4.0.3
MLPERF v 0,6 trainingSLN321776_en_US__1iC_External_Link_BD_v1
docker 19,03

Tabel. 4 toepassingsinformatie

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 is een moleculaire Dynamics-toepassing die wordt onderhouden door onderzoekers op Sandia National laboratoria en Temple University. LAMMPS is gecompileerd met het KOKKOS-pakketSLN321776_en_US__6iC_External_Link_BD_v1 om efficiënt op NVIDIA-gpu's te werken. Lennard Jansen-dataset wordt gebruikt voor de prestatie vergelijking en timesteps/s is de metric zoals wordt weergegeven in afbeelding 2:

SLN321776_en_US__8image (18427)

(Afbeelding) 2 Lennard Jansen-grafiek)

 Zoals vermeld in tabel 1, hebben de RTX 6000 en RTX 8000 hetzelfde aantal kernen, enkele precisie prestatie en GPU-bandbreedte maar ander GPU-geheugen. Omdat beide RTX-Gpu's een vergelijkbare configuratie hebben, is de werking ook in hetzelfde bereik. RTX GPU schaalt goed voor deze toepassing en de prestaties voor beide Gpu's zijn identiek.

De prestaties van de Volta V100S GPU is ongeveer drie keer sneller dan de Quadro RTX Gpu's. De sleutel factor voor deze hogere prestaties is de grotere GPU-geheugenbandbreedte van de V100S-GPU.


High Performance Linpack (HPL)

HPL is een standaard HPC benchmarktest waarmee de prestaties van de computer worden gemeten. Dit wordt gebruikt als referentie benchmark van de TOP500-lijst om supercomputeren overal ter wereld te rangschikken.

De volgende afbeelding toont de prestaties van de RTX 6000, RTX 8000 en V100S-Gpu's met behulp van de DSS 8440-server. Zoals u ziet kunnen de prestaties van de RTX-Gpu's aanzienlijk lager zijn dan de V100S-GPU. Dit is te verwachten omdat de HPL een matrix LU-factorization uitvoert. Dit is voornamelijk dubbele precisie drijvende punt bewerkingen.

SLN321776_en_US__9image (18428)

(Figuur. 3 HPL prestaties met verschillende gpu's)

Als we de theoretische drijvende-komma prestaties vergelijken, dat wil zeggen, Rpeak van beide Gpu's, zien we dat de prestaties van de V100S GPU veel hoger zijn. De theoretische Rpeak-waarde op een enkele RTX-GPU is ongeveer 500GFlops. Deze waarde levert minder prestatie (Rmax) per GPU op. De Rpeak-waarde voor Volta V100S GPU is 8.2 TFlops, wat leidt tot veel hogere prestaties van elke kaart.


MLPerf

De behoefte aan industriestandaard benchmarks voor de prestaties van ML leidde tot de ontwikkeling van het MLPerf-pakket. Deze suite omvat benchmarks voor het evalueren van trainingen en het afleiden van de prestaties van ML-hardware en-software. In dit gedeelte worden alleen de trainings prestaties van Gpu's geadresseerd. In de volgende tabel vindt u een lijst met de diepgaande werkbelastingen, datasets en doel criteria die worden gebruikt voor het evalueren van de Gpu's.

Ijkpunt Dataset Kwaliteits doel Referentie-implementatie model
Afbeeldings classificatie ImageNet (224x224) 75,9% hoogst-1 nauwkeurigheid ResNet-50 v 1.5
Object detectie
(lichtgewicht)
COCO 2017 23% kaart SSD-ResNet34
Object detectie
(zwaar gewicht)
COCO 2017 0,377 doos minimaal AP
0,339-masker minimaal AP
Masker R-CNN
Vertaling
(terugcourant)
WMT Engels-Duits 24,0 BLEU GNMT
Vertaling
(niet-recurrent)
 WMT Engels-Duits  25,0 BLEU Transformator
Versterking van het leerproces N.v.t. Vooraf getraind controlepunt Mini-go

Tabel. 5 MLPerf datasets en doel criteria (Bron:https://mlperf.org/training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

de volgende afbeelding toont de tijd die voldoet aan de doel criteria voor de RTX-en V100S-gpu's:

SLN321776_en_US__11image (18441)
(Afbeelding. 4 MLPERF-prestaties)

De resultaten worden beschouwd na het uitvoeren van meerdere runs, het verwijderen van de hoogste en de laagste waarde, en het gemiddelde berekenen van de andere uitvoeringen volgens de genoemde richtlijnen. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. Het percentage afwijking tussen de RTX Gpu's is minimaal en binnen het acceptatie bereik volgens de MLPerf-richtlijnen. Hoewel Volta V100 GPU de beste prestaties biedt, kunnen de RTX-Gpu's ook goed worden uitgevoerd met uitzondering van de benchmark methode voor objectdetectie.

Ten tijde van de publicatie kon de benchmark code van de installatiekopie in MLPerf niet worden opgetreden met RTX-Gpu's vanwege een convolutie fout. Dit probleem zal naar verwachting in een toekomstige cuDNN-release worden verholpen.

Résolution

Samenvatting:

In deze blog hebben we de prestaties van de Dell EMC DSS 8440 GPU server en NVIDIA RTX-Gpu's besproken voor HPC en AI-workloads. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. de RTX 8000-GPU is echter een beste keuze voor toepassingen die een grotere hoeveelheid geheugen nodig hebben. Voor snelle Precision-werklasten of werklasten die een hoge geheugenbandbreedte Volta-V100S vereisen en de nieuwe NVIDIA A100 GPU de beste keuze.

In de toekomst is het van plan om een prestatieonderzoek op RTX-Gpu's uit te voeren met andere single Precision-toepassingen en een de-onderzoek op RTX en A100 Gpu's.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution