Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC DSS 8440-server som drivs med NVIDIA RTX-grafikprocessorer för HPC- och AI-arbetsbelastningar

Résumé: Dell EMC DSS8440-servern är en 2-sockel, 4U-Server utformad för högpresterande dator hantering, Machine Learning (ML) och djupgående inlärnings arbets belastning. I den här artikeln jämförs prestanda för olika GPU: er, till exempel NVIDIA Volta V100S och NVIDIA Tesla T4-tums intensitet och NVIDIA Quadro RTX GPU i detta system. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle och Franke han

 

Dell EMC HPC och AI-Innovation Lab juni 2020

 

Dell EMC DSS8440 -servern är en 2-sockel, 4U-Server utformad för högpresterande dator hantering, Machine Learning (ml) och djupgående inlärnings arbets belastning. Den stöder olika GPU: er som NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 och NVIDIA Tesla T4 behållning Core GPU såväl som SLN321776_en_US__1iC_External_Link_BD_v1NVIDIA Quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Bild. 1 Dell EMC DSS840-Server)

I den här bloggen utvärderas prestandan för kostnads effektiva NVIDIA Quadro RTX 6000 och NVIDIA Quadro RTX 8000 GPU: er jämfört med den övre nivån Accelerator V100S GPU med hjälp av olika branschstandardiserade benchmarking-verktyg. Detta inbegriper testning av arbets belastningar med enkel vs (dubbel precision). Även om Quadro-serien funnits länge har RTX GPU: er med NVIDIA Turing-arkitektur lanserats i slutet 2018. Specifikationerna i tabell 1 visar att RTX 8000-GPU är överlägset RTX-6000 i termer av konfiguration med högre minne. Men RTX 8000 och RTX 6000 GPU: er har högre ström behov jämfört med V100S GPU. För arbets belastningar som kräver högre minnes kapacitet är RTX 8000 det bästa valet.

Specifikationer RTX 6000 RTX 8000 V100S-32 GB
Arkitektur Turing Volta
Minne 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard klock frekvens (MHz) 1395 1245
GPU: n (maximal) klock frekvens (MHz) 1770 1597
CUDA-kärnor 4608 5120
FP32 (TFLOPS maximum) 16,3 16,4
Minnes bandbredd (GB/s) 672 1134
Strömförsörjning 295 W 250 W

Tabell. 1 GPU-specifikationer

Server DellEMC, PowerEdge, DSS8440
Processor 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Minne 24 x 32 GB @ 2933 MT/s (768 GB totalt)
DISKRET  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Lagring 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strömkällor 4 x 2400 W

Tabell. 2 -Server konfigurations Detaljer

BIOS 2.5.4
Operativsystem: RHEL 7,6
Kärna 3.10.0-957.el7.x86_64
System profil Prestandaoptimerad
CUDA Toolkit
CUDA-drivrutin
10,1
440.33.01

Tabell. 3 information om systemets fasta program vara

Indicator Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 uppdatering 4
LAMMPS Mars 3 2020
OpenMPI – 4.0.3
MLPERF v 0,6-utbildningSLN321776_en_US__1iC_External_Link_BD_v1
docknings Station 19,03

Tabell. 4 tillämpnings uppgifter

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 är ett molekyl Dynamics-program som upprätthålls av forskare på Sandia nationella laboratorier och Temple University. LAMMPS har kompilerats med KOKKOS-paketetSLN321776_en_US__6iC_External_Link_BD_v1 för att fungera effektivt på NVIDIA GPU: er. Lennard Jones dataset användes för att utföra prestanda jämförelse och Timesteps/s som mått som visas i bild 2:

SLN321776_en_US__8image (18427)

(Bild. 2 Lennard Jones-diagram)

 Enligt vad som anges i tabell 1 har RTX 6000 och RTX 8000 GPU: er har samma antal kärnor, enkel precisions prestanda och GPU-bandbredd men olika GPU-minne. Eftersom båda RTX GPU: er har en liknande konfiguration är prestanda även i samma intervall. RTX GPU-skalbarheten för detta program och prestandan för båda GPU: erna är identiska.

Volta V100S GPU-prestandan är ungefär tre gånger snabbare än Quadro RTX GPU. Nyckel faktorn för detta högre prestanda är den största bandbredden för GPU: n i V100S-GPU.


HPL (High Performance Linpack)

HPL är en standard HPC benchmark som mäter datorns prestanda. Den används som referens riktmärke av TOP500-listan för att rangordna superdatorer över hela världen.

Följande bild visar prestandan för RTX 6000, RTX 8000 och V100S GPU med hjälp av DSS 8440 Server. Som du ser är prestandan för RTX GPU: er betydligt lägre än V100S GPU. Detta ska förväntas eftersom HPL utför en Matrix LU factorization som huvudsakligen är dubbel precisions flytt ALS operation.

SLN321776_en_US__9image (18428)

(Bild. 3 HPL prestanda med olika GPU: er)

Om vi jämför den teoretiska flytt ALS prestandan, dvs. Rpeak av båda GPU: erna, ser vi att GPU-prestandan för V100S är mycket högre. Det teoretiska Rpeak-värdet på en enda RTX-GPU är ungefär 500GFlops. Det här värdet ger mindre prestanda (Rmax) per GPU. Rpeak-värdet för Volta V100S GPU är 8.2 TFlops, vilket resulterar i mycket högre prestanda från varje kort.


MLPerf

Behovet av branschstandardiserade prestandatester för ML ledde till utvecklingen av MLPerf-sviten. I denna svit ingår riktmärken för utvärdering av utbildnings-och uteffekts prestanda för ML maskin vara och program vara. Det här avsnittet handlar endast om utbildnings prestanda för GPU: er. I följande tabell visas de djupgående inlärnings arbets uppgifter, data uppsättningar och mål kriterier som används för att utvärdera GPU: erna.

Benchmarking Mängden Kvalitets mål Referens implementerings modell
Bild klassificering ImageNet (224x224) 75,9% upp till 1-exakthet Resnet-50 v 1.5
Objekt detektering
(ljus vikt)
COCO 2017 23% mAP SSD-ResNet34
Objekt detektering
(tung vikt)
COCO 2017 0,377 Box minsta AP
0,339 mask minsta AP
Mask R-CNN
Översättning
(återkommande)
WMT engelska-tyska 24,0 BLEU GNMT
Översättning
(ej återkommande)
 WMT engelska-tyska  25,0 BLEU Transformator
Förstärknings inlärning Ej tillämpligt Förtränad kontroll punkt Mini go

Tabell. 5 MLPerf data uppsättningar och mål kriterier (Källa:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

följande bild visar tiden för att uppfylla mål kriteriet för både RTX-och V100S GPU:

SLN321776_en_US__11image (18441)
(Bild. 4 MLPERF prestanda)

Resultaten beaktas när flera sekvenser har utförts, kastats bort det högsta och lägsta värdet och medelvärdet för andra körningar enligt rikt linjerna i listan. Prestandan för båda RTX GPU: er är likartade. Skillnaden i procent mellan båda RTX GPU: er är minimal och inom acceptans intervallet enligt MLPerf-riktlinjer. Volta V100 GPU ger bästa prestanda, men RTX-GPU: erna fungerar även bra utom för att mäta objekt avkänning.

Vid tidpunkten för publiceringen misslyckades bild klassificeringen i MLPerf med RTX GPU: er på grund av ett convolution-fel. Det här problemet förväntas åtgärdas i en framtida cuDNN-version.

Résolution

Sammanfattning:

I den här bloggen har vi beskrivit prestandan för Dell EMC DSS 8440 GPU-servern och NVIDIA RTX GPU: er för HPC och AI-arbetsbelastningar. Prestanda för båda RTX GPU: er liknar däremot RTX 8000 GPU-enheten är ett bästa val för program som kräver en större mängd minne. För arbets belastningar med dubbel precision, eller arbets belastning som kräver hög minnes bandbredd Volta V100S och den nya NVIDIA A100-GPU: n är det bästa valet.

I framtiden planerar vi att tillhandahålla en prestanda studie på RTX GPU: er med andra enkla precision-program och en test konsekvens på RTX och A100 GPU.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution