Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC DSS 8440-server som driftes av NVIDIA RTX GPU-er for HPC- og AI-arbeidsbelastninger

Résumé: Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ML) og dyp opplærings arbeid. Denne artikkelen sammenligner ytelsen til ulike GPU-er som NVIDIA Volta V100S og NVIDIA Tesla T4-kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er i dette systemet. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle og Frank han

 

Dell EMC HPC og kunstig skapnings Lab, 2020

 

Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ml) og dyp opplærings arbeid. Den støtter forskjellige GPU-er som NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4 - SLN321776_en_US__1iC_External_Link_BD_v1 kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er SLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840 server)

I denne bloggen evaluerer vi ytelsen til kostnads besparende NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000 GPU-er sammenlignet med den øverste skala lag V100S GPU-en ved bruk av ulike benchmark-verktøy for industri standard. Dette inkluderer testing mot enkle arbeids belastninger i forhold til dobbel presisjon. Selv om Quadro-serien har eksistert for lenge, har RTX GPU-er som ble startet med NVIDIA Turing-arkitekturen i sent 2018. Spesifikasjonene i tabell 1 viser at RTX 8000-GPU-en er overordnet RTX 6000 når det gjelder høyere minne konfigurasjon. De RTX 8000 og RTX 6000 GPU-ene har imidlertid høyere strøm behov sammenlignet med V100S GPU-er. For arbeids belastninger som krever høyere minne kapasitet, er RTX 8000 det beste valget.

Spesifikasjoner RTX 6000 RTX 8000 V100S-32 GB
Arkitektur Turing Volta
Minne 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard klokke hastighet (MHz) 1395 1245
Maksimal klokke hastighet på GPU (MHz) 1770 1597
CUDA-kjerner 4608 5120
FP32 (TFLOPS-maksimum) 16,3 16,4
Minne bånd bredde (GB/s) 672 1134
Strøm 295 W 250 W

Table. 1 GPU-spesifikasjoner

Server DellEMC,PowerEdge, DSS8440
Prosessor 2 x Intel Xeon 6248, 20 C ved 2,5 GHz
Minne 24 x 32 GB ved 2933 MT/s (768 GB totalt)
GRAFIKK  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Lagring 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger 4 x 2400 W

Tabell. 2 detaljer om konfigurasjon av server

BIOS 2.4.5
Operativsystem: RHEL 7,6
Kjerne 3.10.0-957.el7.x86_64
System profil Optimert ytelse
CUDA Toolkit
CUDA-driver
10,1
440.33.01

Tabell. 3 detaljer om systemets FAS tvare

Applikasjon Versjon
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018-oppdatering 4
LAMMPS Mars 3 2020
OpenMPI – 4.0.3
MLPERF v 0,6-opplæringSLN321776_en_US__1iC_External_Link_BD_v1
dokking 19,03

Tabell. 4 -applikasjons informasjon

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 er et Molecular Dynamics-program som vedlikeholdes av forskere ved Sandia nasjonale laboratorier og Temple University. LAMMPS ble kompilert med KOKKOS-pakkenSLN321776_en_US__6iC_External_Link_BD_v1 for å kjøre effektivt på nVidia GPU-er. Lennard Jensen-DataSet ble brukt til sammenligning av ytelse og Timesteps/s som metrikk som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jensen-graf)

 Som oppført i tabell 1, har RTX 6000 og RTX 8000 GPU-er samme antall kjerner, enkel presisjons ytelse og GPU-båndbredde, men forskjellig GPU-minne. Fordi begge RTX GPU-er har en lignende konfigurasjon, er ytelsen også i samme område. RTXe GPU-er og-skala godt for dette programmet, og ytelsen for begge GPU-ene er identisk.

Volta V100S GPU-ytelsen er omtrent tre ganger raskere enn Quadro RTX GPU-er. Nøkkel faktoren for denne høyere ytelsen er den større GPU-minne bånd bredden til den V100S GPU-en.


High Performance Linpack (HPL)

HPL er en standard HPC benchmark som måler data behandlings ytelsen. Den brukes som en referanse-benchmark av TOP500-listen for å rangere data maskiner over hele verden.

Følgende figur viser ytelsen til RTX 6000, RTX 8000 og V100Se GPU-er som bruker DSS 8440-server. Som du kan se, er ytelsen til de RTX GPU-ene betydelig lavere enn den V100S GPU-en. Dette vil bli forventet fordi HPL utfører en Matrix LU factorization som hovedsakelig er flyt talls operasjoner med dobbel presisjon.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL-ytelse med forskjellige GPU-er)

Hvis vi sammenligner den teoretiske flytende punkt ytelsen, det vil si Rpeak av begge GPU-ene, ser vi at den V100S GPU-ytelsen er mye høyere. Den teoretiske Rpeak-verdien på én enkelt RTX GPU er omtrent 500GFlops. Denne verdien gir mindre ytelse (Rmax) per GPU. Rpeak-verdien for Volta V100S GPU er 8.2 TFlops, som resulterer i mye høyere ytelse fra hvert kort.


MLPerf

Behovet for ytelses tester for industri standard for ML LED i forbindelse med utviklingen av MLPerf-serien. Denne pakken inkluderer ytelses tester for evaluering av opplæring og inference ytelse på ML-maskin vare og program vare. Denne delen håndterer bare opplærings ytelsen for GPU-er. Følgende tabell viser arbeids belastningene på dyp læring, data sett og mål vilkår som brukes for evaluering av GPU-er.

Verdier Data sett Kvalitets mål Modell for referanse implementering
Bilde klassifisering ImageNet (224x224) 75,9% topp-1 nøyaktighet Resnet-50 v 1.5
Objekt oppdagelse
(lys vekt)
COCOS 2017 23% kart SSD-ResNet34
Oppdagelse av objekter
(tung vekt)
COCOS 2017 0,377-boks minimum AP
0,339-maske minimum Ap
Maske R-CNN
Oversettelse
(reaktivering)
WMT engelsk-tysk 24,0 BLEU GNMT
Oversettelse
(ikke oppdatert)
 WMT engelsk-tysk  25,0 BLEU Transformator
Forsterker opplæring Ikke relevant Forhånds kvalifisert kontroll punkt Mini Go

Table. 5 MLPerf-datasett og mål vilkår (Kilde:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for å oppfylle mål vilkårene for både RTX og V100S GPU-er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ytelse)

Resultatene anses å etter at det er utført flere kjøringer, at den høyeste og laveste verdien og gjennomsnittet av de andre kjøres i henhold til de angitte retnings linjene. Ytelsen for både RTX GPU-er er like. Prosent andelen av avviket mellom begge RTX GPU-ene er minimale og innenfor godkjennings intervallet i henhold til MLPerf retnings linjer. Når Volta V100 GPU gir best ytelse, vil RTX-GPU-ene også fungere godt, bortsett fra oppdagelse av objektets ytelses test.

På publikasjonen arbeids tid mislyktes en ytelses test for bilde klassifisering i MLPerf med RTX GPU-er som følge av en overførings feil. Dette problemet er forventet å bli løst i en fremtidig cuDNN-utgivelse.

Résolution

Sammendrag

I denne bloggen har vi diskutert ytelsen til Dell EMC DSS 8440 GPU-server og NVIDIA RTX GPU-er for HPC og AI-arbeids belastninger. Ytelsen for begge RTX GPU-er er lik, men RTX 8000 GPU er imidlertid et best valg for programmer som krever en større mengde minne. For arbeids belastninger med dobbel presisjon, eller arbeids mengder som krever Volta-V100S med høy minne, og de nye NVIDIA A100 GPU-er er best valg.

I fremtiden planlegger vi å tilby en ytelses studie på RTX GPU-er med andre enkelt Precision-programmer og en Inference studie på RTX og A100 GPU-er.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution