Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

NVIDIA RTX -grafiikkasuorittimilla varustettu Dell EMC DSS 8440 -palvelin HPC- ja tekoälytyökuormiin

Résumé: Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Tässä artikkelissa verrataan eri gpU: iden, kuten NVIDIA Volta V100S ja NVIDIA Tesla T4 Tensor Core GPU, suorituskykyä tässä järjestelmässä. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle ja Frank Han

 

Dell EMC HPC ja AI Innovation Lab kesäkuu 2020

 

Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Se tukee erilaisia ryhmäkäytäntöobjekteja, kuten NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 ja NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 Tensor Core GPU sekä NVIDIA quadro RTX GPUSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image(18426)

(Kuva.1 Dell EMC DSS840 -palvelin)

Tässä blogissa arvioimme kustannustehokkaan NVIDIA Quadro RTX 6000: n ja NVIDIA Quadro RTX 8000 GPU: n suorituskykyä verrattuna ylimmän tason kiihdyttimeen V100S GPU käyttämällä erilaisia alan standardivertailutyökaluja. Tähän sisältyy testaaminen yhden ja kaksinkertaisen tarkkuuden työkuormia vastaan. Vaikka Quadro-sarja on ollut olemassa jo pitkään, LOPPUVUODESTA 2018 lanseerattiin NVIDIA Turing Architecturen RTX-GPU:t. Taulukon 1 tekniset tiedot osoittavat, että RTX 8000 -GPU on suurempi kuin RTX 6000 suurempi muistikokoonpano. RTX 8000- ja RTX 6000 -GPU:illa on kuitenkin suuremmat tehontarpeet kuin V100S-GPU:lla. Rtx 8000 on parempi vaihtoehto työkuormille, jotka vaativat suuremman muistikapasiteetin.

Tekniset tiedot RTX 6000 -ylle RTX 8000 -käyttö V100S-32 Gt
Arkkitehtuuri Turing Volta
Muisti 24 Gt:n GDDR6 48 Gt:n GDDR6 32 Gt HBM2
Oletuskellotaajuus (MHz) 1395 1245
Suorittimen suurin kellotaajuus (MHz) 1770 1597
CUDA-ytimet 4608 5 120
FP32(TFLOPS enintään) 16,3 16,4
Muistin kaistanleveys (Gt/s) 672 1134
Virta 295 W 250 W

Taulukko.1 Suorittimen tekniset tiedot

Palvelin DellEMC,PowerEdge, DSS8440
suoritin 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Muisti 24 x 32 Gt @ 2933 MT/s (yhteensä 768 Gt)
Grafiikkasuoritin  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S - PCIe 
Tallennus 1 x Dell Express Flash NVMe 1 Tt 2,5" U.2 (P4500)
Virtalähteet 4 x 2400 W

Table.2 Palvelimen kokoonpanotiedot

BIOS 2.4.5
Käyttöjärjestelmä RHEL 7.6
Ydin 3.10.0-957.el7.x86_64
Järjestelmäprofiili Optimoitu suorituskyky
CUDA Työkalupakki
CUDA-ohjain
10.1
440.33.01

Taulukko.3 Järjestelmän laiteohjelmiston tiedot

Sovellus Versio
HPL hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 -päivitys 4
LAMMPS-mekanismit 3.3.2020
OpenMPI – 4.0.3
MLPERF-tiedosto v0.6 KoulutusSLN321776_en_US__1iC_External_Link_BD_v1
docker 19,03

Taulukko.4 Sovellustiedot

Cause

LAMMPS-mekanismit

LAMMPS-mekanismitSLN321776_en_US__6iC_External_Link_BD_v1 on Molekyylidynamiikka-sovellus, jota ylläpitävät Sandia National Laboratoriesin ja Temple Universityn tutkijat. LAMMPS koottiin KOKKOS-paketin kanssa toimimaanSLN321776_en_US__6iC_External_Link_BD_v1 tehokkaasti NVIDIA GPU:illa. Lennard Jones -tietojoukkoa käytettiin suorituskyvyn vertailuun, ja Timesteps/s on kuvassa 2 esitetty mittari:

SLN321776_en_US__8image(18427)

(Kuva.2 Lennard Jones Graph)

 Kuten taulukossa 1 on lueteltu, RTX 6000- ja RTX 8000 -ryhmäkäytäntöobjekteilla on sama määrä ytimiä, yksi tarkkuussuorituskyky ja GPU-kaistanleveys, mutta erilainen GPU-muisti. Koska molemmilla RTX-ryhmäkäytäntöobjekteilla on samanlainen kokoonpano, suorituskyky on myös samalla alueella. RTX GPU:t skaalataan hyvin tähän sovellukseen, ja molempien ryhmäkäytäntöobjektien suorituskyky on sama.

Volta V100S -GPU-suorituskyky on noin kolme kertaa nopeampi kuin Quadro RTX -GPU:iden. Tämän korkeamman suorituskyvyn avaintekijä on V100S-suorittimen suurempi GPU-muistin kaistanleveys.


High Performance Linpack (HPL)

HPL on tavallinen HPC-vertailuarvo, joka mittaa laskentatehoa. TOP500-luettelossa sitä käytetään vertailuvertailuna supertietokoneiden sijoittuessa maailmanlaajuisesti.

Seuraavassa kuvassa esitetään RTX 6000-, RTX 8000- ja V100S-ryhmäkäytäntöobjektien suorituskyky DSS 8440 -palvelimella. Kuten näette, RTX-ryhmäkäytäntöobjektien suorituskyky on huomattavasti pienempi kuin V100S-GPU: n. Tämä on odotettavissa, koska HPL suorittaa matriisin LU-kertoimen, joka on ensisijaisesti kaksoistarkkuuden liukulukutoimintoja.

SLN321776_en_US__9image(18428)

(Kuva 3 HPL-suorituskyky erilaisilla ryhmäkäytäntöobjekteilla)

Jos vertaamme teoreettista liukulukusuoritusta, eli molempien GPU:iden Rpeakia, näemme, että V100S-GPU:n suorituskyky on paljon korkeampi. Teoreettinen Rpeak-arvo yhdessä RTX-GPU:ssa on noin 500 GFlops. Tämä arvo tuottaa vähemmän suorituskykyä (Rmax) GPU:ta kohti. Volta V100S GPU:n Rpeak-arvo on 8.2TFlops, mikä johtaa paljon suurempaan suorituskykyyn jokaisesta kortista.


MLPerf-ylle

ML:n toimialakohtaisten suorituskykyvertailuarvojen tarve johti MLPerf-sarjan kehittämiseen. Tämä sarja sisältää vertailuarvoja ML-laitteistojen ja -ohjelmistojen koulutuksen ja suorituskyvyn päättämiseksi. Tässä osassa käsitellään vain ryhmäkäytäntöobjektien koulutussuoritusta. Seuraavassa taulukossa on luettelo ryhmäkäytäntöobjektien arvioinnissa käytettävistä syväoppimisen työmääristä, tietojoukoista ja kohdekriteereistä.

kiintopiste Dataset Laatutavoite Viitetutkintamalli
Kuvan luokittelu ImageNet (224x224) 75,9 % Top-1 tarkkuus Resnet-50 v1.5
Objektien
tunnistus (kevyt)
COCO 2017 (2017) 23% vahinko SSD-ResNet34
Objektien
tunnistus (raskas paino)
COCO 2017 (2017) 0.377 Laatikon vähimmäisraja
0,339 Maskin vähimmäisraja-ap
Naamio R-CNN
Käännös
(toistuva)
WMT englanti-saksa 24.0 BLEU GNMT-yy
Käännös
(kertaluonteinen)
 WMT englanti-saksa  25.0 BLEU muuntaja
Vahvistusoppiminen Ennalta koulutettu tarkastuspiste Mini Go

Taulukko.5 MLPerf-tietoaineistot ja tavoitekriteerit(Lähde: https://mlperf.org/training-overview/#overview) Seuraavassa kuvassa esitetään SLN321776_en_US__6iC_External_Link_BD_v1 aika täyttää sekä

RTX- että V100S-ryhmäkäytäntöobjektien tavoitekriteerit:

SLN321776_en_US__11image(18441)
(Kuva.4 MLPERF-suorituskyky)

Tulokset on otettava huomioon useiden juoksujen suorittamisen, suurimman ja pienimmän arvon hylkäämisen sekä muiden suoritteiden keskiarvon jälkeen luettelossa lueteltujen ohjeiden mukaisesti. Molempien RTX-ryhmäkäytäntöobjektien suorituskyky on samanlainen. Molempien RTX-ryhmäkäytäntöobjektien välinen varianssiprosentti on mlPerf-ohjeiden mukaisesti minimaalinen ja hyväksymisalueella. Vaikka Volta V100 GPU tarjoaa parhaan suorituskyvyn, RTX-ryhmäkäytäntöobjektit toimivat myös hyvin lukuun ottamatta objektien havaitsemisen vertailuarvoa.

Julkaisuhetkellä MLPerf:n Image-luokituksen vertailuarvo epäonnistui RTX-ryhmäkäytäntöobjektien kanssa konvoluutiovirheen vuoksi. Tämän ongelman odotetaan korjauvan tulevassa CuDNN-versiossa.

Résolution

Yhteenveto:

Tässä blogissa keskustelimme Dell EMC DSS 8440 GPU Serverin ja NVIDIA RTX GPU:iden suorituskyvystä HPC- ja AI-työkuormille. Molempien RTX-GPU: iden suorituskyky on samanlainen, mutta RTX 8000 -GPU olisi paras valinta sovelluksille, jotka vaativat enemmän muistia. Kaksoistarkat työkuormat tai suurta muistin kaistanleveyttä vaativat työkuormat Volta V100S ja uusi NVIDIA A100 -GPU ovat paras valinta.

Tulevaisuudessa aiomme tarjota rtx-gp:iden suorituskykytutkimuksen muiden yksitarkkuuden sovellusten kanssa sekä inferenssitutkimuksen RTX: stä ja A100: sta.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution