Numéro d’article: 000132886

NVIDIA RTX -grafiikkasuorittimilla varustettu Dell EMC DSS 8440 -palvelin HPC- ja tekoälytyökuormiin

Résumé: Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Tässä artikkelissa verrataan eri gpU: iden, kuten NVIDIA Volta V100S ja NVIDIA Tesla T4 Tensor Core GPU, suorituskykyä tässä järjestelmässä. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle ja Frank Han

Dell EMC HPC ja AI Innovation Lab kesäkuu 2020

Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Se tukee erilaisia ryhmäkäytäntöobjekteja, kuten NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 ja NVIDIA Tesla T4 Tensor Core GPU sekä NVIDIA quadro RTX GPU .

SLN321776_en_US__4image(18426)

(Kuva.1 Dell EMC DSS840 -palvelin)

Tässä blogissa arvioimme kustannustehokkaan NVIDIA Quadro RTX 6000: n ja NVIDIA Quadro RTX 8000 GPU: n suorituskykyä verrattuna ylimmän tason kiihdyttimeen V100S GPU käyttämällä erilaisia alan standardivertailutyökaluja. Tähän sisältyy testaaminen yhden ja kaksinkertaisen tarkkuuden työkuormia vastaan. Vaikka Quadro-sarja on ollut olemassa jo pitkään, LOPPUVUODESTA 2018 lanseerattiin NVIDIA Turing Architecturen RTX-GPU:t. Taulukon 1 tekniset tiedot osoittavat, että RTX 8000 -GPU on suurempi kuin RTX 6000 suurempi muistikokoonpano. RTX 8000- ja RTX 6000 -GPU:illa on kuitenkin suuremmat tehontarpeet kuin V100S-GPU:lla. Rtx 8000 on parempi vaihtoehto työkuormille, jotka vaativat suuremman muistikapasiteetin.

Tekniset tiedot	RTX 6000 -ylle	RTX 8000 -käyttö	V100S-32 Gt
Arkkitehtuuri	Turing		Volta
Muisti	24 Gt:n GDDR6	48 Gt:n GDDR6	32 Gt HBM2
Oletuskellotaajuus (MHz)	1395		1245
Suorittimen suurin kellotaajuus (MHz)	1770		1597
CUDA-ytimet	4608		5 120
FP32(TFLOPS enintään)	16,3		16,4
Muistin kaistanleveys (Gt/s)	672		1134
Virta	295 W		250 W

Taulukko.1 Suorittimen tekniset tiedot

Palvelin	DellEMC,PowerEdge, DSS8440
suoritin	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Muisti	24 x 32 Gt @ 2933 MT/s (yhteensä 768 Gt)
Grafiikkasuoritin	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S - PCIe
Tallennus	1 x Dell Express Flash NVMe 1 Tt 2,5" U.2 (P4500)
Virtalähteet	4 x 2400 W

Table.2 Palvelimen kokoonpanotiedot

BIOS	2.4.5
Käyttöjärjestelmä	RHEL 7.6
Ydin	3.10.0-957.el7.x86_64
Järjestelmäprofiili	Optimoitu suorituskyky
CUDA Työkalupakki CUDA-ohjain	10.1 440.33.01

Taulukko.3 Järjestelmän laiteohjelmiston tiedot

Sovellus	Versio
HPL	hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 -päivitys 4
LAMMPS-mekanismit	3.3.2020 OpenMPI – 4.0.3
MLPERF-tiedosto	v0.6 Koulutus docker 19,03

Taulukko.4 Sovellustiedot

Cause

LAMMPS-mekanismit

LAMMPS-mekanismit SLN321776_en_US__6iC_External_Link_BD_v1 on Molekyylidynamiikka-sovellus, jota ylläpitävät Sandia National Laboratoriesin ja Temple Universityn tutkijat. LAMMPS koottiin KOKKOS-paketin kanssa toimimaan tehokkaasti NVIDIA GPU:illa. Lennard Jones -tietojoukkoa käytettiin suorituskyvyn vertailuun, ja Timesteps/s on kuvassa 2 esitetty mittari:

SLN321776_en_US__8image(18427)

(Kuva.2 Lennard Jones Graph)

Kuten taulukossa 1 on lueteltu, RTX 6000- ja RTX 8000 -ryhmäkäytäntöobjekteilla on sama määrä ytimiä, yksi tarkkuussuorituskyky ja GPU-kaistanleveys, mutta erilainen GPU-muisti. Koska molemmilla RTX-ryhmäkäytäntöobjekteilla on samanlainen kokoonpano, suorituskyky on myös samalla alueella. RTX GPU:t skaalataan hyvin tähän sovellukseen, ja molempien ryhmäkäytäntöobjektien suorituskyky on sama.

Volta V100S -GPU-suorituskyky on noin kolme kertaa nopeampi kuin Quadro RTX -GPU:iden. Tämän korkeamman suorituskyvyn avaintekijä on V100S-suorittimen suurempi GPU-muistin kaistanleveys.

High Performance Linpack (HPL)

HPL on tavallinen HPC-vertailuarvo, joka mittaa laskentatehoa. TOP500-luettelossa sitä käytetään vertailuvertailuna supertietokoneiden sijoittuessa maailmanlaajuisesti.

Seuraavassa kuvassa esitetään RTX 6000-, RTX 8000- ja V100S-ryhmäkäytäntöobjektien suorituskyky DSS 8440 -palvelimella. Kuten näette, RTX-ryhmäkäytäntöobjektien suorituskyky on huomattavasti pienempi kuin V100S-GPU: n. Tämä on odotettavissa, koska HPL suorittaa matriisin LU-kertoimen, joka on ensisijaisesti kaksoistarkkuuden liukulukutoimintoja.

SLN321776_en_US__9image(18428)

(Kuva 3 HPL-suorituskyky erilaisilla ryhmäkäytäntöobjekteilla)

Jos vertaamme teoreettista liukulukusuoritusta, eli molempien GPU:iden Rpeakia, näemme, että V100S-GPU:n suorituskyky on paljon korkeampi. Teoreettinen Rpeak-arvo yhdessä RTX-GPU:ssa on noin 500 GFlops. Tämä arvo tuottaa vähemmän suorituskykyä (Rmax) GPU:ta kohti. Volta V100S GPU:n Rpeak-arvo on 8.2TFlops, mikä johtaa paljon suurempaan suorituskykyyn jokaisesta kortista.

MLPerf-ylle

ML:n toimialakohtaisten suorituskykyvertailuarvojen tarve johti MLPerf-sarjan kehittämiseen. Tämä sarja sisältää vertailuarvoja ML-laitteistojen ja -ohjelmistojen koulutuksen ja suorituskyvyn päättämiseksi. Tässä osassa käsitellään vain ryhmäkäytäntöobjektien koulutussuoritusta. Seuraavassa taulukossa on luettelo ryhmäkäytäntöobjektien arvioinnissa käytettävistä syväoppimisen työmääristä, tietojoukoista ja kohdekriteereistä.

kiintopiste	Dataset	Laatutavoite	Viitetutkintamalli
Kuvan luokittelu	ImageNet (224x224)	75,9 % Top-1 tarkkuus	Resnet-50 v1.5
Objektien tunnistus (kevyt)	COCO 2017 (2017)	23% vahinko	SSD-ResNet34
Objektien tunnistus (raskas paino)	COCO 2017 (2017)	0.377 Laatikon vähimmäisraja 0,339 Maskin vähimmäisraja-ap	Naamio R-CNN
Käännös (toistuva)	WMT englanti-saksa	24.0 BLEU	GNMT-yy
Käännös (kertaluonteinen)	WMT englanti-saksa	25.0 BLEU	muuntaja
Vahvistusoppiminen	–	Ennalta koulutettu tarkastuspiste	Mini Go

Taulukko.5 MLPerf-tietoaineistot ja tavoitekriteerit(Lähde: https://mlperf.org/training-overview/#overview) Seuraavassa kuvassa esitetään SLN321776_en_US__6iC_External_Link_BD_v1 aika täyttää sekä

RTX- että V100S-ryhmäkäytäntöobjektien tavoitekriteerit:

SLN321776_en_US__11image(18441)
(Kuva.4 MLPERF-suorituskyky)

Tulokset on otettava huomioon useiden juoksujen suorittamisen, suurimman ja pienimmän arvon hylkäämisen sekä muiden suoritteiden keskiarvon jälkeen luettelossa lueteltujen ohjeiden mukaisesti. Molempien RTX-ryhmäkäytäntöobjektien suorituskyky on samanlainen. Molempien RTX-ryhmäkäytäntöobjektien välinen varianssiprosentti on mlPerf-ohjeiden mukaisesti minimaalinen ja hyväksymisalueella. Vaikka Volta V100 GPU tarjoaa parhaan suorituskyvyn, RTX-ryhmäkäytäntöobjektit toimivat myös hyvin lukuun ottamatta objektien havaitsemisen vertailuarvoa.

Julkaisuhetkellä MLPerf:n Image-luokituksen vertailuarvo epäonnistui RTX-ryhmäkäytäntöobjektien kanssa konvoluutiovirheen vuoksi. Tämän ongelman odotetaan korjauvan tulevassa CuDNN-versiossa.

Résolution

Yhteenveto:

Tässä blogissa keskustelimme Dell EMC DSS 8440 GPU Serverin ja NVIDIA RTX GPU:iden suorituskyvystä HPC- ja AI-työkuormille. Molempien RTX-GPU: iden suorituskyky on samanlainen, mutta RTX 8000 -GPU olisi paras valinta sovelluksille, jotka vaativat enemmän muistia. Kaksoistarkat työkuormat tai suurta muistin kaistanleveyttä vaativat työkuormat Volta V100S ja uusi NVIDIA A100 -GPU ovat paras valinta.

Tulevaisuudessa aiomme tarjota rtx-gp:iden suorituskykytutkimuksen muiden yksitarkkuuden sovellusten kanssa sekä inferenssitutkimuksen RTX: stä ja A100: sta.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell