NVIDIA RTX -grafiikkasuorittimilla varustettu Dell EMC DSS 8440 -palvelin HPC- ja tekoälytyökuormiin
摘要: Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Tässä artikkelissa verrataan eri gpU: iden, kuten NVIDIA Volta V100S ja NVIDIA Tesla T4 Tensor Core GPU, suorituskykyä tässä järjestelmässä. ...
症狀
Deepthi Cherlopalle ja Frank Han
Dell EMC HPC ja AI Innovation Lab kesäkuu 2020
Dell EMC DSS8440 -palvelin on 2 Socket- ja 4U-palvelin, joka on suunniteltu suurteholaskentaan, koneoppimiseen (ML) ja syväoppimisen työkuormiin. Se tukee erilaisia ryhmäkäytäntöobjekteja, kuten NVIDIA Volta V100S
ja NVIDIA Tesla T4
Tensor Core GPU sekä NVIDIA quadro RTX GPU
.

(Kuva.1 Dell EMC DSS840 -palvelin)
Tässä blogissa arvioimme kustannustehokkaan NVIDIA Quadro RTX 6000: n ja NVIDIA Quadro RTX 8000 GPU: n suorituskykyä verrattuna ylimmän tason kiihdyttimeen V100S GPU käyttämällä erilaisia alan standardivertailutyökaluja. Tähän sisältyy testaaminen yhden ja kaksinkertaisen tarkkuuden työkuormia vastaan. Vaikka Quadro-sarja on ollut olemassa jo pitkään, LOPPUVUODESTA 2018 lanseerattiin NVIDIA Turing Architecturen RTX-GPU:t. Taulukon 1 tekniset tiedot osoittavat, että RTX 8000 -GPU on suurempi kuin RTX 6000 suurempi muistikokoonpano. RTX 8000- ja RTX 6000 -GPU:illa on kuitenkin suuremmat tehontarpeet kuin V100S-GPU:lla. Rtx 8000 on parempi vaihtoehto työkuormille, jotka vaativat suuremman muistikapasiteetin.
| Tekniset tiedot | RTX 6000 -ylle | RTX 8000 -käyttö | V100S-32 Gt |
|---|---|---|---|
| Arkkitehtuuri | Turing | Volta | |
| Muisti | 24 Gt:n GDDR6 | 48 Gt:n GDDR6 | 32 Gt HBM2 |
| Oletuskellotaajuus (MHz) | 1395 | 1245 | |
| Suorittimen suurin kellotaajuus (MHz) | 1770 | 1597 | |
| CUDA-ytimet | 4608 | 5 120 | |
| FP32(TFLOPS enintään) | 16,3 | 16,4 | |
| Muistin kaistanleveys (Gt/s) | 672 | 1134 | |
| Virta | 295 W | 250 W | |
Taulukko.1 Suorittimen tekniset tiedot
| Palvelin | DellEMC,PowerEdge, DSS8440 | ||
|---|---|---|---|
| suoritin | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
| Muisti | 24 x 32 Gt @ 2933 MT/s (yhteensä 768 Gt) | ||
| Grafiikkasuoritin | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S - PCIe |
| Tallennus | 1 x Dell Express Flash NVMe 1 Tt 2,5" U.2 (P4500) | ||
| Virtalähteet | 4 x 2400 W | ||
Table.2 Palvelimen kokoonpanotiedot
| BIOS | 2.4.5 |
|---|---|
| Käyttöjärjestelmä | RHEL 7.6 |
| Ydin | 3.10.0-957.el7.x86_64 |
| Järjestelmäprofiili | Optimoitu suorituskyky |
| CUDA Työkalupakki CUDA-ohjain |
10.1 440.33.01 |
Taulukko.3 Järjestelmän laiteohjelmiston tiedot
| Sovellus | Versio |
|---|---|
| HPL | hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 -päivitys 4 |
| LAMMPS-mekanismit | 3.3.2020 OpenMPI – 4.0.3 |
| MLPERF-tiedosto | v0.6 Koulutus![]() docker 19,03 |
Taulukko.4 Sovellustiedot
原因
LAMMPS-mekanismit
LAMMPS-mekanismit
on Molekyylidynamiikka-sovellus, jota ylläpitävät Sandia National Laboratoriesin ja Temple Universityn tutkijat. LAMMPS koottiin KOKKOS-paketin kanssa toimimaan
tehokkaasti NVIDIA GPU:illa. Lennard Jones -tietojoukkoa käytettiin suorituskyvyn vertailuun, ja Timesteps/s on kuvassa 2 esitetty mittari:

(Kuva.2 Lennard Jones Graph)
Kuten taulukossa 1 on lueteltu, RTX 6000- ja RTX 8000 -ryhmäkäytäntöobjekteilla on sama määrä ytimiä, yksi tarkkuussuorituskyky ja GPU-kaistanleveys, mutta erilainen GPU-muisti. Koska molemmilla RTX-ryhmäkäytäntöobjekteilla on samanlainen kokoonpano, suorituskyky on myös samalla alueella. RTX GPU:t skaalataan hyvin tähän sovellukseen, ja molempien ryhmäkäytäntöobjektien suorituskyky on sama.
Volta V100S -GPU-suorituskyky on noin kolme kertaa nopeampi kuin Quadro RTX -GPU:iden. Tämän korkeamman suorituskyvyn avaintekijä on V100S-suorittimen suurempi GPU-muistin kaistanleveys.
High Performance Linpack (HPL)
HPL on tavallinen HPC-vertailuarvo, joka mittaa laskentatehoa. TOP500-luettelossa sitä käytetään vertailuvertailuna supertietokoneiden sijoittuessa maailmanlaajuisesti.
Seuraavassa kuvassa esitetään RTX 6000-, RTX 8000- ja V100S-ryhmäkäytäntöobjektien suorituskyky DSS 8440 -palvelimella. Kuten näette, RTX-ryhmäkäytäntöobjektien suorituskyky on huomattavasti pienempi kuin V100S-GPU: n. Tämä on odotettavissa, koska HPL suorittaa matriisin LU-kertoimen, joka on ensisijaisesti kaksoistarkkuuden liukulukutoimintoja.

(Kuva 3 HPL-suorituskyky erilaisilla ryhmäkäytäntöobjekteilla)
Jos vertaamme teoreettista liukulukusuoritusta, eli molempien GPU:iden Rpeakia, näemme, että V100S-GPU:n suorituskyky on paljon korkeampi. Teoreettinen Rpeak-arvo yhdessä RTX-GPU:ssa on noin 500 GFlops. Tämä arvo tuottaa vähemmän suorituskykyä (Rmax) GPU:ta kohti. Volta V100S GPU:n Rpeak-arvo on 8.2TFlops, mikä johtaa paljon suurempaan suorituskykyyn jokaisesta kortista.
MLPerf-ylle
ML:n toimialakohtaisten suorituskykyvertailuarvojen tarve johti MLPerf-sarjan kehittämiseen. Tämä sarja sisältää vertailuarvoja ML-laitteistojen ja -ohjelmistojen koulutuksen ja suorituskyvyn päättämiseksi. Tässä osassa käsitellään vain ryhmäkäytäntöobjektien koulutussuoritusta. Seuraavassa taulukossa on luettelo ryhmäkäytäntöobjektien arvioinnissa käytettävistä syväoppimisen työmääristä, tietojoukoista ja kohdekriteereistä.
| kiintopiste | Dataset | Laatutavoite | Viitetutkintamalli |
|---|---|---|---|
| Kuvan luokittelu | ImageNet (224x224) | 75,9 % Top-1 tarkkuus | Resnet-50 v1.5 |
| Objektien tunnistus (kevyt) |
COCO 2017 (2017) | 23% vahinko | SSD-ResNet34 |
| Objektien tunnistus (raskas paino) |
COCO 2017 (2017) | 0.377 Laatikon vähimmäisraja 0,339 Maskin vähimmäisraja-ap |
Naamio R-CNN |
| Käännös (toistuva) |
WMT englanti-saksa | 24.0 BLEU | GNMT-yy |
| Käännös (kertaluonteinen) |
WMT englanti-saksa | 25.0 BLEU | muuntaja |
| Vahvistusoppiminen | – | Ennalta koulutettu tarkastuspiste | Mini Go |
Taulukko.5 MLPerf-tietoaineistot ja tavoitekriteerit(Lähde: https://mlperf.org/training-overview/#overview) Seuraavassa kuvassa esitetään
aika täyttää sekä
RTX- että V100S-ryhmäkäytäntöobjektien tavoitekriteerit:

(Kuva.4 MLPERF-suorituskyky)
Tulokset on otettava huomioon useiden juoksujen suorittamisen, suurimman ja pienimmän arvon hylkäämisen sekä muiden suoritteiden keskiarvon jälkeen luettelossa lueteltujen ohjeiden mukaisesti. Molempien RTX-ryhmäkäytäntöobjektien suorituskyky on samanlainen. Molempien RTX-ryhmäkäytäntöobjektien välinen varianssiprosentti on mlPerf-ohjeiden mukaisesti minimaalinen ja hyväksymisalueella. Vaikka Volta V100 GPU tarjoaa parhaan suorituskyvyn, RTX-ryhmäkäytäntöobjektit toimivat myös hyvin lukuun ottamatta objektien havaitsemisen vertailuarvoa.
Julkaisuhetkellä MLPerf:n Image-luokituksen vertailuarvo epäonnistui RTX-ryhmäkäytäntöobjektien kanssa konvoluutiovirheen vuoksi. Tämän ongelman odotetaan korjauvan tulevassa CuDNN-versiossa.
解析度
Yhteenveto:
Tässä blogissa keskustelimme Dell EMC DSS 8440 GPU Serverin ja NVIDIA RTX GPU:iden suorituskyvystä HPC- ja AI-työkuormille. Molempien RTX-GPU: iden suorituskyky on samanlainen, mutta RTX 8000 -GPU olisi paras valinta sovelluksille, jotka vaativat enemmän muistia. Kaksoistarkat työkuormat tai suurta muistin kaistanleveyttä vaativat työkuormat Volta V100S ja uusi NVIDIA A100 -GPU ovat paras valinta.
Tulevaisuudessa aiomme tarjota rtx-gp:iden suorituskykytutkimuksen muiden yksitarkkuuden sovellusten kanssa sekä inferenssitutkimuksen RTX: stä ja A100: sta.
