HPC- ja tekoälysuorituskyky V100S-grafiikkasuorittimilla varustetussa DSS8440-palvelimessa
Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, Benchmark
Symptoms
Dell EMC HPC & AI Innovation Lab, toukokuu 2020
Yhteenveto
Tässä blogissa esitellään tulokset tutkimuksesta, jossa arvioidaan 8x V100S:ää DSS8440 erilaisissa HPC- ja syväoppimissovelluksissa, mukaan lukien HPL, LAMMPS ja MLPerf-v0.6 sviitti. Yhteenveto:
- Grafiikkasuorittimen kaistanleveyden rajoittamat sovellukset, kuten LAMMPS, voivat hyödyntää uusia V100S-grafiikkasuorittimia ja parantaa suorituskykyä sekä yhdellä että useammalla grafiikkasuorittimella.
- Syväoppimissovellukset, kuten MLPerfissä testatut, hyötyvät V100S: n korkeammasta tehostetusta kellosta ja suuremmasta kaistanleveydestä.
- GPU-laskentaan sidotut sovellukset , kuten HPC-vertailulaite, tuottavat saman suorituskyvyn kuin V100-PCIe.
Tämän blogin loppuosassa esitetään tämän testauksen yksityiskohdat. Huomaa, että tulevaisuudessa samat sovellukset suoritetaan DSS8440 RTX-grafiikkasuorittimilla (V100S: n sijasta), ja myös muita testejä, kuten V100S: n suorituskyky AMD-alustalla, suoritetaan.
Resolution
Yleiskatsaus testialustaan
pikanäppäimellä Dell EMC DSS8440 palvelin Se on kiihdytinoptimoitu palvelin, joka on suunniteltu erityisesti suurteholaskentaa ja syväoppimista varten. pikanäppäimellä NVIDIA V100S on Tesla Volta -sarjan uusin jäsen ja se on kaksileveyksinen 32G PCIe -pohjainen GPU-kortti. Tässä blogissa esitellään tulokset tutkimuksesta, jossa arvioidaan 8x V100S DSS8440 eri HPC- ja syväoppimissovelluksissa, mukaan lukien HPL, LAMMPS ja MLPerf-v0.6 sviitti.
Testatun DSS 8440 -palvelimen laitteisto- ja ohjelmistotiedot sekä V100S:n ja V100-PCIe:n vertailu on lueteltu taulukoissa 1 ja 2.
Taulukko 1: Laitteiston ja ohjelmistojen tiedot

Taulukko 2: V100S:n ja V100-PCIe:n erot teknisissä tiedoissa
HPC-sovelluksen suorituskyky

Kuva 1: V100S- ja V100-PCIe HPL -tulokset DSS8440
Kuvassa 1 esitetään HPL-suorituskykyluvut. V100S:n ja V100-PCIe:n välillä ei ole paljon eroa, koska korkeapainelaminaatti on äärimmäisen rasitustestisovellus. Lämpötilatilaa on vähän GPU Boost -ominaisuus, joten GPU: iden taajuus laskee takaisin peruskellotaajuuteen hyvin nopeasti. Koska V100S:n ja V100-PCIe:n peruskellotaajuus on lähes sama, grafiikkasuorittimen laskentaan rajoitetuissa sovelluksissa, kuten HPL:ssä, V100S tarjoaa suunnilleen saman tason suorituskyvyn kuin V100-PCIe.

Kuva 2: V100S- ja V100-PCIe LAMMPS -tulokset DSS8440
Kuvassa 2 on LAMMPS:n ja Lennard Jonesin aineiston aika-askeleen tulokset. LAMMPS on esimerkki molekyylidynamiikan koodista, jonka tiedetään olevan GPU:n kaistanleveyteen sidottu sovellus. V100S tarjoaa tässä testissä 27 % paremman suorituskyvyn kuin V100-PCIe. Nopeutta ei edistä ainoastaan 15 % suurempi tehostustaajuus ja 26 % suurempi kaistanleveys, vaan myös uudempi ohjelmistoversio. V100-PCIe-numerot saatiin käyttämällä vanhaa KOKKOS-pakettia LAMMPS 8Feb2019 -versiossa. Uudempi versio 24Jan2020 oli kuitenkin lisännyt tuen cuFFT: n käytölle GPU: ssa KOKKOS: n kanssa. Useimmat yksityiskohdat löytyvät tästä LAMMPS 24.1.2020 -julkaisutiedote.
Syväoppimissovelluksen suorituskyky

Kuva 3: V100S- ja V100-PCIe MLPerf -tulokset DSS8440
MLPerf-koulutus suljetun divisioonan 0.6 versio on 6 osatestiä, jotka kattavat laajat syväoppimisen alueet, mukaan lukien kuvien luokittelu (ResNet-50), kohteen havaitseminen (Mask R-CNN ja SSD), kääntäminen (NMT ja Transformer) ja vahvistusoppiminen (MiniGo). Molempien GPU-korttien vertailutulokset on esitetty kuvassa 3. V100S:n MLPerf-ohjelmistopaketissa havaittiin noin 1–5 %:n suorituskyvyn paranemista, mikä vastaa tuloslokitiedostojen 1–5 %:n suurempaa suoritustehoa. GPU-kellotaajuuden reaaliaikaista lähtöä seurattiin, ja havaittiin, että V100S-grafiikkasuorittimet toimivat 1-5% korkeammalla kaikissa näissä testeissä, joten suorituskykyedut tulivat V100S: n korkeammasta tehostetusta taajuudesta.
Päätelmät ja tulevat työt
Tässä blogikirjoituksessa verrattiin HPC-sovellusten suorituskykyä HPL:llä, LAMMPS:llä ja syväoppimisen suorituskykyä MLPerf:llä V100S- ja V100-PCIe-grafiikkasuoritinkortteihin samalla DSS8440 palvelimella. Grafiikkasuorittimen kaistanleveyden rajoittamat sovellukset, kuten LAMMPS, voivat hyödyntää uusia V100S-grafiikkasuorittimia ja parantaa suorituskykyä sekä yhdellä että useammalla grafiikkasuorittimella. MLPerfissä testatut syväoppimissovellukset hyötyvät myös V100S:n korkeammasta tehostetusta kellosta ja suuremmasta kaistanleveydestä. GPU:n laskentaan sidottu HPC-vertailuarvo HPL saa saman suorituskyvyn kuin V100-PCIe. Tulevaisuudessa samoja sovelluksia DSS8440 ajetaan RTX-näytönohjaimilla, ja joitain muita testejä, kuten V100S: n suorituskykyä AMD-alustalla, tutkitaan.