HPC- en AI-prestaties op DSS8440 met V100S-GPU's (in het Engels)
Summary: GPU, V100S, V100, DSS8440, 8 GPU's, MLPerf, HPL, LAMMPS, benchmark
Symptoms
Dell EMC HPC & AI Innovation Lab, mei 2020
Samenvatting
In deze blog presenteren we de resultaten van het onderzoek waarin 8x V100S op DSS8440 werden geëvalueerd voor verschillende HPC- en deep learning-toepassingen, waaronder HPL, LAMMPS en MLPerf-v0.6 suite. Samenvattend:
- Applicaties die worden beperkt door GPU-bandbreedte, zoals LAMMPS, kunnen profiteren van de nieuwe V100S GPU's en krijgen betere prestaties voor zowel enkele als meerdere GPU's.
- Deep learning-applicaties, zoals de applicaties die zijn getest in MLPerf, zullen profiteren van de hogere verhoogde kloksnelheid en hogere bandbreedte van V100S.
- GPU-compute-gebonden applicaties zoals de HPC-benchmark HPL krijgen dezelfde prestaties als V100-PCIe.
In de rest van deze blog worden de details van deze tests uiteengezet. Houd er rekening mee dat in de toekomst dezelfde applicaties zullen worden uitgevoerd op DSS8440 met RTX GPU's (in plaats van de V100S) en dat ook andere tests, zoals V100S-prestaties op het AMD-platform, zullen worden uitgevoerd.
Resolution
Overzicht van het testbed
De Dell EMC DSS8440 server is een voor accelerators geoptimaliseerde server, speciaal ontworpen voor high-performance computing en deep learning-workloads. De NVIDIA V100S is het nieuwste lid in de Tesla Volta-serie en het is een 32G PCIe-gebaseerde GPU-kaart met dubbele breedte. In deze blog presenteren we de resultaten van het onderzoek waarin 8 x V100S on DSS8440 worden geëvalueerd voor verschillende HPC- en deep learning-applicaties, waaronder HPL, LAMMPS en MLPerf-v0.6 suite.
De hardware- en softwaregegevens van de geteste DSS 8440 server en de vergelijking van V100S en V100-PCIe worden vermeld in tabel 1 en tabel 2.
Tabel 1: De hardware- en softwaregegevens

Tabel 2: V100S en V100-PCIe verschillen in specificatie
HPC-applicatieprestaties

Afbeelding 1: Resultaten van V100S en V100-PCIe HPL op DSS8440
Figuur 1 toont de HPL-prestatiecijfers. Er is niet veel verschil tussen V100S en V100-PCIe, omdat HPL een extreme stresstesttoepassing is. Er is weinig ruimte voor de temperatuur voor de GPU Boost-functie, daarom valt de frequentie van de GPU's zeer snel terug naar de basiskloksnelheid. Omdat V100S en V100-PCIe bijna dezelfde basiskloksnelheid hebben, levert V100S voor GPU-compute-gebonden applicaties zoals HPL ongeveer hetzelfde prestatieniveau als V100-PCIe.

Afbeelding 2: Resultaten van V100S en V100-PCIe LAMMPS op DSS8440
Figuur 2 toont de timestep/s-resultaten van de LAMMPS met Lennard Jones-dataset. LAMMPS is een voorbeeld van moleculaire dynamicacode waarvan bekend is dat het een GPU-bandbreedtegebonden applicatie is. De V100S levert in deze tests 27% betere prestaties dan de V100-PCIe. De versnelling wordt niet alleen bijgedragen door de 15% hogere boostfrequentie en 26% meer bandbreedte, maar ook door de nieuwere softwareversie. V100-PCIe-nummers zijn verkregen met behulp van het oude KOKKOS-pakket in LAMMPS 8Feb2019-versie. De nieuwere versie 24Jan2020 had echter ondersteuning toegevoegd voor het gebruik van cuFFT op de GPU met KOKKOS. De meeste details zijn hierin te vinden LAMMPS 24Jan2020 release note.
Deep learning-applicatieprestaties

Afbeelding 3: V100S en V100-PCIe MLPerf resultaten op DSS8440
MLPerf training gesloten divisie 0.6 versie heeft 6 subtests die brede deep learning-domeinen bestrijken, waaronder beeldclassificatie (ResNet-50), objectdetectie (Mask R-CNN en SSD), Translation (NMT en Transformer) en reinforcement learning (MiniGo). De vergelijkingsresultaten van beide GPU-kaarten worden weergegeven in afbeelding 3. Er werden ongeveer 1-5% prestatiewinsten waargenomen in de MLPerf-suite voor V100S, wat consistent is met de 1-5% hogere doorvoer in de resultatenlogbestanden. De real-time output van de GPU-kloksnelheid werd gemonitord en er werd waargenomen dat V100S GPU's in al die tests 1-5% hoger werkten, dus de prestatievoordelen kwamen van de hogere verhoogde frequentie van V100S.
Conclusies en toekomstige werken
In deze blog werden de prestaties van HPC-applicaties met HPL, LAMMPS en deep learning met MLPerf vergeleken met V100S- en V100-PCIe GPU-kaarten op dezelfde DSS8440-server. Applicaties die worden beperkt door GPU-bandbreedte, zoals LAMMPS, kunnen profiteren van de nieuwe V100S GPU's en krijgen betere prestaties voor zowel enkele als meerdere GPU's. Deep learning-applicaties die in MLPerf zijn getest, profiteren ook van de hogere kloksnelheid en hogere bandbreedte van V100S. De GPU compute bounded HPC-benchmark HPL krijgt dezelfde prestaties als V100-PCIe. In de toekomst zullen dezelfde applicaties op DSS8440 worden uitgevoerd met RTX GPU's en zullen enkele andere tests, zoals V100S-prestaties op het AMD-platform, worden onderzocht.