Prestazioni HPC e di intelligenza artificiale su DSS8440 con GPU V100S (in inglese)
Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, Benchmark
Symptoms
Dell EMC HPC & AI Innovation Lab, maggio 2020
Executive summary
Questo blog presenta i risultati dello studio che ha valutato 8 V100S su DSS8440 per diverse applicazioni HPC e deep learning, tra cui HPL, LAMMPS e MLPerf-v0.6 suite. In breve:
- Le applicazioni limitate dalla larghezza di banda della GPU , come LAMMPS, possono trarre vantaggio dalle nuove GPU V100S e ottenere prestazioni migliorate sia per GPU singole che multiple.
- Le applicazioni di deep learning, come quelle testate in MLPerf, trarranno vantaggio dal clock potenziato e dalla larghezza di banda più elevata di V100S.
- Le applicazioni legate all'elaborazione della GPU, come HPL, benchmark HPC, otterranno le stesse prestazioni di V100-PCIe.
Il resto di questo blog illustra i dettagli di questo test. Si noti che in futuro, le stesse applicazioni verranno eseguite su DSS8440 con GPU RTX (al posto di V100S) e verranno eseguiti anche altri test, come le prestazioni di V100S sulla piattaforma AMD.
Resolution
Panoramica del banco di prova
La colonna Server DSS8440 Dell EMC è un server ottimizzato per l'acceleratore, progettato in modo specifico per carichi di lavoro di High Performance Computing e deep learning. La colonna NVIDIA V100S è l'ultimo membro della serie Tesla Volta ed è una scheda GPU basata su PCIe 32G a doppia larghezza. Questo blog presenterà i risultati dello studio che ha valutato 8 V100S su DSS8440 per diverse applicazioni HPC e deep learning, tra cui HPL, LAMMPS e MLPerf-v0.6 suite.
I dettagli hardware e software del server DSS 8440 testato e il confronto tra V100S e V100-PCIe sono elencati nella Tabella 1 e nella Tabella 2.
Tabella 1. Dettagli hardware e software

Tabella 2. Differenze nelle specifiche di V100S e V100-PCIe
Prestazioni delle applicazioni HPC

Figura 1. Risultati di V100S e V100-PCIe HPL su DSS8440
La Figura 1 mostra i valori delle prestazioni HPL. Non c'è molta differenza tra V100S e V100-PCIe, perché l'HPL è un'applicazione di stress test estremo. C'è poco spazio di temperatura per il Funzione GPU boost, pertanto la frequenza delle GPU torna molto rapidamente alla frequenza di clock di base. Poiché V100S e V100-PCIe hanno quasi la stessa frequenza di clock di base, per le applicazioni associate all'elaborazione GPU come HPL, V100S offre all'incirca lo stesso livello di prestazioni di V100-PCIe.

Figura 2. Risultati V100S e V100-PCIe LAMMPS su DSS8440
La Figura 2 mostra i risultati del timestep/s di LAMMPS con il dataset Lennard Jones. LAMMPS è un esempio di codice di dinamica molecolare noto per essere un'applicazione limitata alla larghezza di banda della GPU. V100S offre il 27% di prestazioni in più rispetto a V100-PCIe in questo test. L'aumento di velocità è dovuto non solo alla frequenza di boost superiore del 15% e al 26% in più di larghezza di banda, ma anche alla versione software più recente. I numeri V100-PCIe sono stati ottenuti utilizzando il vecchio pacchetto KOKKOS in versione LAMMPS dell'8 febbraio 2019. Tuttavia, la versione più recente 24Jan2020 aveva aggiunto il supporto per l'utilizzo di cuFFT sulla GPU con KOKKOS. La maggior parte dei dettagli è disponibile in questo Nota di rilascio di LAMMPS del 24gennaio 2020.
Prestazioni delle applicazioni di deep learning

Figura 3. Risultati di V100S e V100-PCIe MLPerf su DSS8440
MLPerf training closed division versione 0.6 ha 6 sottotest che coprono ampi domini di deep learning, tra cui la classificazione delle immagini (ResNet-50), il rilevamento di oggetti (Mask R-CNN e SSD), la traduzione (NMT e Transformer) e l'apprendimento per rinforzo (MiniGo). I risultati del confronto di entrambe le schede GPU sono presentati nella Figura 3. Sono stati osservati miglioramenti delle prestazioni di circa l'1-5% nella suite MLPerf per V100S, che è coerente con il throughput superiore dell'1-5% nei file di registro dei risultati. È stato monitorato l'output in tempo reale della frequenza di clock della GPU ed è stato osservato che le GPU V100S funzionavano con una velocità superiore dell 1-5% in tutti questi test, quindi i vantaggi in termini di prestazioni derivavano dalla frequenza di incremento maggiore di V100S.
Conclusioni e lavori futuri
In questo blog, le prestazioni delle applicazioni HPC con HPL, LAMMPS e le prestazioni di apprendimento approfondito con MLPerf sono state confrontate con le schede GPU V100S e V100-PCIe sullo stesso server DSS8440. Le applicazioni limitate dalla larghezza di banda della GPU, come LAMMPS, possono sfruttare le nuove GPU V100S e ottenere prestazioni ottimizzate sia per GPU singole che multiple. Le applicazioni di deep learning testate in MLPerf traggono vantaggio anche dal clock potenziato e dalla larghezza di banda più elevata di V100S. Il benchmark HPC HPL con limite di elaborazione GPU ottiene le stesse prestazioni di V100-PCIe. In futuro, le stesse applicazioni su DSS8440 verranno eseguite con GPU RTX e verranno esplorati alcuni altri test come le prestazioni del V100S sulla piattaforma AMD.