Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Server Dell EMC DSS 8440 con GPU NVIDIA RTX per carichi di lavoro HPC e di intelligenza artificiale (in inglese)

Résumé: Il server DSS8440 di Dell EMC è un server 4U da 2 socket progettato per il calcolo ad alte prestazioni, l'apprendimento automatico (ML) e i workload di Deep Learning. Questo articolo mette a confronto le prestazioni di diverse GPU, come le GPU NVIDIA volta V100S e NVIDIA Tesla T4, nonché le GPU NVIDIA Quadro RTX in questo sistema. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Cherlopalle di e Frank Han

 

Dell EMC HPC e al laboratorio di innovazione AI 2020 giugno

 

Il server DSS8440 di Dell EMC è un server 4U da 2 socket progettato per il calcolo ad alte prestazioni, l'apprendimento automatico (ml) e i workload di Deep Learning. Supporta diverse GPU come le GPU NVIDIA volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 e NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 Core TENSOR, nonché le GPU NVIDIA Quadro RTXSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figura. 1 Dell EMC server DSS840)

In questo Blog, valutiamo le prestazioni di NVIDIA Quadro RTX 6000 e le GPU NVIDIA Quadro RTX 8000 in termini di costo, rispetto a quelle della GPU V100S del top tier Accelerator utilizzando vari strumenti di benchmarking standard del settore. Sono inclusi i test relativi a workload a doppia precisione e singolo vs. Mentre la serie quadro esiste da un lungo periodo di tempo, le GPU RTX con l'architettura di Turing di NVIDIA vengono avviate nel tardo 2018. Le specifiche della tabella 1 mostrano che la GPU RTX 8000 è superiore a quella di RTX 6000 in termini di configurazione della memoria superiore. Tuttavia, le GPU RTX 8000 e RTX 6000 hanno esigenze di alimentazione più elevate rispetto alla GPU V100S. Per i workload che richiedono una capacità di memoria superiore, RTX 8000 è la scelta migliore.

Specifiche RTX 6000 RTX 8000 V100S-32 GB
Architettura Turing Volta
Memoria 24 GB DI GDDR6 48 GB DI GDDR6 32 GB DI HBM2
Frequenza di clock predefinita (MHz) 1395 1245
Tasso di clock massimo GPU (MHz) 1770 1597
Core CUDA 4608 5120
FP32 (TFLOPS massimo) 16,3 16,4
Larghezza di banda della memoria (GB/s) 672 1134
Alimentazione 295 W 250 W

Specifiche GPU Table. 1

Server Sistemi Dell EMC PowerEdge DSS8440
Processore 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Memoria 24 x 32 GB @ 2933 MT/s (768 GB totali)
GPU  8 x quadro RTX 6000    8 x quadro RTX 8000   8 x volta V100S-PCIe 
Archiviazione 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Alimentatori 4 da 2400 W

Dettagli sulla configurazione di Table. 2 server

BIOS 2.5.4
Sistema operativo: RHEL 7,6
Kernel 3.10.0-957.el7.x86_64
Profilo di sistema Performance Optimized
Toolkit CUDA
Driver CUDA
10,1
440.33.01

Tabella. 3 dettagli del firmware del sistema

Applicazione Versione
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 Update 4
LAMMPS 3 2020 marzo
openmpi-4.0.3
MLPERF v 0.6 formazioneSLN321776_en_US__1iC_External_Link_BD_v1
Docker 19,03

Tabella. 4 informazioni sulle applicazioni

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 è un'applicazione di Dynamics molecolare che viene gestita dai ricercatori di Sandia National Laboratories e Temple University. LAMMPS è stato compilato con il pacchetto KokkosSLN321776_en_US__6iC_External_Link_BD_v1 per funzionare in modo efficiente sulle GPU NVIDIA. Il DataSet Lennard Jones è stato utilizzato per il confronto delle prestazioni e Timesteps/s è la metrica, come mostrato nella figura 2:

SLN321776_en_US__8image (18427)

(Figura. 2 Lennard Jones Graph)

 Come indicato nella tabella 1, le GPU RTX 6000 e RTX 8000 hanno lo stesso numero di core, prestazioni singole di precisione e larghezza di banda GPU ma una diversa memoria GPU. Poiché entrambe le GPU RTX hanno una configurazione simile, le prestazioni sono anche nello stesso intervallo. La scalabilità delle GPU di RTX è ottima per questa applicazione e le prestazioni per entrambe le GPU sono identiche.

Le prestazioni della GPU volta V100S sono circa tre volte più veloci rispetto alle GPU RTX quadro. Il fattore chiave per queste prestazioni più elevate è la larghezza di banda della memoria GPU maggiore della GPU V100S.


HPL (High Performance Linpack)

HPL è un benchmark HPC standard che misura le prestazioni di elaborazione. Viene utilizzato come benchmark di riferimento dall'elenco TOP500 per classificare i supercomputer in tutto il mondo.

La figura seguente mostra le prestazioni di RTX 6000, RTX 8000 e GPU V100S utilizzando DSS 8440 server. Come potete vedere, le prestazioni delle GPU RTX sono significativamente inferiori a quelle della GPU V100S. Ciò deve essere previsto poiché il HPL esegue una fattorizzazione LU di matrice, che è principalmente operazioni a virgola mobile a doppia precisione.

SLN321776_en_US__9image (18428)

(Figure. 3 prestazioni HPL con diverse GPU)

Se si confrontano le prestazioni teoriche a virgola mobile, ovvero Rpeak di entrambe le GPU, vediamo che le prestazioni della GPU V100S sono molto più elevate. Il valore teorico di Rpeak su una singola GPU RTX è approssimativamente 500GFlops. Questo valore restituisce meno prestazioni (Rmax) per GPU. Il valore Rpeak per la GPU volta V100S è 8,2 TFlops, il che comporta prestazioni molto più elevate per ogni scheda.


MLPerf

La necessità di benchmark delle prestazioni standard del settore per ML ha portato allo sviluppo della suite MLPerf. Questa suite include i benchmark per valutare la formazione e le prestazioni di inferenza di hardware e software. Questa sezione soddisfa solo le prestazioni di formazione di GPU. Nella tabella seguente sono elencati i workload, i DataSet e i criteri di destinazione di apprendimento intensivo utilizzati per la valutazione delle GPU.

Riferimento DataSet Destinazione di qualità Modello di implementazione di riferimento
Classificazione immagine Imagent (224x224) 75,9% di accuratezza superiore 1 Resnet-50 v 1.5
Rilevamento Object
(peso leggero)
COCO 2017 23% Mappa SSD-ResNet34
Rilevamento Object
(peso elevato)
COCO 2017 0,377 casella minima AP
0,339 maschera minima AP
Maschera R-CNN
Traduzione
(ricorrenti)
WMT inglese-tedesco BLEU 24,0 GNMT
Conversione
(non ricorrenti)
 WMT inglese-tedesco  BLEU 25,0 Trasformatore
Apprendimento rafforzamento N/D Checkpoint pre-addestrato Mini go

Table. 5 DataSet MLPerf e criteri di destinazione (origine:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

la figura seguente mostra l'ora di soddisfare i criteri di destinazione per entrambe le GPU RTX e V100S:

SLN321776_en_US__11image (18441)
(Figure. 4 prestazioni MLPERF)

I risultati vengono considerati dopo l'esecuzione di più esecuzioni, scartando il valore più alto e più basso e la media degli altri viene eseguita secondo le linee guida elencate. Le prestazioni per entrambe le GPU RTX sono simili. La percentuale di varianza tra entrambe le GPU RTX è minima e rientra nell'intervallo di accettazione secondo le linee guida di MLPerf. Mentre la GPU volta V100 offre le migliori prestazioni, le GPU di RTX inoltre eseguono bene, tranne il benchmark di rilevamento degli Object.

Al momento della pubblicazione, il benchmark di classificazione delle immagini in MLPerf non è riuscito con le GPU RTX a causa di un errore di convoluzione. Questo problema dovrebbe essere risolto in una release futura di cuDNN.

Résolution

Riepilogo:

In questo Blog, abbiamo discusso le prestazioni del server GPU Dell EMC DSS 8440 e delle GPU NVIDIA RTX per i workload HPC e AI. Le prestazioni per entrambe le GPU RTX sono simili, tuttavia la GPU RTX 8000 rappresenta la scelta ideale per le applicazioni che richiedono una quantità maggiore di memoria. Per i workload con precisione doppia, o workload che richiedono una larghezza di banda di V100S di memoria elevata e la nuova GPU NVIDIA A100 sono le scelte migliori.

In futuro, abbiamo in programma di fornire uno studio delle prestazioni sulle GPU di RTX con altre applicazioni di precisione singola e uno studio di inferenza sulle GPU RTX e A100.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution