Performances des applications HPC et de l’IA sur les serveurs DSS8440 avec des processeurs graphiques V100S

Summary: Processeur graphique, V100S, V100, DSS8440, 8 processeurs graphiques, MLPerf, HPL, LAMMPS, analyse comparative

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Auteurs: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, mai 2020

Synthèse

Ce blog présente les résultats de l’étude évaluant 8x V100S sur DSS8440 pour différentes applications HPC et Deep Learning, notamment HPL, LAMMPS et MLPerf-v0.6 suite. En résumé :

  • Les applications limitées par la bande passante du processeur graphique , telles que LAMMPS, peuvent tirer parti des nouveaux processeurs graphiques V100S et bénéficieront de performances améliorées pour les processeurs graphiques simples et multiples.
  • Les applications de Deep Learning, telles que celles testées dans MLPerf, bénéficieront de l’horloge boostée plus élevée et de la bande passante plus élevée de V100S.
  • Les applications liées au calcul du processeur graphique, telles que le benchmark HPC HPL, bénéficient des mêmes performances que le V100-PCIe.

Le reste de ce blog présente les détails de ces tests.  Notez qu’à l’avenir, les mêmes applications seront exécutées sur DSS8440 avec des processeurs graphiques RTX (à la place du V100S), et d’autres tests, tels que les performances du V100S sur la plate-forme AMD, seront également exécutés.

Resolution

Vue d’ensemble du banc d’essai

Le Serveur DSS8440 Dell EMC est un serveur optimisé par accélérateur, spécialement conçu pour les charges applicatives de calcul haute performance et de Deep Learning. Le NVIDIA V100S est le dernier membre de la série Tesla Volta et il s’agit d’une carte GPU 32G à double largeur basée sur PCIe. Ce blog présentera les résultats de l’étude évaluant 8x V100S sur DSS8440 pour différentes applications HPC et de Deep Learning, notamment HPL, LAMMPS et MLPerf-v0.6 suite.

Les détails matériels et logiciels du serveur DSS 8440 testé, ainsi que la comparaison des commutateurs V100S et V100-PCIe, sont répertoriés dans les Tableaux 1 et 2.

 

Tableau 1 : Les détails matériels et logiciels

SLN321304_en_US__1image(15660)

Tableau 2 : Différences de caractéristiques entre V100S et V100-PCIe
SLN321304_en_US__2image(15661)

 

Performances des applications HPC

 

 SLN321304_en_US__3image(15658)

Figure 1 : Résultats HPL V100S et V100-PCIe sur DSS8440

La figure 1 présente les chiffres de performance HPL. Il n’y a pas beaucoup de différence entre V100S et V100-PCIe, car HPL est une application de test de contrainte extrême. Il y a peu d’espace de température pour le Fonctionnalité d’optimisation du processeur graphique, par conséquent, la fréquence des processeurs graphiques revient très rapidement à la fréquence d’horloge de base. Étant donné que V100S et V100-PCIe ont presque la même fréquence d’horloge de base, pour les applications liées au calcul du processeur graphique telles que HPL, V100S offre à peu près le même niveau de performances que V100-PCIe. 

SLN321304_en_US__4image(15659)

Figure 2 : Résultats LAMMPS V100S et V100-PCIe sur DSS8440

La figure 2 présente les résultats du pas de temps (s) du jeu de données LAMMPS avec Lennard Jones. LAMMPS est un exemple de code de dynamique moléculaire qui est connu pour être une application liée à la bande passante du processeur graphique. Le V100S offre des performances 27 % supérieures à celles du V100-PCIe lors de ces tests. L’accélération provient non seulement de la fréquence boost 15 % plus élevée et de la bande passante 26 % plus élevée, mais aussi de la nouvelle version du logiciel. Les numéros V100-PCIe ont été obtenus à l’aide de l’ancien package KOKKOS dans la version LAMMPS 8Feb2019. Cependant, la version plus récente 24Jan2020 avait ajouté la prise en charge de l’utilisation de cuFFT sur le GPU avec KOKKOS. Vous trouverez la plupart des détails dans cet article LAMMPS 24Jan2020 release note.

 

Performances des applications de Deep Learning

SLN321304_en_US__5image(15662)

Figure 3 : Résultats MLPerf V100S et V100-PCIe sur DSS8440

Entraînement MLPerf division fermée version 0.6 comporte 6 sous-tests couvrant de vastes domaines d’apprentissage profond, notamment la classification d’images (ResNet-50), la détection d’objets (Mask R-CNN et SSD), la traduction (NMT et Transformer) et l’apprentissage par renforcement (MiniGo). Les résultats de la comparaison des deux cartes de processeur graphique sont présentés dans la Figure 3. Des gains de performances d’environ 1 à 5 % ont été observés dans la suite MLPerf pour V100S, ce qui est cohérent avec le débit supérieur de 1 à 5 % dans les fichiers journaux de résultats. La sortie en temps réel de la fréquence d’horloge du processeur graphique a été surveillée, et il a été observé que les processeurs graphiques V100S fonctionnaient à un taux d’exécution 1 à 5 % plus élevé dans tous ces tests, de sorte que les avantages en matière de performances provenaient de la fréquence amplifiée plus élevée de V100S.

Conclusions et travaux futurs

Dans ce blog, les performances des applications HPC avec HPL, LAMMPS et les performances du Deep Learning avec MLPerf ont été comparées à celles des cartes GPU V100S et V100-PCIe sur le même serveur DSS8440. Les applications limitées par la bande passante du processeur graphique, telles que LAMMPS, peuvent tirer parti des nouveaux processeurs graphiques V100S et bénéficient de performances améliorées pour les processeurs graphiques simples et multiples. Les applications de Deep Learning testées dans MLPerf bénéficient également de l’horloge boostée plus élevée et de la bande passante plus élevée du V100S. Le benchmark HPC HPC lié au calcul du processeur graphique HPL obtient les mêmes performances que le V100-PCIe. À l’avenir, les mêmes applications sur DSS8440 seront exécutées avec des processeurs graphiques RTX, et d’autres tests tels que les performances V100S sur la plate-forme AMD seront explorés.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.