Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC serveur DSS 8440 alimenté par des processeurs graphiques NVIDIA RTX pour les charges applicatives HPC et IA

Résumé: Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ML) et des charges applicatives de formation profonde. Cet article compare les performances de différents GPU, telles que NVIDIA Volta V100S et NVIDIA Tesla T4 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTX dans ce système. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Deepthi Cherlopalle et Frank Han

 

Dell EMC HPC and AI Innovation Lab 2020 juin

 

Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ml) et des charges applicatives de formation profonde. Il prend en charge plusieurs GPU, telles que NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 et NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTXSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figure 1 Dell EMC serveur DSS840)

Dans ce blog, nous évaluons les performances des GPU NVIDIA Quadro RTX 6000 et NVIDIA Quadro RTX 8000 par rapport au GPU V100S de niveau supérieur à l’aide des outils d’évaluation des normes de l’industrie. Cela inclut les tests par rapport aux charges applicatives à un seul et double précision. Alors que la gamme Quadro a existé pour une longue durée, les GPU RTX avec une architecture NVIDIA Turing lancée en fin de 2018. Les caractéristiques du tableau 1 indiquent que le GPU RTX 8000 est supérieur au RTX 6000 en termes de configuration de mémoire plus élevée. Toutefois, les GPU RTX 8000 et RTX 6000 ont des besoins d’alimentation plus élevés par rapport au GPU V100S. Pour les charges applicatives qui nécessitent une capacité de mémoire supérieure, le RTX 8000 est le meilleur choix.

Spécifications RTX 6000 RTX 8000 V100S-32 GO
Architecture Turing Volta
Mémoire GDDR6 24 GO 48 GO GDDR6 32 GO HBM2
Fréquence d’horloge par défaut (MHz) 1395 1245
Fréquence d’horloge maximale du GPU (MHz) 1770 1597
Cœurs CUDA 4608 5 120
FP32 (TFLOPS maximum) 16,3 16,4
Bande passante de mémoire (Gbit/s) 672 1134
Alimentation 295 W 250 W

Tableau 1 : caractéristiques du GPU

Serveur DellEMC, PowerEdge, DSS8440
Processeur 2 x Intel Xeon 6248, 20 C à 2,5 GHz
Mémoire 24 x 32 Go à 2933 MT/s (768 Go au total)
UNITÉ  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Stockage 1 x Dell Express Flash NVMe 1 to 2,5 "U. 2 (P4500)
Blocs d'alimentation 4 x 2400 W

Tableau 2 : détails de la configuration du serveur

BIOS 2.5.4
Système d'exploitation RHEL 7,6
Noyau 3.10.0-957.el7.x86_64
Profil système Performances optimisées
CUDA Toolkit
Pilote CUDA
10,1
440.33.01

Tableau 3 : Détails du micrologiciel du système

Application Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 mise à jour 4
LAMMPS Mars 3 2020
openmpi – 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 formation
v 0.6 station d’accueil 19,03

Tableau. 4 informations sur l’application

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 est une application de Dynamics moléculaire qui est gérée par les chercheurs sur Sandia National Laboratories et Temple University. LAMMPS a été compilé avec le package KOKKOSSLN321776_en_US__6iC_External_Link_BD_v1 pour fonctionner efficacement sur les GPU NVIDIA. Le DataSet Lennard Jones a été utilisé pour la comparaison des performances et Timesteps/s en tant que Metric, comme indiqué dans la figure 2 :

SLN321776_en_US__8image (18427)

(Figure. 2 Lennard Jones Graph)

 Comme indiqué dans le tableau 1, les GPU RTX 6000 et RTX 8000 ont le même nombre de cœurs, les performances de précision unique et la bande passante GPU, mais une mémoire GPU différente. Étant donné que les deux GPU RTX ont une configuration similaire, les performances se trouvent également dans la même plage. Les GPU RTX évoluent bien pour cette application et les performances des deux GPU sont identiques.

Les performances du GPU V100S Volta sont environ trois fois plus rapides que les GPU RTX Quadro. Le facteur clé de ces performances plus élevées est la plus grande bande passante de mémoire GPU du GPU V100S.


High Performance Linpack (HPL)

HPL est un benchmark HPC standard qui mesure les performances du calcul. Il est utilisé en tant que référence comparative par la liste TOP500 pour classer les superordinateurs dans le monde entier.

La figure suivante montre les performances des GPU RTX 6000, RTX 8000 et V100S à l’aide du serveur DSS 8440. Comme vous pouvez le voir, les performances des GPU RTX sont beaucoup plus basses que le GPU V100S. Cela devrait être dû au fait que le HPL effectue une factorisation de la matrice de la matrice, qui est principalement des opérations à double précision.

SLN321776_en_US__9image (18428)

(Figure. 3 performances HPL avec différents GPU)

En comparant les performances théoriques à virgule flottante, autrement dit, Rpeak des deux GPU, nous pouvons constater que les performances du GPU V100S sont bien plus élevées. La valeur Rpeak théorique sur un seul GPU RTX est approximativement 500GFlops. Cette valeur donne moins de performances (Rmax) par GPU. La valeur Rpeak du GPU Volta V100S est de 8.2 TFlops, ce qui permet d’obtenir des performances plus élevées à partir de chaque carte.


MLPerf

La nécessité d’une analyse comparative des performances standard pour les ML a conduit au développement de MLPerf suite. Cette suite comprend des benchmarks pour l’évaluation des performances de formation et d’inférence du matériel et des logiciels en MILLILITREs. Cette section concerne uniquement les performances de formation des GPU. Le tableau suivant répertorie les charges applicatives de formation profonde, les datasets et les critères cibles qui sont utilisés pour l’évaluation des GPU.

Étalonne VSAM Objectif de qualité Modèle d’implémentation de référence
Classification d’image ImageNet (224x224) 75,9% Top 1 : précision ResNet-50 v 1.5
Détection d’objets
(poids clair)
COCO 2017 Schéma de 23% Disque SSD-ResNet34
Détection d’objets
(poids lourd)
COCO 2017 0,377 Box nombre minimum de points d’accès 0,339 minimum de
PA
Masque R-CNN
Traduction
(à jour)
WMT anglais-allemand 24,0 BLEU GNMT
Traduction
(non actualisée)
 WMT anglais-allemand  25,0 BLEU Synchro
Apprentissage de renforcement Sans objet Point de contrôle pré-formé Mini Go

Tableau. 5 datasets MLPerf et critères cibles (source :https://mlperf.org/Training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

la figure suivante indique le temps nécessaire pour répondre aux critères cibles pour les GPU RTX et V100S :

SLN321776_en_US__11image (18441)
(Figure 4 MLPERF performances)

Les résultats sont pris en compte après l’exécution de plusieurs exécutions, en ignorant la valeur la plus élevée et la plus basse, et la moyenne de l’autre s’exécute selon les instructions répertoriées. Les performances des deux GPU RTX sont similaires. Le pourcentage de la variance entre les deux GPU RTX est minime et compris dans la plage d’acceptation conformément aux directives MLPerf. Bien que le GPU V100 Volta offre les meilleures performances, les GPU RTX fonctionnent également bien, sauf pour la détection d’objets.

Lors de la publication, le benchmark de classification d’image dans MLPerf échouait avec les GPU RTX en cas d’erreur de convolution. Ce problème devrait être résolu dans une future version de cuDNN.

Résolution

Résumé

Dans ce blog, nous avons abordé les performances des Dell EMC serveur GPU DSS 8440 et des GPU NVIDIA RTX pour les charges applicatives HPC et AI. Les performances des processeurs graphiques RTX sont similaires, mais le GPU RTX 8000 est le meilleur choix pour les applications qui nécessitent une quantité de mémoire supérieure. Pour les charges applicatives à double précision ou les charges applicatives qui nécessitent une bande passante de mémoire élevée Volta V100S et le nouveau GPU NVIDIA A100 est le meilleur choix.

À l’avenir, nous envisageons de fournir une étude des performances sur les GPU RTX avec d’autres applications Precision et une étude d’inférence sur les GPU RTX et A100.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution