Numéro d’article: 000132886

Dell EMC serveur DSS 8440 alimenté par des processeurs graphiques NVIDIA RTX pour les charges applicatives HPC et IA

Résumé: Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ML) et des charges applicatives de formation profonde. Cet article compare les performances de différents GPU, telles que NVIDIA Volta V100S et NVIDIA Tesla T4 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTX dans ce système. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle et Frank Han

Dell EMC HPC and AI Innovation Lab 2020 juin

Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ml) et des charges applicatives de formation profonde. Il prend en charge plusieurs GPU, telles que NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 et NVIDIA Tesla T4 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTX .

SLN321776_en_US__4image (18426)

(Figure 1 Dell EMC serveur DSS840)

Dans ce blog, nous évaluons les performances des GPU NVIDIA Quadro RTX 6000 et NVIDIA Quadro RTX 8000 par rapport au GPU V100S de niveau supérieur à l’aide des outils d’évaluation des normes de l’industrie. Cela inclut les tests par rapport aux charges applicatives à un seul et double précision. Alors que la gamme Quadro a existé pour une longue durée, les GPU RTX avec une architecture NVIDIA Turing lancée en fin de 2018. Les caractéristiques du tableau 1 indiquent que le GPU RTX 8000 est supérieur au RTX 6000 en termes de configuration de mémoire plus élevée. Toutefois, les GPU RTX 8000 et RTX 6000 ont des besoins d’alimentation plus élevés par rapport au GPU V100S. Pour les charges applicatives qui nécessitent une capacité de mémoire supérieure, le RTX 8000 est le meilleur choix.

Spécifications	RTX 6000	RTX 8000	V100S-32 GO
Architecture	Turing		Volta
Mémoire	GDDR6 24 GO	48 GO GDDR6	32 GO HBM2
Fréquence d’horloge par défaut (MHz)	1395		1245
Fréquence d’horloge maximale du GPU (MHz)	1770		1597
Cœurs CUDA	4608		5 120
FP32 (TFLOPS maximum)	16,3		16,4
Bande passante de mémoire (Gbit/s)	672		1134
Alimentation	295 W		250 W

Tableau 1 : caractéristiques du GPU

Serveur	DellEMC, PowerEdge, DSS8440
Processeur	2 x Intel Xeon 6248, 20 C à 2,5 GHz
Mémoire	24 x 32 Go à 2933 MT/s (768 Go au total)
UNITÉ	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Stockage	1 x Dell Express Flash NVMe 1 to 2,5 "U. 2 (P4500)
Blocs d'alimentation	4 x 2400 W

Tableau 2 : détails de la configuration du serveur

BIOS	2.5.4
Système d'exploitation	RHEL 7,6
Noyau	3.10.0-957.el7.x86_64
Profil système	Performances optimisées
CUDA Toolkit Pilote CUDA	10,1 440.33.01

Tableau 3 : Détails du micrologiciel du système

Application	Version
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 mise à jour 4
LAMMPS	Mars 3 2020 openmpi – 4.0.3
MLPERF	formation v 0.6 station d’accueil 19,03

Tableau. 4 informations sur l’application

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 est une application de Dynamics moléculaire qui est gérée par les chercheurs sur Sandia National Laboratories et Temple University. LAMMPS a été compilé avec le package KOKKOS pour fonctionner efficacement sur les GPU NVIDIA. Le DataSet Lennard Jones a été utilisé pour la comparaison des performances et Timesteps/s en tant que Metric, comme indiqué dans la figure 2 :

SLN321776_en_US__8image (18427)

(Figure. 2 Lennard Jones Graph)

Comme indiqué dans le tableau 1, les GPU RTX 6000 et RTX 8000 ont le même nombre de cœurs, les performances de précision unique et la bande passante GPU, mais une mémoire GPU différente. Étant donné que les deux GPU RTX ont une configuration similaire, les performances se trouvent également dans la même plage. Les GPU RTX évoluent bien pour cette application et les performances des deux GPU sont identiques.

Les performances du GPU V100S Volta sont environ trois fois plus rapides que les GPU RTX Quadro. Le facteur clé de ces performances plus élevées est la plus grande bande passante de mémoire GPU du GPU V100S.

High Performance Linpack (HPL)

HPL est un benchmark HPC standard qui mesure les performances du calcul. Il est utilisé en tant que référence comparative par la liste TOP500 pour classer les superordinateurs dans le monde entier.

La figure suivante montre les performances des GPU RTX 6000, RTX 8000 et V100S à l’aide du serveur DSS 8440. Comme vous pouvez le voir, les performances des GPU RTX sont beaucoup plus basses que le GPU V100S. Cela devrait être dû au fait que le HPL effectue une factorisation de la matrice de la matrice, qui est principalement des opérations à double précision.

SLN321776_en_US__9image (18428)

(Figure. 3 performances HPL avec différents GPU)

En comparant les performances théoriques à virgule flottante, autrement dit, Rpeak des deux GPU, nous pouvons constater que les performances du GPU V100S sont bien plus élevées. La valeur Rpeak théorique sur un seul GPU RTX est approximativement 500GFlops. Cette valeur donne moins de performances (Rmax) par GPU. La valeur Rpeak du GPU Volta V100S est de 8.2 TFlops, ce qui permet d’obtenir des performances plus élevées à partir de chaque carte.

MLPerf

La nécessité d’une analyse comparative des performances standard pour les ML a conduit au développement de MLPerf suite. Cette suite comprend des benchmarks pour l’évaluation des performances de formation et d’inférence du matériel et des logiciels en MILLILITREs. Cette section concerne uniquement les performances de formation des GPU. Le tableau suivant répertorie les charges applicatives de formation profonde, les datasets et les critères cibles qui sont utilisés pour l’évaluation des GPU.

Étalonne	VSAM	Objectif de qualité	Modèle d’implémentation de référence
Classification d’image	ImageNet (224x224)	75,9% Top 1 : précision	ResNet-50 v 1.5
Détection d’objets (poids clair)	COCO 2017	Schéma de 23%	Disque SSD-ResNet34
Détection d’objets (poids lourd)	COCO 2017	0,377 Box nombre minimum de points d’accès 0,339 minimum de PA	Masque R-CNN
Traduction (à jour)	WMT anglais-allemand	24,0 BLEU	GNMT
Traduction (non actualisée)	WMT anglais-allemand	25,0 BLEU	Synchro
Apprentissage de renforcement	Sans objet	Point de contrôle pré-formé	Mini Go

Tableau. 5 datasets MLPerf et critères cibles (source :https://mlperf.org/Training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

la figure suivante indique le temps nécessaire pour répondre aux critères cibles pour les GPU RTX et V100S :

SLN321776_en_US__11image (18441)
(Figure 4 MLPERF performances)

Les résultats sont pris en compte après l’exécution de plusieurs exécutions, en ignorant la valeur la plus élevée et la plus basse, et la moyenne de l’autre s’exécute selon les instructions répertoriées. Les performances des deux GPU RTX sont similaires. Le pourcentage de la variance entre les deux GPU RTX est minime et compris dans la plage d’acceptation conformément aux directives MLPerf. Bien que le GPU V100 Volta offre les meilleures performances, les GPU RTX fonctionnent également bien, sauf pour la détection d’objets.

Lors de la publication, le benchmark de classification d’image dans MLPerf échouait avec les GPU RTX en cas d’erreur de convolution. Ce problème devrait être résolu dans une future version de cuDNN.

Résolution

Résumé

Dans ce blog, nous avons abordé les performances des Dell EMC serveur GPU DSS 8440 et des GPU NVIDIA RTX pour les charges applicatives HPC et AI. Les performances des processeurs graphiques RTX sont similaires, mais le GPU RTX 8000 est le meilleur choix pour les applications qui nécessitent une quantité de mémoire supérieure. Pour les charges applicatives à double précision ou les charges applicatives qui nécessitent une bande passante de mémoire élevée Volta V100S et le nouveau GPU NVIDIA A100 est le meilleur choix.

À l’avenir, nous envisageons de fournir une étude des performances sur les GPU RTX avec d’autres applications Precision et une étude d’inférence sur les GPU RTX et A100.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell