Numéro d’article: 000132886

Servidor Dell EMC DSS 8440 con tecnología de GPU NVIDIA RTX para cargas de trabajo de HPC y IA

Résumé: El servidor de Dell EMC DSS8440 es un servidor de 4U de 2 sockets diseñado para la informática de alto rendimiento, el aprendizaje de máquinas (ML) y las cargas de trabajo de aprendizaje profundo. Este artículo compara el rendimiento de diversas GPU, como NVIDIA Volta V100S y NVIDIA Tesla T4 tensor Core GPU, además de GPU NVIDIA Quadro RTX en este sistema. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle y Frank han

Dell EMC HPC y el laboratorio de innovación de AI de junio de 2020

El servidor de Dell EMC DSS8440 es un servidor de 4U de 2 sockets diseñado para la informática de alto rendimiento, el aprendizaje de máquinas (ml) y las cargas de trabajo de aprendizaje profundo. Es compatible con varias GPU, como NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 y NVIDIA Tesla T4 tensor Core GPU, además de GPU NVIDIA Quadro RTX .

SLN321776_en_US__4image (18426)

(Figura 1 Dell EMC servidor DSS840)

En este blog, evaluamos el rendimiento de las GPU NVIDIA Quadro RTX 6000 y NVIDIA Quadro RTX 8000 en comparación con la GPU del acelerador de nivel superior, mediante el uso de diversas herramientas de análisis estándar del sector. Esto incluye la prueba de cargas de trabajo de precisión única y doble. Aunque la serie Quadro ha existido por un tiempo prolongado, las GPU de RTX con arquitectura NVIDIA Turing se iniciaron después del 2018. Las especificaciones en la tabla 1 muestran que la GPU de RTX 8000 es superior al RTX 6000 en términos de configuración de memoria más alta. Sin embargo, las GPU de RTX 8000 y RTX 6000 tienen mayores necesidades de alimentación en comparación con la GPU de V100S. Para las cargas de trabajo que requieren una mayor capacidad de memoria, RTX 8000 es la mejor opción.

Especificaciones	RTX 6000	RTX 8000	V100S: 32 GB
Arquitectura	Turing		Volta
Memoria	GDDR6 DE 24 GB	GDDR6 DE 48 GB	HBM2 DE 32 GB
Tasa de reloj predeterminada (MHz)	1395		1245
Velocidad máxima del reloj de la GPU (MHz)	1770		1597
Núcleos CUDA	4608		5120
FP32 (máximo de TFLOPS)	16.3		16.4
Ancho de banda de memoria (GB/s)	672		1134
Alimentación	295 W		250 W

Tabla. 1 especificaciones de GPU

Servidor	DellEMC, PowerEdge, DSS8440
Procesador	2 x Intel Xeon 6248, 20 C a 2,5 GHz
Memoria	24 x 32 GB a 2933 MT/s (768 GB en total)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Almacenamiento	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Fuentes de alimentación	4 x 2400 W

Tabla. 2 detalles de configuración del servidor

BIOS	2.5.4
Sistema operativo	RHEL 7.6
Kernel	3.10.0-957.el7.x86_64
Perfil del sistema	Rendimiento optimizado
Kit de herramientas de CUDA Controlador CUDA	10,1 440.33.01

Tabla. 3 detalles del firmware del sistema

Aplicación	Versión
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 actualización 4
LAMMPS	OpenMPI de marzo de 3 2020 – 4.0.3
MLPERF	capacitación de v 0.6 Docker 19,03

Tabla. 4 información de la aplicación

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 es una aplicación de dinámica molecular que mantiene los investigadores en laboratorios nacionales de Sandia y la Universidad del templo. LAMMPS se compiló con el paquete de KOKKOS para que se ejecute de manera eficiente en las GPU NVIDIA. El conjunto de datos de Lennard Jones se usó para la comparación de rendimiento y Timesteps/s es la métrica, como se muestra en la figura 2:

SLN321776_en_US__8image (18427)

(Figura 2 , gráfico de Lennard Jones)

Como se indica en la tabla 1, las GPU de RTX 6000 y RTX 8000 tienen el mismo número de núcleos, el rendimiento de una sola precisión y el ancho de banda de la GPU, además de una memoria GPU diferente. Dado que ambas GPU de RTX tienen una configuración similar, el rendimiento también se encuentra en el mismo rango. Las GPU de RTX se escalan bien para esta aplicación y el rendimiento para ambas GPU es idéntico.

El rendimiento de la GPU de Volta V100S es aproximadamente tres veces más rápido que las GPU de Quadro RTX. El factor clave para este mayor rendimiento es el mayor ancho de banda de la memoria GPU de la GPU de V100S.

High Performance Linpack (HPL)

HPL es un benchmark de HPC estándar que mide el rendimiento de la informática. Se utiliza como un benchmark de referencia en la lista TOP500 para clasificar supercomputadoras en todo el mundo.

En la siguiente figura se muestra el rendimiento de las GPU de RTX 6000, RTX 8000 y V100S mediante el servidor DSS 8440. Como puede ver, el rendimiento de las GPU de RTX es considerablemente menor que la GPU de V100S. Esto es de esperar, ya que HPL ejecuta una factorización de LU de matriz, que es principalmente operaciones de punto flotante de precisión doble.

SLN321776_en_US__9image (18428)

(Figura. 3 HPL rendimiento con diferentes GPU)

Si comparamos el rendimiento teórico de punto flotante, es decir, Rpeak de ambas GPU, vemos que el rendimiento de la GPU de V100S es mucho mayor. El valor de Rpeak teórico en una sola GPU de RTX es de aproximadamente 500GFlops. Este valor arroja menos rendimiento (Rmax) por GPU. El valor Rpeak para Volta V100S GPU es 8.2 TFlops, lo que da como resultado un rendimiento mucho mayor de cada tarjeta.

MLPerf

La necesidad de los benchmarks de rendimiento estándares del sector para los ML condujo al desarrollo de MLPerf Suite. Esta suite de aplicaciones incluye benchmarks para evaluar la capacitación y el rendimiento de la inferencia de hardware y software en ML. Esta sección solo aborda el rendimiento de capacitación de GPU. En la siguiente tabla se enumeran las cargas de trabajo de aprendizaje exhaustivo, los conjuntos de datos y los criterios de destino que se utilizan para evaluar las GPU.

Desempeño	AuthorData	Destino de calidad	Modelo de implementación de referencia
Clasificación de imagen	ImageNet (224x224)	75,9% de la precisión superior: 1	ResNet-50 v 1.5
Detección de objetos (peso ligero)	COCO 2017	23% de mapa	SSD: ResNet34
Detección de objetos (peso pesado)	COCO 2017	0,377 de la máscara mínima de PA 0,339 de la caja	Máscara R-CNN
Traducción (recurrente)	WMT inglés alemán	24,0 BLEU	GNMT
Traducción (no recurrente)	WMT inglés alemán	25,0 BLEU	Transformador
Refuerzo del aprendizaje	N/A	Punto de comprobación capacitado previamente	Mini-avanzar

Tabla. 5 conjuntos de datos de MLPerf y criterios de destino (origen:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

en la siguiente figura se muestra el tiempo que cumple los criterios de destino para las GPU RTX y V100S:

SLN321776_en_US__11image (18441)
(Figura 4 rendimiento de MLPERF)

Los resultados se consideran después de ejecutar varias ejecuciones, descartando el valor más alto y más bajo, y promediando las otras ejecuciones según las reglas enumeradas. El rendimiento para las GPU de RTX es similar. El porcentaje de variación entre las GPU de RTX es mínimo y se encuentra dentro del rango de aceptación según las reglas de MLPerf. Aunque Volta V100 GPU proporciona el mejor rendimiento, las GPU de RTX también funcionan bien, excepto para el benchmark de detección de objetos.

En el momento de la publicación, el benchmark de clasificación de imagen en MLPerf fallaba con GPU de RTX debido a un error de circunvolución. Se espera que este problema se solucione en una versión futura de cuDNN.

Résolution

Resumen

En este blog, analizamos el rendimiento del servidor de GPU de Dell EMC DSS 8440 y las GPU de NVIDIA RTX para las cargas de trabajo de HPC y AI. El rendimiento para las GPU de RTX es similar; sin embargo, la GPU de RTX 8000 sería una mejor opción para las aplicaciones que requieren una mayor cantidad de memoria. Para cargas de trabajo de precisión doble o cargas de trabajo que requieren un ancho de banda de memoria alta de Volta V100S y la nueva GPU de NVIDIA A100 son la mejor opción.

En el futuro, planeamos proporcionar un estudio de rendimiento sobre las GPU de RTX con otras aplicaciones de precisión única y un estudio de interferencia en las GPU de RTX y A100.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell