Rendimiento de HPC e IA en DSS8440 con GPU V100S

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, parámetro de referencia

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Autores: Frank Han, Rengan Xu, Quy Ta
Laboratorio de innovación en HPC e IA de Dell EMC, mayo de 2020

Resumen ejecutivo

En este blog, se presentan los resultados del estudio en el que se evaluaron 8 V100S en DSS8440 para diferentes aplicaciones de HPC y aprendizaje profundo, incluidas HPL, LAMMPS y MLPerf-v0.6 suite. En resumen:

  • Las aplicaciones limitadas por el ancho de banda de la GPU, como LAMMPS, pueden aprovechar las nuevas GPU V100S y obtendrán un mayor rendimiento para GPU única y múltiple.
  • Las aplicaciones de aprendizaje profundo, como las probadas en MLPerf, obtendrán beneficios del reloj aumentado más alto y el ancho de banda más alto de V100S.
  • Las aplicaciones vinculadas a la computación de GPU, como HPL, el parámetro de referencia HPC, obtendrán el mismo rendimiento que V100-PCIe.

En el resto de este blog se exponen los detalles de estas pruebas.  Tenga en cuenta que, en el futuro, las mismas aplicaciones se ejecutarán en DSS8440 con GPU RTX (en lugar de la V100S) y también se ejecutarán otras pruebas, como el rendimiento de la V100S en la plataforma AMD.

Resolution

Descripción general del banco de pruebas

La variable Servidor DSS8440 Dell EMC es un servidor optimizado para aceleradores, diseñado específicamente para cargas de trabajo de computación de alto rendimiento y aprendizaje profundo. La variable NVIDIA V100S es el miembro más reciente de la serie Tesla Volta y es una tarjeta GPU basada en PCIe 32G de doble ancho. En este blog, se presentarán los resultados del estudio en el que se evaluaron 8 V100S en DSS8440 para diferentes aplicaciones de HPC y aprendizaje profundo, incluidas HPL, LAMMPS y MLPerf-v0.6 suite.

En la Tabla 1 y la Tabla 2, se enumeran los detalles de hardware y software del servidor DSS 8440 probados y la comparación de V100S y V100-PCIe.

 

Tabla 1: Los detalles de hardware y software

SLN321304_en_US__1image(15660)

Tabla 2: Diferencia en las especificaciones de V100S y V100-PCIe
SLN321304_en_US__2image(15661)

 

Rendimiento de las aplicaciones de HPC

 

 SLN321304_en_US__3image(15658)

Figura 1: Resultados de HPL V100S y V100-PCIe en DSS8440

En la figura 1, se muestran las cifras de rendimiento de HPL. No hay mucha diferencia entre V100S y V100-PCIe, ya que HPL es una aplicación de prueba de esfuerzo extremo. Hay poco espacio de temperatura para el Función GPU Boost, por lo tanto, la frecuencia de las GPU vuelve a la velocidad de reloj base muy rápidamente. Debido a que V100S y V100-PCIe tienen casi la misma velocidad de reloj base, para aplicaciones limitadas por computación de GPU como HPL, V100S ofrece aproximadamente el mismo nivel de rendimiento que V100-PCIe. 

SLN321304_en_US__4image(15659)

Figura 2: Resultados de LAMMPS de V100S y V100-PCIe en DSS8440

La Figura 2 tiene los resultados de paso de tiempo de LAMMPS con el conjunto de datos de Lennard Jones. LAMMPS es un ejemplo de código de dinámica molecular que se sabe que es una aplicación limitada por el ancho de banda de la GPU. La V100S ofrece un 27 % más de rendimiento que la V100-PCIe en estas pruebas. La aceleración se debe no solo a la frecuencia de impulso un 15% más alta y un 26% más de ancho de banda, sino también a la versión de software más reciente. Los números V100-PCIe se obtuvieron utilizando el paquete KOKKOS antiguo en la versión LAMMPS 8Feb2019. Sin embargo, la versión más reciente del 24 de enero de 2020 había agregado soporte para el uso de cuFFT en la GPU con KOKKOS. La mayoría de los detalles se pueden encontrar en este Notas de la versión de LAMMPS del 24 de enero de 2020.

 

Rendimiento de las aplicaciones de aprendizaje profundo

SLN321304_en_US__5image(15662)

Figura 3: Resultados de MLPerf de V100S y V100-PCIe en DSS8440

Entrenamiento MLPerf división cerrada versión 0.6 tiene 6 subpruebas que cubren amplios dominios de aprendizaje profundo, incluida la clasificación de imágenes (ResNet-50), la detección de objetos (Mask R-CNN y SSD), la traducción (NMT y Transformer) y el aprendizaje por refuerzo (MiniGo). Los resultados de la comparación de ambas tarjetas GPU se presentan en la Figura 3. Se observaron aumentos de rendimiento de alrededor del 1 % al 5 % en todo el conjunto MLPerf para V100S, lo que es coherente con el rendimiento entre un 1 % y un 5 % mayor en los archivos de registro de resultados. Se monitoreó la salida en tiempo real de la velocidad del reloj de la GPU y se observó que las GPU V100S funcionaban entre un 1 y un 5 % más altas en todas esas pruebas, por lo que los beneficios de rendimiento provenían de la mayor frecuencia aumentada de la V100S.

Conclusiones y trabajos futuros

En este blog, se comparó el rendimiento de las aplicaciones de HPC con HPL, LAMMPS y el rendimiento del aprendizaje profundo con MLPerf con las tarjetas GPU V100S y V100-PCIe en el mismo servidor DSS8440. Las aplicaciones limitadas por el ancho de banda de la GPU, como LAMMPS, pueden aprovechar las nuevas GPU V100S y obtendrán un mayor rendimiento para GPU simples y múltiples. Las aplicaciones de aprendizaje profundo probadas en MLPerf también obtienen beneficios del reloj aumentado más alto y el ancho de banda más alto de V100S. HPL, el parámetro de referencia HPC limitado por computación de GPU, obtiene el mismo rendimiento que V100-PCIe. En el futuro, las mismas aplicaciones en DSS8440 se ejecutarán con GPU RTX, y se explorarán algunas otras pruebas como el rendimiento de V100S en la plataforma AMD.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.