Article Number: 000130819

Rendimiento de aplicaciones HPC con Turing

Summary: Artículo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle y Quy Ta, del laboratorio de innovación de HPC e IA de Dell EMC en marzo del 2019

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

Como sucesor de la arquitectura Volta, Turing™ es la adición más reciente a la familia de GPU de NVIDIA®. La GPU Turing™ está disponible con GeForce®, en la cual se utiliza para procesar juegos de gran realismo y con Quadro®, a fin de acelerar los flujos de trabajo de creación de contenido. La serie NVIDIA® Tesla® está diseñada para manejar sistemas de inteligencia artificial y las cargas de trabajo de recursos informáticos de alto rendimiento (HPC) en los centros de datos. NVIDIA® Tesla® T4 es la única GPU para servidor con la microarquitectura Turing™, disponible ahora en el mercado, y soporta los servidores Dell EMC PowerEdge R640, R740, R740xd y R7425. En este blog, se analiza el rendimiento de la nueva Tesla T4 en comparación con la versión más reciente de Volta V100-PCIe en el servidor PowerEdge R740 para diferentes aplicaciones de HPC, incluidas HOOMD-blue, Amber, NAMD y HPL.

Volver al principio

Descripción general

El servidor PowerEdge R740 es un servidor de montaje en rack de 2U basado en Intel® Skylake que proporciona un equilibrio ideal de almacenamiento, I/O y soporte de aceleradores. Admite hasta cuatro* GPU T4 de ranura única o tres GPU V100-PCIe de ranura doble en 16 ranuras PCIe 3.0. En la tabla 1, se indican las diferencias entre un único T4 y V100. Volta™ V100 está disponible en configuraciones de memoria de 16 GB o 32 GB. Dado que la T4 solo está disponible en una versión de 16 GB, se utilizó la tarjeta V100 con memoria de 16 GB para proporcionar resultados de rendimiento comparativos. En la tabla 2, se muestran los detalles de hardware y software de la base de pruebas.

Tabla 1: Comparación entre T4 y V100

	Tesla V100-PCIe	Tesla T4
Arquitectura	Volta	Turing
Núcleos CUDA	5120	2560
Núcleos Tensor	640	320
Capacidad de procesamiento	7,0	7,5
Reloj de GPU	1245 MHz	585 MHz
Reloj de impulso	1380 MHz	1590 MHz
Tipo de memoria	HBM2	GDDR6
Bus de memoria	4096bit	256bit
Ancho de banda	900 GB/s	320 GB/s
Ancho de ranura	Dos ranuras	Una ranura
FP32 de precisión única	14 TFLOPS	8.1 TFLOPS
Precisión mixta (FP16/FP32)	112 TFLOPS	65 TFLOPS
FP64 de doble precisión	7 TFLOPS	254.4 GFLOPS
TDP	250 W	70 W

Tabla 2: Detalles de configuración de R740 y versión de software

Procesador	2 procesadores Intel® Xeon ® Gold 6136 a 3,0 GHz, 12c
Memoria	384 G (12 * 32 G a 2666 MHz)
Disco local	SSD de 480 G
Sistema operativo	Servidor de Red Hat Enterprise Linux versión 7.5
Unidad de procesamiento de gráficos (GPU)	3 V100-PCIe de 16 GB o 4 T4 de 16 GB
Controlador de CUDA	410,66
Kit de herramientas CUDA	10,0
Configuración del procesador > Procesadores lógicos	Deshabilitado
Perfiles del sistema	Rendimiento
HPL	Compilado con CUDA 10.0
NAMD	NAMD_Git-2019-02-11
Ámbar	18,12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Volver al principio

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Figura 1: Resultados de rendimiento de HOOMD-blue de precisión única y doble con V100 y T4 en el servidor PowerEdge R740

HOOMD-blue (sigla para Highly Optimized Object-oriented Many-particle Dynamics - blue) es un simulador dinámico molecular de uso general. De forma predeterminada, HOOMD-blue se compila en precisión doble (FP64) y la versión 2.5 proporciona un parámetro SINGLE_PRECISION=ON para forzar su compilación en precisión única (FP32). En la Figura 1, se muestran los resultados de los conjuntos de datos de microesfera para precisión única y doble. El eje x representa la cantidad de GPU y la métrica de rendimiento se muestra en horas para ejecutar los pasos 10E6.

Una observación es que el rendimiento de FP64 de T4 es relativamente bajo. Esto se debe a la limitación de hardware. En teoría, T4 puede ofrecer 254 GFLOPS (consulte la Tabla 1) de rendimiento máximo en doble precisión, mientras que V100 es aproximadamente 27 veces mejor. Sin embargo, el rendimiento de aplicaciones como HOOMD-blue, las cuales se pueden compilar y ejecutar con precisión única, puede tener una ventaja de rendimiento con la opción de compilación de FP32. La comunidad HOOMD-blue ha considerado nuestra sugerencia acerca de la compatibilidad con precisión mixta en todos los módulos HOOMD-blue. Una vez que finalice el trabajo, HOOMD-blue puede aprovechar mejor el hardware compatible con precisión mixta.
Al comparar el rendimiento de precisión única de T4 y V100, observamos que V100 es tres veces mejor que T4. Este rendimiento se espera de T4 debido a la cantidad de núcleos CUDA y la calificación de alimentación en el acelerador.
Las GPU en el servidor PowerEdge R740 están conectadas a través PCIe. Para los tres puntos de datos de GPU de V100, el bus de PCIe está saturado debido a comunicaciones entre pares. Esto afecta el rendimiento general, lo cual da como resultado el mismo rendimiento que una GPU.

Volver al principio

Ámbar

Amber es el nombre colectivo de un conjunto de programas que permite a los usuarios realizar simulaciones de dinámica molecular, especialmente en biomoléculas. El término Amber también se utiliza para referirse a los campos de fuerza empírica que se implementan en este conjunto. Se probó Amber versión 18.12 con AmberTools 18.13 con el conjunto de parámetros de referencia Amber 18, el cual incluye conjuntos de datos de JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobina y nucleosoma.

SLN316570_en_US__2image(9276)

Figura 2: Resultados de Amber en solvente explícito con V100 y T4 en el servidor PowerEdge R740

SLN316570_en_US__3image(9277)

Figura 3: Resultados de Amber en solvente implícito con V100 y T4 en el servidor PowerEdge R740

En la Figura 2 y la Figura 3, se muestran las cifras de rendimiento de tarjeta única y del sistema completo en solvente explícito y solvente implícito, respectivamente. El punto de datos “sistema” en el gráfico anterior representa el rendimiento agregado del sistema completo de todas las GPU. El servidor PowerEdge R740 soporta tres V100 o cuatro T4, por lo que las barras de “sistema” en rojo y azul son los resultados con tres V100 o cuatro T4.

El motivo por el cual se prefieren datos agregados de varias tarjetas GPU es porque Pascal y GPU posteriores no escalan más allá de un único acelerador para la aplicación Amber. Generalmente, los usuarios realizan varias simulaciones en paralelo en otras GPU. En términos de rendimiento con un conjunto de datos de gran tamaño como STMV (1 067 095 átomos), un T4 único representa un 33 por ciento de la capacidad de V100 y el sistema completo representa un 44 por ciento de esa capacidad. Los conjuntos de datos como TRPCage (solo 304 átomos) son demasiado pequeños para hacer un uso eficaz de las V100, por lo que el rendimiento no es mucho más rápido que en las T4, ya que se usa para ejecuciones de PME más grandes. Según el resultado en el sitio web oficial de Amber, casi todos los valores de GPU son tres a cuatro veces más rápidos que las ejecuciones con solo CPU, por lo que tener una tarjeta T4 en un servidor que aborda conjuntos de datos pequeños será una buena opción.

Volver al principio

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Figura 4: Resultados de rendimiento de NAMD con V100 y T4 en el servidor PowerEdge R740

NAMD es un código de dinámica molecular diseñado para una simulación de alto rendimiento de sistemas biomoleculares de gran tamaño. En estas pruebas, no se utilizó el binario precompilado. En su lugar, NAMD se compiló con el código fuente más reciente (NAMD_Git-2019-02-11) con CUDA 10.0. Para obtener el mejor rendimiento, NAMD se compiló con el compilador y las bibliotecas de Intel® (versión 2018u3). En la Figura 4, se trazan los resultados de rendimiento mediante el conjunto de datos STMV (1 066 628 átomos, periódico, PME). NAMD no escala más allá de una tarjeta V100 y escala bien con tres tarjetas T4. Una sola GPU T4 ofrece un 42 por ciento del rendimiento de la V100. Este es un número decente, considerando que solo tiene un 28 por ciento del TDP de V100. T4 podría ser una opción para centros de datos con capacidad limitada de alimentación y enfriamiento.

Volver al principio

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Figura 5: Resultados de HPL con V100 y T4 en el servidor PowerEdge R740

En la Figura 5, se muestra el rendimiento de HPL en PowerEdge R740 con varias GPU V100 o T4. Según lo previsto, los números de HPL escalan bien con varias GPU para V100 y T4. Sin embargo, el rendimiento de T4 es considerablemente menor que el de V100 debido a su limitación de FP64. Debido a la funcionalidad limitada de doble precisión en T4, la comparación de rendimiento con V100 no es ideal y Volta V100 sigue siendo la mejor opción para aplicaciones de doble precisión.

Volver al principio

Conclusiones y trabajo a futuro

En este blog, se comparó el rendimiento de las aplicaciones HPC con HOOMD-blue, Amber, NAMD y HPL entre las unidades V100 y T4 en Dell EMC PowerEdge R740. T4 no solo se utiliza para la inferencia de aprendizaje profundo, sino que también es beneficioso para las aplicaciones de HPC con compatibilidad de precisión única o mixta. Su bajo TDP puede ayudar a acelerar los centros de datos tradicionales en los que la capacidad de alimentación y enfriamiento es limitada. El factor de forma pequeño de PCIe de la T4 hace que sea una buena opción para servidores PowerEdge de uso más general. En el futuro, se planean pruebas adicionales con más aplicaciones, como RELION, GROMACS y LAMMPS, además de pruebas para aplicaciones que pueden aprovechar la precisión mixta.

* Descargo de responsabilidad: para fines de análisis comparativo, se evaluaron cuatro GPU T4 en Dell PowerEdge R740. Actualmente, PowerEdge R740 admite oficialmente un máximo de tres T4 en 16 ranuras PCIe.

Volver al principio

Article Properties

Affected Product

High Performance Computing Solution Resources, PowerEdge R740

Last Published Date

28 Sep 2021

Version

Article Type

Solution

Welcome

Welcome to Dell

Rendimiento de aplicaciones HPC con Turing

Summary: Artículo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle y Quy Ta, del laboratorio de innovación de HPC e IA de Dell EMC en marzo del 2019

Article Content

Symptoms

Cause

Resolution

Article Properties

Affected Product

Last Published Date

Version

Article Type