Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Rendimiento de aplicaciones HPC con Turing

Summary: Artículo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle y Quy Ta, del laboratorio de innovación de HPC e IA de Dell EMC en marzo del 2019

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms


Índice:

  1. Resumen
  2. Descripción general
  3. HOOMD-blue
  4. Ámbar
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Conclusiones y trabajo a futuro

 

Resumen

 

Como sucesor de la arquitectura Volta, Turing™ es la adición más reciente a la familia de GPU de NVIDIA®. La GPU Turing™ está disponible con GeForce®, en la cual se utiliza para procesar juegos de gran realismo y con Quadro®, a fin de acelerar los flujos de trabajo de creación de contenido. La serie NVIDIA® Tesla® está diseñada para manejar sistemas de inteligencia artificial y las cargas de trabajo de recursos informáticos de alto rendimiento (HPC) en los centros de datos. NVIDIA® Tesla® T4 es la única GPU para servidor con la microarquitectura Turing™, disponible ahora en el mercado, y soporta los servidores Dell EMC PowerEdge R640, R740, R740xd y R7425. En este blog, se analiza el rendimiento de la nueva Tesla T4 en comparación con la versión más reciente de Volta V100-PCIe en el servidor PowerEdge R740 para diferentes aplicaciones de HPC, incluidas HOOMD-blue, Amber, NAMD y HPL.


Volver al principio


 

Descripción general

 

El servidor PowerEdge R740 es un servidor de montaje en rack de 2U basado en Intel® Skylake que proporciona un equilibrio ideal de almacenamiento, I/O y soporte de aceleradores. Admite hasta cuatro* GPU T4 de ranura única o tres GPU V100-PCIe de ranura doble en 16 ranuras PCIe 3.0.  En la tabla 1, se indican las diferencias entre un único T4 y V100. Volta™ V100 está disponible en configuraciones de memoria de 16 GB o 32 GB.  Dado que la T4 solo está disponible en una versión de 16 GB, se utilizó la tarjeta V100 con memoria de 16 GB para proporcionar resultados de rendimiento comparativos. En la tabla 2, se muestran los detalles de hardware y software de la base de pruebas.

Tabla 1: Comparación entre T4 y V100

 

Tesla V100-PCIe

Tesla T4

Arquitectura

Volta

Turing

Núcleos CUDA

5120

2560

Núcleos Tensor

640

320

Capacidad de procesamiento

7,0

7,5

Reloj de GPU

1245 MHz

585 MHz

Reloj de impulso

1380 MHz

1590 MHz

Tipo de memoria

HBM2

GDDR6

Bus de memoria

4096bit

256bit

Ancho de banda

900 GB/s

320 GB/s

Ancho de ranura

Dos ranuras

Una ranura

FP32 de precisión única

14 TFLOPS

8.1 TFLOPS

Precisión mixta (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 de doble precisión

7 TFLOPS

254.4 GFLOPS

TDP

250 W

70 W

 

Tabla 2: Detalles de configuración de R740 y versión de software

Procesador

2 procesadores Intel® Xeon ® Gold 6136 a 3,0 GHz, 12c

Memoria

384 G (12 * 32 G a 2666 MHz)

Disco local

SSD de 480 G

Sistema operativo

Servidor de Red Hat Enterprise Linux versión 7.5

Unidad de procesamiento de gráficos (GPU)

3 V100-PCIe de 16 GB o 4 T4 de 16 GB

Controlador de CUDA

410,66

Kit de herramientas CUDA

10,0

Configuración del procesador > Procesadores lógicos

Deshabilitado

Perfiles del sistema

Rendimiento

HPL

Compilado con CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Ámbar

18,12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Volver al principio


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Figura 1: Resultados de rendimiento de HOOMD-blue de precisión única y doble con V100 y T4 en el servidor PowerEdge R740

HOOMD-blue (sigla para Highly Optimized Object-oriented Many-particle Dynamics - blue) es un simulador dinámico molecular de uso general. De forma predeterminada, HOOMD-blue se compila en precisión doble (FP64) y la versión 2.5 proporciona un parámetro SINGLE_PRECISION=ON para forzar su compilación en precisión única (FP32). En la Figura 1, se muestran los resultados de los conjuntos de datos de microesfera para precisión única y doble. El eje x representa la cantidad de GPU y la métrica de rendimiento se muestra en horas para ejecutar los pasos 10E6.

  1. Una observación es que el rendimiento de FP64 de T4 es relativamente bajo. Esto se debe a la limitación de hardware. En teoría, T4 puede ofrecer 254 GFLOPS (consulte la Tabla 1) de rendimiento máximo en doble precisión, mientras que V100 es aproximadamente 27 veces mejor. Sin embargo, el rendimiento de aplicaciones como HOOMD-blue, las cuales se pueden compilar y ejecutar con precisión única, puede tener una ventaja de rendimiento con la opción de compilación de FP32. La comunidad HOOMD-blue ha considerado nuestra sugerencia acerca de la compatibilidad con precisión mixta en todos los módulos HOOMD-blue. Una vez que finalice el trabajo, HOOMD-blue puede aprovechar mejor el hardware compatible con precisión mixta.

  2. Al comparar el rendimiento de precisión única de T4 y V100, observamos que V100 es tres veces mejor que T4. Este rendimiento se espera de T4 debido a la cantidad de núcleos CUDA y la calificación de alimentación en el acelerador.

  3. Las GPU en el servidor PowerEdge R740 están conectadas a través PCIe. Para los tres puntos de datos de GPU de V100, el bus de PCIe está saturado debido a comunicaciones entre pares. Esto afecta el rendimiento general, lo cual da como resultado el mismo rendimiento que una GPU.

 


Volver al principio


 

Ámbar

 


Amber es el nombre colectivo de un conjunto de programas que permite a los usuarios realizar simulaciones de dinámica molecular, especialmente en biomoléculas. El término Amber también se utiliza para referirse a los campos de fuerza empírica que se implementan en este conjunto. Se probó Amber versión 18.12 con AmberTools 18.13 con el conjunto de parámetros de referencia Amber 18, el cual incluye conjuntos de datos de JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobina y nucleosoma.

SLN316570_en_US__2image(9276)

Figura 2: Resultados de Amber en solvente explícito con V100 y T4 en el servidor PowerEdge R740

SLN316570_en_US__3image(9277)

Figura 3: Resultados de Amber en solvente implícito con V100 y T4 en el servidor PowerEdge R740 

En la Figura 2 y la Figura 3, se muestran las cifras de rendimiento de tarjeta única y del sistema completo en solvente explícito y solvente implícito, respectivamente.  El punto de datos “sistema” en el gráfico anterior representa el rendimiento agregado del sistema completo de todas las GPU. El servidor PowerEdge R740 soporta tres V100 o cuatro T4, por lo que las barras de “sistema” en rojo y azul son los resultados con tres V100 o cuatro T4.

El motivo por el cual se prefieren datos agregados de varias tarjetas GPU es porque Pascal y GPU posteriores no escalan más allá de un único acelerador para la aplicación Amber. Generalmente, los usuarios realizan varias simulaciones en paralelo en otras GPU. En términos de rendimiento con un conjunto de datos de gran tamaño como STMV (1 067 095 átomos), un T4 único representa un 33 por ciento de la capacidad de V100 y el sistema completo representa un 44 por ciento de esa capacidad. Los conjuntos de datos como TRPCage (solo 304 átomos) son demasiado pequeños para hacer un uso eficaz de las V100, por lo que el rendimiento no es mucho más rápido que en las T4, ya que se usa para ejecuciones de PME más grandes. Según el resultado en el sitio web oficial de Amber, casi todos los valores de GPU son tres a cuatro veces más rápidos que las ejecuciones con solo CPU, por lo que tener una tarjeta T4 en un servidor que aborda conjuntos de datos pequeños será una buena opción.


Volver al principio


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Figura 4: Resultados de rendimiento de NAMD con V100 y T4 en el servidor PowerEdge R740

NAMD es un código de dinámica molecular diseñado para una simulación de alto rendimiento de sistemas biomoleculares de gran tamaño. En estas pruebas, no se utilizó el binario precompilado. En su lugar, NAMD se compiló con el código fuente más reciente (NAMD_Git-2019-02-11) con CUDA 10.0. Para obtener el mejor rendimiento, NAMD se compiló con el compilador y las bibliotecas de Intel® (versión 2018u3). En la Figura 4, se trazan los resultados de rendimiento mediante el conjunto de datos STMV (1 066 628 átomos, periódico, PME). NAMD no escala más allá de una tarjeta V100 y escala bien con tres tarjetas T4. Una sola GPU T4 ofrece un 42 por ciento del rendimiento de la V100. Este es un número decente, considerando que solo tiene un 28 por ciento del TDP de V100. T4 podría ser una opción para centros de datos con capacidad limitada de alimentación y enfriamiento.


Volver al principio


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Figura 5: Resultados de HPL con V100 y T4 en el servidor PowerEdge R740

En la Figura 5, se muestra el rendimiento de HPL en PowerEdge R740 con varias GPU V100 o T4. Según lo previsto, los números de HPL escalan bien con varias GPU para V100 y T4. Sin embargo, el rendimiento de T4 es considerablemente menor que el de V100 debido a su limitación de FP64. Debido a la funcionalidad limitada de doble precisión en T4, la comparación de rendimiento con V100 no es ideal y Volta V100 sigue siendo la mejor opción para aplicaciones de doble precisión.


Volver al principio


 

Conclusiones y trabajo a futuro

 

En este blog, se comparó el rendimiento de las aplicaciones HPC con HOOMD-blue, Amber, NAMD y HPL entre las unidades V100 y T4 en Dell EMC PowerEdge R740. T4 no solo se utiliza para la inferencia de aprendizaje profundo, sino que también es beneficioso para las aplicaciones de HPC con compatibilidad de precisión única o mixta. Su bajo TDP puede ayudar a acelerar los centros de datos tradicionales en los que la capacidad de alimentación y enfriamiento es limitada. El factor de forma pequeño de PCIe de la T4 hace que sea una buena opción para servidores PowerEdge de uso más general. En el futuro, se planean pruebas adicionales con más aplicaciones, como RELION, GROMACS y LAMMPS, además de pruebas para aplicaciones que pueden aprovechar la precisión mixta.

* Descargo de responsabilidad: para fines de análisis comparativo, se evaluaron cuatro GPU T4 en Dell PowerEdge R740. Actualmente, PowerEdge R740 admite oficialmente un máximo de tres T4 en 16 ranuras PCIe.


Volver al principio


Article Properties


Affected Product

High Performance Computing Solution Resources, PowerEdge R740

Last Published Date

28 Sep 2021

Version

4

Article Type

Solution