Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Rendimiento de las aplicaciones de HPC en la configuración M de C4140

Summary: Los detalles sobre Dell EMC PowerEdge C4140 agregaron una nueva solución de "configuración M".

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

El artículo fue escrito por Frank Han, Rengan Puntaje y Quy Ta del Laboratorio de innovación en HPC e IA de Dell EMC en enero de 2019.

Resolution

Resumen

Recientemente, Dell EMC PowerEdge C4140 agregó una nueva solución de "configuración M". A medida que esta opción más reciente se une a la familia C4140, en este artículo se presentan los resultados del estudio que evalúa el rendimiento de Configuration M en comparación con la configuración K para diferentes aplicaciones de HPC, incluidas HPL, GROMACS y NAMD.

Descripción general

PowerEdge C4140 es un servidor en rack de 2 conectores y 1U. Incluye compatibilidad con los procesadores Intel Skylake, hasta 24 ranuras DIMM y cuatro tarjetas GPU NVIDIA Volta de doble ancho. En la familia de servidores C4140, dos configuraciones compatibles con NVLINK son la configuración K y la configuración M. La comparación de ambas topologías se muestra en la Figura 1. Las dos principales diferencias entre estas dos configuraciones se describen a continuación:

  1. Mayor ancho de banda de PCIe: En la configuración K, las CPU se conectan a cuatro GPU mediante un solo enlace PCIe. Sin embargo, en la configuración M, cada GPU se conecta directamente a la CPU con un enlace PCIe dedicado. Por lo tanto, hay cuatro enlaces PCIe en total entre las dos CPU con cuatro GPU que proporcionan un mayor ancho de banda de PCIe en la configuración M.
  2. Menor latencia. La configuración M no tiene ningún switch PCIe entre la CPU y las GPU. Las conexiones directas reducen la cantidad de saltos para la transmisión de datos entre la CPU y la GPU, por lo que la latencia de ida y vuelta es menor en la configuración M.
    SLN315976_en_US__1image 1
En este blog, se presenta el rendimiento de las aplicaciones de HPC en estas dos configuraciones. Comparamos HPL, GROMACS y NAMD con GPU V100-SXM2 de 16 G. En la Tabla 1, se enumeran los detalles de hardware y software.
SLN315976_en_US__2table

p2pBandwidthLatencyTest 


SLN315976_en_US__3latency
Figura 2: Latencia de tarjeta a tarjeta con P2P deshabilitado n C4140 Configuración K y M

P2pBandwidthLatencyTest es un parámetro de referencia micro incluido en el SDK cuda. Mide la latencia y el ancho de banda de tarjeta a tarjeta con y sin GPUDirect™ habilitado de punto a punto. El enfoque en esta prueba es la parte de latencia, ya que este programa no mide el ancho de banda simultáneamente. La discusión sobre el ancho de banda real disponible para las aplicaciones se encuentra en la sesión de HPL que aparece a continuación. Los números enumerados en la Figura 2 son el promedio de 100 veces de latencia de tarjeta a tarjeta unidireccional en microsegundos. Cada vez que el código envía un byte de una tarjeta a otra, el número P2P deshabilitado se selecciona en este gráfico, y porque si P2P está habilitado, los datos se transfieren a través de NVLINK en su lugar. La latencia de PCIe de la configuración M es 1,368 menos que la configuración K debido a las diferentes topologías de PCIe.

 

High Performance Linpack (HPL) 

SLN315976_en_US__41 (18)
(a) Rendimiento
SLN315976_en_US__52 (14)
(b) Promedio de ancho de banda de PCIe para cada GPU V100
SLN315976_en_US__63 (12)
(c) Consumo de energía de una ejecución de HPL

En la figura 3 (a) se muestra el rendimiento de HPL en la plataforma C4140 con GPU 1, 2, 4 y 8 V100-SXM2. Los resultados de 1 a 4 GPU provienen de un solo C4140, el resultado de rendimiento de 8 GPU se encuentra en dos servidores. En esta prueba, NVIDIA proporciona la versión de HPL utilizada y se compila con CUDA 10 y OpenMPI lanzados recientemente. Los siguientes aspectos se pueden observar a partir de los resultados de HPL:

1) Nodo único. Con las 4 GPU en prueba, la configuración M es aproximadamente un 16 % más rápida que la configuración K. Antes de que la aplicación HPL comience a computar, mide el ancho de banda de PCIe de dispositivo a host (D2H) y de host a dispositivo (H2D) disponible para cada tarjeta GPU, cuando todas las tarjetas transfieren datos simultáneamente. Esta información proporciona información útil sobre el verdadero ancho de banda de PCIe para cada tarjeta cuando HPL copia la matriz N*N a todas las memorias de GPU al mismo tiempo. Como se muestra en la Figura 3 (b), los números de D2H y H2D de Configuration M son mucho más altos y están alcanzando el rendimiento teórico de PCIe x16. Esto coincide con su topología de hardware, ya que cada GPU en la configuración M tiene un PCIe dedicado x16 enlaces a la CPU. En la configuración K, los cuatro V100 tienen que compartir un solo enlace PCIe x16 a través del switch PCIe PLX, por lo que solo hay 2,5 GB/s disponibles para cada uno de ellos. Debido a la diferencia de ancho de banda, configuration M tardó 1,33 segundos en copiar la matriz N*N de 16 GB de 4 piezas a la memoria global de cada GPU, y la configuración K tardó 5,33 segundos. Toda la aplicación HPL se ejecuta entre 23 y 25 segundos. Dado que todos los V100-SXM2 son los mismos, el tiempo de procesamiento es el mismo, por lo que este ahorro de 4 segundos de la copia de datos hace que Configuration M sea un 16 % más rápido.

2) Múltiples nodos. Los resultados de 2 nodos C4140 con 8 GPU muestran una mejora de más del 15 % de HPL en dos nodos. Esto significa que la configuración M tiene una mejor escalabilidad entre los nodos que la configuración K por el mismo motivo que las tarjetas de nodos únicos 4 en el caso anterior.

3) Eficiencia. El consumo de energía se midió con iDRAC.En la Figura 3 (c), se muestra la potencia en serie temporal. Ambos sistemas alcanzan aproximadamente 1850 W como máximo, debido a un mayor número de GFLOPS, la configuración M proporciona un mayor rendimiento por número de vatio, así como eficiencia de HPL. 

HPL es un parámetro de referencia a nivel del sistema y sus resultados se determinan mediante componentes como CPU, GPU, memoria y ancho de banda de PCIe. La configuración M tiene un diseño equilibrado en las dos CPU; por lo tanto, supera a configuration K en este parámetro hpl.

 

GROMACS 

GROMACS es una aplicación de dinámica molecular de código abierto diseñada para simular terapias de biociradura, como las grasas, los inhibidores y los ataques de anímicos que tienen una gran cantidad de interacciones adheridas complicadas. La versión 2018.3 se probó en el conjunto de datos water 3072 que tiene 3 millones de atomes.   

 SLN315976_en_US__71 (17)

Figura 4: Resultados de rendimiento de GROMACS con varios V100 en la configuración K y M de C4140

La Figura 4 muestra la mejora del rendimiento de la configuración M sobre K. El rendimiento de una sola tarjeta es el mismo en las dos configuraciones, ya que no hay ninguna diferencia en la ruta de datos. Con 2 y 4 GPU, la configuración M es aproximadamente un 5 % más rápida que K. Cuando se prueba en 2 nodos, la configuración M tiene un rendimiento hasta un 10 % mejor; La razón principal es la mayor cantidad de conexiones PCIe que proporcionan más ancho de banda y permiten que más datos alimenten rápidamente las GPU. GROMACS se acelera considerablemente con LAS GPU, pero esta aplicación utiliza cpu y GPU para el cálculo en paralelo; por lo tanto, si GROMACS es la aplicación principal en un clúster, se recomienda una CPU potente. Este gráfico también muestra el escalamiento del rendimiento de GROMACS con más servidores y más GPU. Si bien el rendimiento de la aplicación aumenta con más GPU y más servidores, el aumento del rendimiento con GPU adicionales es menor que lineal.

 

NAnoscale Molecular Dynamics (NAMD)

NAMD es un código de dinámica molecular diseñado para una simulación de alto rendimiento de sistemas biomoleculares de gran tamaño. En estas pruebas, no se utilizó el binario de infraestructura previa. En su lugar, NAMD se creó con el código fuente más reciente (NAMD_Git-2018-10-31_Source) en CUDA 10. En la Figura 4, se trazan los resultados de rendimiento mediante el conjunto de datos STMV (1 066 628 átomos, periódico, PME). Las pruebas en conjuntos de datos más pequeños, como f1atpase (327 506 atoms, periódico, PME) y apoa1 (92 224 atoms, periódico, PME), dieron como resultado comparaciones similares entre la configuración M y la configuración K, pero aquí no se presentan por brevedad. 

SLN315976_en_US__81 (16)
Figura 5: Resultados de rendimiento de NAMD con varios V100 en la configuración K y M de C4140

Al igual que GROMACS, 4 veces más ancho de banda de PCIe ayuda al rendimiento en NAMD. La figura 5 muestra que el rendimiento de la configuración M con 2 y 4 tarjetas es un 16 % y un 30 % más que la configuración K, respectivamente, en el conjunto de datos STMV. Se espera que el rendimiento de una sola tarjeta sea el mismo, ya que, con solo una GPU en prueba, el ancho de banda de PCIe es idéntico.

 

Conclusiones y trabajo futuro

En este blog, se comparó el rendimiento de las aplicaciones de HPC con HPL, GROMACS y NAMD en dos configuraciones NVLINK diferentes de PowerEdge C4140. HPL, GROMACS y NAMD tienen un rendimiento de aproximadamente un 10 % mejor en la configuración M que en la configuración K. En todas las pruebas, como mínimo, La configuración M ofrece el mismo rendimiento de la Configuración K, ya que tiene todas las buenas características de la Configuración K más más enlaces PCIe y sin switches PCIe. En el futuro, se planifican pruebas adicionales con más aplicaciones como RELION, HOOMD y AMBER, así como pruebas con la GPU V100 32G.

Article Properties


Affected Product

High Performance Computing Solution Resources, Poweredge C4140

Last Published Date

21 Feb 2021

Version

2

Article Type

Solution