PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos

Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Cómo instalar DCGM en Linux:

https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMGuía del usuario y de instalación de DCGM 3.3

Instalación de la versión más reciente de DCGM
Al descargar y utilizar el software, acepta cumplir plenamente con los términos y condiciones de la licencia de NVIDIA DCGM.
Se recomienda utilizar el controlador de centro de datos NVIDIA R450+ más reciente que se puede descargar desde la página Descargas de controladores NVIDIA.
Como método recomendado, instale DCGM directamente desde los repositorios de red de CUDA. Las versiones anteriores de DCGM también están disponibles en los repositorios.

Características de DCGM:

Monitoreo del comportamiento de la GPU
Administración de la configuración de GPU
Supervisión de la política de GPU
Estado y diagnóstico de la GPU
Contabilidad de GPU y estadísticas de procesos
Configuración y monitoreo de NVSwitch

Instrucciones de inicio rápido:

LTS de
UbuntuConfigure los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación es para Ubuntu 20.04 en x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

Instale DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

Red Hat
Configuración de los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación corresponde a RHEL 8 en x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

Instale DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

Cómo ejecutar DCGM:

Datacenter GPU Manager (DCGM) es una manera más rápida para que los clientes prueben las GPU desde el SO. Hay cuatro niveles de pruebas. Realice la prueba de nivel 4 para obtener los resultados más detallados. Por lo general, tarda alrededor de 1 hora y 30 minutos, pero esto puede variar según el tipo y la cantidad de GPU. La herramienta permite que el cliente configure las pruebas para que se ejecuten automáticamente y alerten al cliente. Puedes encontrar más información al respecto en este enlace. Le recomendamos que utilice siempre la última versión, la versión 3.3 es la última compilación.

Ejemplo 1:

Comando: dcgmi diag -r 1
Comando: ejemplo de dcgmi diag -r 1

Ejemplo 2:

Comando: dcgmi diag -r 2
Comando: ejemplo de dcgmi diag -r 2

Ejemplo 3:

Comando: dcgm diag -r 3
Comando: ejemplo de dcgm diag -r 3

Ejemplo 4:

Comando: dcgm diag -r 4
Comando: ejemplo de dcgm diag -r 4

Es posible que el diagnóstico omita algunos errores debido a su naturaleza de nicho, la especificidad de la carga de trabajo o la necesidad de tiempos de ejecución extendidos para detectarlos.
Si ve un error, investigue para comprender completamente su naturaleza.
Comience por extraer el comando nvidia-bug-report.sh (nativo solo para el sistema operativo Linux, sin Windows) y revise el archivo de salida.

Ejemplos de una falla de alerta de memoria:
En el siguiente ejemplo, se habilitó e inició el monitor de estado de DCGM con una comprobación posterior de todas las GPU instaladas en el servidor. Puede ver que la GPU3 produjo una advertencia sobre los BBE (errores de bit único) y el controlador que desea retirar la dirección de memoria afectada.
Mandar: dcgmi health -s a (esto inicia el servicio de salud y la "a" le dice que mire todo)
Mandar: dcgmi health -c (esto comprueba todas las GPU detectadas e informa sobre ellas)
Ejemplo de comando de DCGMI

En otro lugar, puede ver cuáles son las fallas de memoria en el resultado a continuación. Editado para mostrar solo los elementos relacionados con la memoria, podemos ver que la GPU encontró 3,081 SBE, con un recuento agregado de por vida de 6,161. También vemos que la GPU tiene una página retirada de SBE anterior con una lista negra de páginas pendientes adicional.
Otro lugar donde puede ver cuáles son las fallas de memoria

En caso de que vea fallas de memoria en las GPU, se debe restablecer el dispositivo en sí. Esto se logra mediante un reinicio de todo el sistema o mediante la emisión del restablecimiento de la GPU nvidia-smi en el dispositivo.
Una vez descargado el controlador, se asigna la dirección de memoria de la lista negra marcada. Cuando el controlador se vuelve a cargar, la GPU obtiene una nueva tabla de direcciones con las direcciones afectadas bloqueadas, similar a la PPR en las CPU Intel.
Si no se restablece la GPU, a menudo se producirá un aumento de los contadores volátiles y agregados. Esto se debe a que la GPU aún permite usar esa dirección afectada, por lo que cada vez que se presiona, los contadores aumentan.

Si aún sospecha que hay fallas en una o más GPU, ejecute los resultados de NVIDIA (629 diagnósticos) para realizar una prueba más detallada en la GPU de destino.

**ASEGÚRESE DE UTILIZAR LOS CAMPOS MÁS RECIENTES Y CORRECTOS PARA LA GPU INSTALADA; ESTO ES FUNDAMENTAL**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Article Number: 000219485

Article Type: How To

Last Modified: 27 May 2025

Version: 5

Check if your device is covered by Support Services.

PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos

Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ...

Instructions

Cómo instalar DCGM en Linux:

Características de DCGM:

Instrucciones de inicio rápido:

Cómo ejecutar DCGM:

Ejemplo 1:

Ejemplo 2:

Ejemplo 3:

Ejemplo 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos

Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ... View More View Less

Detailed Article

Instructions

Affected Products

Instructions

Cómo instalar DCGM en Linux:

Características de DCGM:

Instrucciones de inicio rápido:

Cómo ejecutar DCGM:

Ejemplo 1:

Ejemplo 2:

Ejemplo 3:

Ejemplo 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ...