PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos

Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Cómo instalar DCGM en Linux:

Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
https://developer.nvidia.com/dcgm#DownloadsEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
https://github.com/NVIDIA/DCGMGuía del usuario y de instalación de DCGM 3.3Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

 

Instalación de la versión más reciente de DCGM
Al descargar y utilizar el software, acepta cumplir plenamente con los términos y condiciones de la licencia Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.de NVIDIA DCGM.
Se recomienda utilizar el controlador de centro de datos NVIDIA R450+ más reciente que se puede descargar desde la página Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.Descargas de controladores NVIDIA.
Como método recomendado, instale DCGM directamente desde los repositorios de red de CUDA. Las versiones anteriores de DCGM también están disponibles en los repositorios.

 

Características de DCGM:

  • Monitoreo del comportamiento de la GPU
  • Administración de la configuración de GPU
  • Supervisión de la política de GPU
  • Estado y diagnóstico de la GPU
  • Contabilidad de GPU y estadísticas de procesos
  • Configuración y monitoreo de NVSwitch

 

Instrucciones de inicio rápido:

LTS de
UbuntuConfigure los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación es para Ubuntu 20.04 en x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

Instale DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
Configuración de los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación corresponde a RHEL 8 en x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

Instale DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

Cómo ejecutar DCGM:

Datacenter GPU Manager (DCGM) es una manera más rápida para que los clientes prueben las GPU desde el SO. Hay cuatro niveles de pruebas. Realice la prueba de nivel 4 para obtener los resultados más detallados. Por lo general, tarda alrededor de 1 hora y 30 minutos, pero esto puede variar según el tipo y la cantidad de GPU. La herramienta permite que el cliente configure las pruebas para que se ejecuten automáticamente y alerten al cliente. Puedes encontrar más información al respecto en este enlaceEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.. Le recomendamos que utilice siempre la última versión, la versión 3.3 es la última compilación.

 

 

Ejemplo 1:

Comando: dcgmi diag -r 1
Comando: ejemplo de dcgmi diag -r 1

 

 

Ejemplo 2:

Comando: dcgmi diag -r 2
Comando: ejemplo de dcgmi diag -r 2

Ejemplo 3:

Comando: dcgm diag -r 3
Comando: ejemplo de dcgm diag -r 3

 

Ejemplo 4:

Comando: dcgm diag -r 4
Comando: ejemplo de dcgm diag -r 4

 

Es posible que el diagnóstico omita algunos errores debido a su naturaleza de nicho, la especificidad de la carga de trabajo o la necesidad de tiempos de ejecución extendidos para detectarlos.
Si ve un error, investigue para comprender completamente su naturaleza.
Comience por extraer el comando nvidia-bug-report.sh (nativo solo para el sistema operativo Linux, sin Windows) y revise el archivo de salida.

 

Ejemplos de una falla de alerta de memoria:
En el siguiente ejemplo, se habilitó e inició el monitor de estado de DCGM con una comprobación posterior de todas las GPU instaladas en el servidor. Puede ver que la GPU3 produjo una advertencia sobre los BBE (errores de bit único) y el controlador que desea retirar la dirección de memoria afectada.
Mandar: dcgmi health -s a (esto inicia el servicio de salud y la "a" le dice que mire todo)
Mandar: dcgmi health -c (esto comprueba todas las GPU detectadas e informa sobre ellas)
Ejemplo de comando de DCGMI

 

En otro lugar, puede ver cuáles son las fallas de memoria en el resultado a continuación. Editado para mostrar solo los elementos relacionados con la memoria, podemos ver que la GPU encontró 3,081 SBE, con un recuento agregado de por vida de 6,161. También vemos que la GPU tiene una página retirada de SBE anterior con una lista negra de páginas pendientes adicional.
Otro lugar donde puede ver cuáles son las fallas de memoria

 

En caso de que vea fallas de memoria en las GPU, se debe restablecer el dispositivo en sí. Esto se logra mediante un reinicio de todo el sistema o mediante la emisión del restablecimiento de la GPU nvidia-smi en el dispositivo.
Una vez descargado el controlador, se asigna la dirección de memoria de la lista negra marcada. Cuando el controlador se vuelve a cargar, la GPU obtiene una nueva tabla de direcciones con las direcciones afectadas bloqueadas, similar a la PPR en las CPU Intel.
Si no se restablece la GPU, a menudo se producirá un aumento de los contadores volátiles y agregados. Esto se debe a que la GPU aún permite usar esa dirección afectada, por lo que cada vez que se presiona, los contadores aumentan.

 

Si aún sospecha que hay fallas en una o más GPU, ejecute los resultados de NVIDIA (629 diagnósticos) para realizar una prueba más detallada en la GPU de destino.

 

**ASEGÚRESE DE UTILIZAR LOS CAMPOS MÁS RECIENTES Y CORRECTOS PARA LA GPU INSTALADA; ESTO ES FUNDAMENTAL**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.