PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos
Summary: Visión general sobre cómo instalar la herramienta DCGM (administrador de GPU del centro de datos) de NVIDIA en Linux (RHEL/Ubuntu) y cómo ejecutar y comprender la aplicación de diagnóstico. ...
Instructions
Cómo instalar DCGM en Linux:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMGuía del usuario y de instalación de DCGM 3.3
Instalación de la versión más reciente de DCGM
Al descargar y utilizar el software, acepta cumplir plenamente con los términos y condiciones de la licencia de NVIDIA DCGM.
Se recomienda utilizar el controlador de centro de datos NVIDIA R450+ más reciente que se puede descargar desde la página Descargas de controladores NVIDIA.
Como método recomendado, instale DCGM directamente desde los repositorios de red de CUDA. Las versiones anteriores de DCGM también están disponibles en los repositorios.
Características de DCGM:
- Monitoreo del comportamiento de la GPU
- Administración de la configuración de GPU
- Supervisión de la política de GPU
- Estado y diagnóstico de la GPU
- Contabilidad de GPU y estadísticas de procesos
- Configuración y monitoreo de NVSwitch
Instrucciones de inicio rápido:
LTS de
UbuntuConfigure los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación es para Ubuntu 20.04 en x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Instale DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
Configuración de los metadatos del repositorio de red CUDA, clave GPG El ejemplo que se muestra a continuación corresponde a RHEL 8 en x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Instale DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
Cómo ejecutar DCGM:
Datacenter GPU Manager (DCGM) es una manera más rápida para que los clientes prueben las GPU desde el SO. Hay cuatro niveles de pruebas. Realice la prueba de nivel 4 para obtener los resultados más detallados. Por lo general, tarda alrededor de 1 hora y 30 minutos, pero esto puede variar según el tipo y la cantidad de GPU. La herramienta permite que el cliente configure las pruebas para que se ejecuten automáticamente y alerten al cliente. Puedes encontrar más información al respecto en este enlace. Le recomendamos que utilice siempre la última versión, la versión 3.3 es la última compilación.
Ejemplo 1:
Comando: dcgmi diag -r 1
Ejemplo 2:
Comando: dcgmi diag -r 2
Ejemplo 3:
Comando: dcgm diag -r 3
Ejemplo 4:
Comando: dcgm diag -r 4
Es posible que el diagnóstico omita algunos errores debido a su naturaleza de nicho, la especificidad de la carga de trabajo o la necesidad de tiempos de ejecución extendidos para detectarlos.
Si ve un error, investigue para comprender completamente su naturaleza.
Comience por extraer el comando nvidia-bug-report.sh (nativo solo para el sistema operativo Linux, sin Windows) y revise el archivo de salida.
Ejemplos de una falla de alerta de memoria:
En el siguiente ejemplo, se habilitó e inició el monitor de estado de DCGM con una comprobación posterior de todas las GPU instaladas en el servidor. Puede ver que la GPU3 produjo una advertencia sobre los BBE (errores de bit único) y el controlador que desea retirar la dirección de memoria afectada.
Mandar: dcgmi health -s a (esto inicia el servicio de salud y la "a" le dice que mire todo)
Mandar: dcgmi health -c (esto comprueba todas las GPU detectadas e informa sobre ellas)
En otro lugar, puede ver cuáles son las fallas de memoria en el resultado a continuación. Editado para mostrar solo los elementos relacionados con la memoria, podemos ver que la GPU encontró 3,081 SBE, con un recuento agregado de por vida de 6,161. También vemos que la GPU tiene una página retirada de SBE anterior con una lista negra de páginas pendientes adicional.
En caso de que vea fallas de memoria en las GPU, se debe restablecer el dispositivo en sí. Esto se logra mediante un reinicio de todo el sistema o mediante la emisión del restablecimiento de la GPU nvidia-smi en el dispositivo.
Una vez descargado el controlador, se asigna la dirección de memoria de la lista negra marcada. Cuando el controlador se vuelve a cargar, la GPU obtiene una nueva tabla de direcciones con las direcciones afectadas bloqueadas, similar a la PPR en las CPU Intel.
Si no se restablece la GPU, a menudo se producirá un aumento de los contadores volátiles y agregados. Esto se debe a que la GPU aún permite usar esa dirección afectada, por lo que cada vez que se presiona, los contadores aumentan.
Si aún sospecha que hay fallas en una o más GPU, ejecute los resultados de NVIDIA (629 diagnósticos) para realizar una prueba más detallada en la GPU de destino.
**ASEGÚRESE DE UTILIZAR LOS CAMPOS MÁS RECIENTES Y CORRECTOS PARA LA GPU INSTALADA; ESTO ES FUNDAMENTAL**.