Sistemas XE: Cómo instalar paquetes para la solución de problemas de DCGMI. RHEL Rocky

摘要: Instrucciones para la instalación de DCGM (NVIDIA Data Center GPU Manager) en Linux a fin de recopilar registros de DCGMI para la solución de problemas. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Requisitos
previos: para ejecutar DCGM, el sistema de destino debe incluir los siguientes componentes de NVIDIA, enumerados en orden de dependencia:
- Controladores de centro de datos NVIDIA compatibles
: en sistemas HGX (extensión de gráficos de hiperescala), el administrador de fabric y los paquetes
de configuración y consulta de NVSwitch (NSCQ), tiempo de ejecución de DCGM y SDK

Para versiones de Red Hat o Rocky:

NOTA: Las capturas de pantalla son solo de referencia y los resultados observados pueden tener algunas diferencias.


Instale los metadatos del repositorio y la clave GPG de CUDA:
[Reemplace x86_64 con "sbsa" para arm64 o reemplácelo con "ppc64le" para ppc64le si es necesario. Eliminar comillas]
Determinar distribución:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Salida visual en el terminal de los 2 comandos para instalar los metadatos del repositorio y la clave GPG de CUDA

Actualice los metadatos del repositorio.

sudo dnf clean expire-cache

Terminal en ejecución y el resultado del comando

Ahora, instale DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal ejecutando el comando

En los sistemas HGX (A100/A800 y H100/H800), debe instalar la configuración del switch NVIDIA si desea sondear las NVSwitches. Consulte DCGM en la biblioteca de NSCQ para enumerar los NVSwitches y proporcionar telemetría para los switches. NSCQ debe coincidir con la rama de versión del controlador (XXX) instalada en el sistema. Sustituya XXX por la rama de controlador necesaria en los siguientes comandos.

sudo dnf module install nvidia-driver:XXX/fm

 

Consulte el sistema operativo para conocer la versión del controlador:

nvidia-smi

Salida de terminal del comando

Para este ejemplo, usamos el siguiente comando, ya que la versión de nuestro controlador se muestra como 550:

sudo dnf module install nvidia-driver:550/fm

Salida de terminal de la ejecución de

Habilite el servicio systemd de DCGM (tras el reinicio) e inícielo ahora:

sudo systemctl --now enable nvidia-dcgm

Representación visual de

Para verificar la instalación, utilice dcgmi para consultar el sistema. Debería ver una lista de todas las GPU compatibles (y cualquier NVSwitches) que se encuentran en el sistema: (el switch es una L minúscula)
Detección de DCGMI: L 

dcgmi discovery -l 

[El siguiente ejemplo no tiene NvSwitches, pero el campo se completa con detalles sobre si están presentes o se detectan.]
Salida de terminal de la ejecución de

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。