Systèmes XE : Comment installer des packages pour le dépannage DCGMI. RHEL Rocky

摘要: Procédure d’installation de DCGM (NVIDIA Data Center GPU Manager) sous Linux pour collecter les journaux DCGMI à des fins de dépannage. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Conditions préalables
Pour exécuter DCGM, le système cible doit inclure les composants NVIDIA suivants, répertoriés dans l’ordre des dépendances
:
- Pilotes NVIDIA Datacenter pris en charge - Sur les systèmes HGX (Hyperscale Graphics Extension), packages Fabric Manager et NVSwitch Configuration and Query (NSCQ)
- DCGM Runtime et SDK

Pour les versions Red Hat ou Rocky :

Remarque : Les captures d’écran sont fournies à titre de référence uniquement, et les résultats observés peuvent présenter quelques différences.


Installez les métadonnées du référentiel et la clé GPG CUDA :
[Remplacez x86_64 par « sbsa » pour arm64 ou remplacez par « ppc64le » pour ppc64le si nécessaire. Supprimer les guillemets]
Déterminer la distribution :

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Sortie visuelle dans le terminal des 2 commandes d’installation des métadonnées du référentiel et de la clé GPG CUDA

Mettez à jour les métadonnées du référentiel.

sudo dnf clean expire-cache

Terminal en cours d’exécution et le résultat de la commande « sudo dnf clean expire-cache »

Installez maintenant DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal exécutant la commande « sudo dnf install -y datacenter-gpu-manager » et la sortie correspondante.

Sur les systèmes HGX (A100/A800 et H100/H800), vous devez installer la configuration du commutateur NVIDIA si vous souhaitez interroger les NVSwitches. Interrogez la bibliothèque NSCQ pour DCGM afin d’énumérer les NVSwitches et de fournir la télémétrie pour les commutateurs. NSCQ doit correspondre à la branche de version du pilote (XXX) installée sur le système. Remplacez XXX par la branche de pilote nécessaire dans les commandes ci-dessous.

sudo dnf module install nvidia-driver:XXX/fm

 

Interrogez le système d’exploitation pour connaître la version du pilote :

nvidia-smi

Sortie terminale de la commande « nvidia-smi ». En particulier, la version du pilote est 550.54.14.

Pour cet exemple, nous utilisons la commande suivante, car la version de notre pilote est 550 :

sudo dnf module install nvidia-driver:550/fm

Sortie terminale de l’exécution de « sudo dnf module install nvidia-driver :550/fm »

Activez le service systemd DCGM (au redémarrage) et démarrez maintenant :

sudo systemctl --now enable nvidia-dcgm

Représentation visuelle de « sudo systemctl --now enable nvidia-dcgm » en cours d’exécution dans le terminal.

Pour vérifier l’installation, utilisez dcgmi pour interroger le système. Vous devriez voir une liste de tous les processeurs graphiques pris en charge (et de toutes les NVSwitch) trouvés dans le système : (le commutateur est un L minuscule)
DCGMI Discovery -L 

dcgmi discovery -l 

[L’exemple ci-dessous ne comporte pas de commutateurs NV, mais le champ est renseigné avec des détails s’ils sont présents ou détectés.]
Sortie de terminal de l’exécution de « dcgmi discovery -l »

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。