Systèmes XE : Comment installer des packages pour le dépannage DCGMI. RHEL Rocky
Podsumowanie: Procédure d’installation de DCGM (NVIDIA Data Center GPU Manager) sous Linux pour collecter les journaux DCGMI à des fins de dépannage. RHEl/Rocky
Instrukcje
Conditions préalables
Pour exécuter DCGM, le système cible doit inclure les composants NVIDIA suivants, répertoriés dans l’ordre des dépendances
:
- Pilotes NVIDIA Datacenter pris en charge - Sur les systèmes HGX (Hyperscale Graphics Extension), packages Fabric Manager et NVSwitch Configuration and Query (NSCQ)
- DCGM Runtime et SDK
Pour les versions Red Hat ou Rocky :
Installez les métadonnées du référentiel et la clé GPG CUDA :
[Remplacez x86_64 par « sbsa » pour arm64 ou remplacez par « ppc64le » pour ppc64le si nécessaire. Supprimer les guillemets]
Déterminer la distribution :
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Mettez à jour les métadonnées du référentiel.
sudo dnf clean expire-cache

Installez maintenant DCGM.
sudo dnf install -y datacenter-gpu-manager

Sur les systèmes HGX (A100/A800 et H100/H800), vous devez installer la configuration du commutateur NVIDIA si vous souhaitez interroger les NVSwitches. Interrogez la bibliothèque NSCQ pour DCGM afin d’énumérer les NVSwitches et de fournir la télémétrie pour les commutateurs. NSCQ doit correspondre à la branche de version du pilote (XXX) installée sur le système. Remplacez XXX par la branche de pilote nécessaire dans les commandes ci-dessous.
sudo dnf module install nvidia-driver:XXX/fm
Interrogez le système d’exploitation pour connaître la version du pilote :
nvidia-smi

Pour cet exemple, nous utilisons la commande suivante, car la version de notre pilote est 550 :
sudo dnf module install nvidia-driver:550/fm

Activez le service systemd DCGM (au redémarrage) et démarrez maintenant :
sudo systemctl --now enable nvidia-dcgm

Pour vérifier l’installation, utilisez dcgmi pour interroger le système. Vous devriez voir une liste de tous les processeurs graphiques pris en charge (et de toutes les NVSwitch) trouvés dans le système : (le commutateur est un L minuscule)
DCGMI Discovery -L
dcgmi discovery -l
[L’exemple ci-dessous ne comporte pas de commutateurs NV, mais le champ est renseigné avec des détails s’ils sont présents ou détectés.]