XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky
Podsumowanie: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky
Instrukcje
Förutsättningar
För att köra DCGM måste målsystemet innehålla följande NVIDIA-komponenter, listade i beroendeordning:
– Drivrutiner
för NVIDIA Datacenter som stöds – På HGX-system (Hyperscale Graphics Extension), Fabric Manager- och NVSwitch Configuration and Query-paket
(NSCQ) – DCGM Runtime och SDK
För Red Hat- eller Rocky-versioner:
Installera lagringsplatsens metadata och CUDA GPG-nyckeln:
[Ersätt x86_64 med "sbsa" för arm64 eller ersätt med "ppc64le" för ppc64le om det behövs. Ta bort citat]
Bestäm distribution:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Uppdatera databasens metadata.
sudo dnf clean expire-cache

Installera DCGM.
sudo dnf install -y datacenter-gpu-manager

På HGX-system (A100/A800 och H100/H800) måste du installera NVIDIA Switch-konfigurationen om du vill avsöka NVSwitches. Fråga NSCQ-biblioteket efter DCGM för att räkna upp NVSwitches och tillhandahålla telemetri för växlar. NSCQ måste matcha drivrutinsversionsgrenen (XXX) som är installerad i systemet. Ersätt XXX med den drivrutinsgren som behövs i kommandona nedan.
sudo dnf module install nvidia-driver:XXX/fm
Fråga operativsystemet om drivrutinsversionen:
nvidia-smi

I det här exemplet använder vi följande kommando eftersom drivrutinsversionen är 550:
sudo dnf module install nvidia-driver:550/fm

Aktivera DCGM-systemtjänsten (vid omstart) och börja nu:
sudo systemctl --now enable nvidia-dcgm

Verifiera installationen genom att använda dcgmi för att skicka en fråga till systemet. Du bör se en lista över alla GPU:er som stöds (och alla NVSwitches) som finns i systemet: (omkopplaren är ett gement L)
DCGMI Discovery -l
dcgmi discovery -l
[Exemplet nedan har inte NvSwitchar, men fältet fylls i med information om de finns eller identifieras.]