Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty
Podsumowanie: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky
Instrukcje
Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK
W przypadku wydań Red Hat lub Rocky:
Zainstaluj metadane repozytorium i klucz CUDA GPG:
[W razie potrzeby zamień x86_64 na "sbsa" dla arm64 lub na "ppc64le" na ppc64le. Usuń cudzysłowy]
Określ dystrybucję:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Zaktualizuj metadane repozytorium.
sudo dnf clean expire-cache

Teraz zainstaluj DCGM.
sudo dnf install -y datacenter-gpu-manager

W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.
sudo dnf module install nvidia-driver:XXX/fm
Zapytaj system operacyjny o wersję sterownika:
nvidia-smi

W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:
sudo dnf module install nvidia-driver:550/fm

Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:
sudo systemctl --now enable nvidia-dcgm

Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l
dcgmi discovery -l
[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]