Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

Podsumowanie: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK

W przypadku wydań Red Hat lub Rocky:

UWAGA: Zrzuty ekranu mają jedynie charakter poglądowy, a obserwowane wyniki mogą się różnić.


Zainstaluj metadane repozytorium i klucz CUDA GPG:
[W razie potrzeby zamień x86_64 na "sbsa" dla arm64 lub na "ppc64le" na ppc64le. Usuń cudzysłowy]
Określ dystrybucję:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Wizualne wyświetlanie w terminalu 2 poleceń do instalacji metadanych repozytorium i klucza CUDA GPG

Zaktualizuj metadane repozytorium.

sudo dnf clean expire-cache

Terminal jest uruchomiony, a wynik polecenia

Teraz zainstaluj DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal z uruchomieniem polecenia

W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.

sudo dnf module install nvidia-driver:XXX/fm

 

Zapytaj system operacyjny o wersję sterownika:

nvidia-smi

Końcowe wyjście polecenia

W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:

sudo dnf module install nvidia-driver:550/fm

Dane wyjściowe terminala po uruchomieniu polecenia

Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:

sudo systemctl --now enable nvidia-dcgm

Wizualna reprezentacja uruchamiania w terminalu polecenia

Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l 

dcgmi discovery -l 

[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]
Dane wyjściowe terminala po uruchomieniu polecenia

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.