Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

摘要: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK

W przypadku wydań Red Hat lub Rocky:

UWAGA: Zrzuty ekranu mają jedynie charakter poglądowy, a obserwowane wyniki mogą się różnić.


Zainstaluj metadane repozytorium i klucz CUDA GPG:
[W razie potrzeby zamień x86_64 na "sbsa" dla arm64 lub na "ppc64le" na ppc64le. Usuń cudzysłowy]
Określ dystrybucję:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Wizualne wyświetlanie w terminalu 2 poleceń do instalacji metadanych repozytorium i klucza CUDA GPG

Zaktualizuj metadane repozytorium.

sudo dnf clean expire-cache

Terminal jest uruchomiony, a wynik polecenia

Teraz zainstaluj DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal z uruchomieniem polecenia

W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.

sudo dnf module install nvidia-driver:XXX/fm

 

Zapytaj system operacyjny o wersję sterownika:

nvidia-smi

Końcowe wyjście polecenia

W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:

sudo dnf module install nvidia-driver:550/fm

Dane wyjściowe terminala po uruchomieniu polecenia

Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:

sudo systemctl --now enable nvidia-dcgm

Wizualna reprezentacja uruchamiania w terminalu polecenia

Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l 

dcgmi discovery -l 

[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]
Dane wyjściowe terminala po uruchomieniu polecenia

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。