XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky

Podsumowanie: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Förutsättningar
För att köra DCGM måste målsystemet innehålla följande NVIDIA-komponenter, listade i beroendeordning:
– Drivrutiner
för NVIDIA Datacenter som stöds – På HGX-system (Hyperscale Graphics Extension), Fabric Manager- och NVSwitch Configuration and Query-paket
(NSCQ) – DCGM Runtime och SDK

För Red Hat- eller Rocky-versioner:

Obs! Skärmbilder är endast för referens och observerade resultat kan ha vissa skillnader.


Installera lagringsplatsens metadata och CUDA GPG-nyckeln:
[Ersätt x86_64 med "sbsa" för arm64 eller ersätt med "ppc64le" för ppc64le om det behövs. Ta bort citat]
Bestäm distribution:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuell utdata i terminalen för de 2 kommandona för att installera lagringsplatsens metadata och CUDA GPG-nyckeln

Uppdatera databasens metadata.

sudo dnf clean expire-cache

Terminalen körs och utdata från kommandot

Installera DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal som kör kommandot

På HGX-system (A100/A800 och H100/H800) måste du installera NVIDIA Switch-konfigurationen om du vill avsöka NVSwitches. Fråga NSCQ-biblioteket efter DCGM för att räkna upp NVSwitches och tillhandahålla telemetri för växlar. NSCQ måste matcha drivrutinsversionsgrenen (XXX) som är installerad i systemet. Ersätt XXX med den drivrutinsgren som behövs i kommandona nedan.

sudo dnf module install nvidia-driver:XXX/fm

 

Fråga operativsystemet om drivrutinsversionen:

nvidia-smi

Terminalutmatning för kommandot

I det här exemplet använder vi följande kommando eftersom drivrutinsversionen är 550:

sudo dnf module install nvidia-driver:550/fm

Terminalutdata för körning av

Aktivera DCGM-systemtjänsten (vid omstart) och börja nu:

sudo systemctl --now enable nvidia-dcgm

Visuell representation av

Verifiera installationen genom att använda dcgmi för att skicka en fråga till systemet. Du bör se en lista över alla GPU:er som stöds (och alla NVSwitches) som finns i systemet: (omkopplaren är ett gement L)
DCGMI Discovery -l 

dcgmi discovery -l 

[Exemplet nedan har inte NvSwitchar, men fältet fylls i med information om de finns eller identifieras.]
Terminalutdata för körning av

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.