XE-systemen: Pakketten installeren voor het oplossen van problemen met DCGMI. RHEL Rocky

Podsumowanie: Instructies voor DCGM-installatie (NVIDIA Data Center GPU Manager) in Linux voor het verzamelen van DCGMI-logboeken voor probleemoplossing. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Vereisten
Om DCGM uit te voeren, moet het doelsysteem de volgende NVIDIA-componenten bevatten, vermeld in afhankelijkheidsvolgorde:
- Ondersteunde NVIDIA Datacenter-stuurprogramma's

- Op HGX-systemen (Hyperscale Graphics Extension) zijn de Fabric Manager en NVSwitch Configuration and Query (NSCQ)-pakketten - DCGM Runtime en SDK

Voor Red Hat- of Rocky-releases:

OPMERKING: Screenshots zijn alleen ter referentie en de waargenomen resultaten kunnen enkele verschillen vertonen.


Installeer de metadata van de repository en de CUDA GPG-sleutel:
[Vervang x86_64 door 'sbsa' voor arm64 of vervang door 'ppc64le' voor ppc64le, indien nodig. Verwijder aanhalingstekens]
Bepaal Distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuele uitvoer in terminal van de 2 commando's voor het installeren van repository-metadata en de CUDA GPG-sleutel

Werk de metadata van de repository bij.

sudo dnf clean expire-cache

Terminal draait en de output van het commando

Installeer nu DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal voert de opdracht

Op HGX systemen (A100/A800 en H100/H800) moet u de NVIDIA Switch Configuration installeren als u de NVSwitches wilt pollen. Voer een query uit op de NSCQ-bibliotheek voor DCGM om de NVSwitches op te sommen en telemetrie voor switches te leveren. NSCQ moet overeenkomen met de driverversiebranch (XXX) die op het systeem is geïnstalleerd. Vervang XXX door de benodigde driverbranch in de onderstaande opdrachten.

sudo dnf module install nvidia-driver:XXX/fm

 

Vraag het besturingssysteem om de driverversie:

nvidia-smi

Terminaluitvoer van de opdracht

In dit voorbeeld gebruiken we de volgende opdracht, omdat de driverversie 550 is:

sudo dnf module install nvidia-driver:550/fm

Terminaluitvoer van het uitvoeren van

Schakel de DCGM systemd-service in (bij opnieuw opstarten) en begin nu:

sudo systemctl --now enable nvidia-dcgm

Visuele weergave van

Gebruik dcgmi om de installatie te controleren om query's uit te voeren op het systeem. Je zou een lijst moeten zien van alle ondersteunde GPU's (en eventuele NVSwitches) die in het systeem te vinden zijn: (de schakelaar is een kleine letter L)
DCGMI Discovery -L 

dcgmi discovery -l 

[Voorbeeld hieronder heeft geen NvSwitches, maar het veld wordt gevuld met details als ze aanwezig zijn of gedetecteerd worden.]
Terminaluitgang van het uitvoeren van

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.