XE-järjestelmät: Pakettien asentaminen DCGMI-vianmääritystä varten. RHEL Kivinen

Podsumowanie: DCGM:n (NVIDIA Data Center GPU Manager) asentaminen Linuxiin DCGMI-lokien keräämiseksi vianmääritystä varten. RHEl/Kivinen

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Edellytykset
DCGM:n suorittamiseksi kohdejärjestelmässä on oltava seuraavat NVIDIA-komponentit, jotka on lueteltu riippuvuusjärjestyksessä: Tuetut NVIDIA Datacenter -ajurit
-
HGX (Hyperscale Graphics Extension) -järjestelmissä Fabric Manager ja NVSwitch Configuration and Query (NSCQ) -paketit
- DCGM Runtime ja SDK

Red Hat- tai Rocky-julkaisut:

HUOMAUTUS: Näyttökuvat ovat vain viitteellisiä, ja havaituissa tuloksissa voi olla eroja.


Asenna säilön metatiedot ja CUDA GPG -avain:
[Korvaa x86_64 arm64:n sanalla "sbsa" tai tarvittaessa komennolla "ppc64le" sanalle ppc64le. Poista lainausmerkit]
Määritä distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuaalinen tulostus päätteessä 2 komennosta arkiston metatietojen ja CUDA-GPG-avaimen asentamiseen

Päivitä säilön metatiedot.

sudo dnf clean expire-cache

Pääte käynnissä ja komennon

Asenna DCGM.

sudo dnf install -y datacenter-gpu-manager

Pääte, joka suorittaa komennon

HGX-järjestelmissä (A100/A800 ja H100/H800) sinun on asennettava NVIDIA Switch Configuration, jos haluat tehdä kyselyn NVSwitcheille. Tee DCGM-kysely NSCQ-kirjastosta luetellaksesi NVSwitchit ja tarjotaksesi telemetriatietoja kytkimille. NSCQ:n on vastattava järjestelmään asennettua ajuriversiohaaraa (XXX). Korvaa XXX tarvittavalla ohjainhaaralla alla olevissa komennoissa.

sudo dnf module install nvidia-driver:XXX/fm

 

Tee ajuriversion käyttöjärjestelmäkysely:

nvidia-smi



Tässä esimerkissä käytetään seuraavaa komentoa, koska ajuriversiomme on 550:

sudo dnf module install nvidia-driver:550/fm

Käynnissä olevan

Ota DCGM systemd -palvelu käyttöön (uudelleenkäynnistyksen yhteydessä) ja käynnistä nyt:

sudo systemctl --now enable nvidia-dcgm

Visuaalinen esitys komennosta

Tarkista asennus tekemällä kysely järjestelmälle dcgmi:n avulla. Sinun pitäisi nähdä luettelo kaikista tuetuista GPU: ista (ja kaikista NVSwitcheistä), jotka löytyvät järjestelmästä: (kytkin on pieni L-kirjain)
DCGMI-löytö -L 

dcgmi discovery -l 

[Alla olevassa esimerkissä ei ole NvSwitchejä, mutta kenttään täytetään tiedot, jos niitä on tai jos niitä havaitaan.]
Komennon

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.