XE Sistemleri: DCGMI sorunlarını gidermek için paketleri yükleme. RHEL Kayalık

Podsumowanie: Sorun giderme için DCGMI günlüklerini toplamak amacıyla Linux içinde DCGM (NVIDIA Data Center GPU Manager) kurulumu için yöntemler. RHEl/Kayalık

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Ön Koşullar
DCGM'yi çalıştırmak için hedef sistemin bağımlılık sırasına göre listelenen aşağıdaki NVIDIA bileşenlerini içermesi gerekir:
- Desteklenen NVIDIA Veri Merkezi Sürücüleri
- HGX (Hiper Ölçekli Grafik Uzantısı) sistemlerinde, Yapı Yöneticisi ve NVSwitch Yapılandırma ve Sorgu (NSCQ) paketleri
- DCGM Çalışma Zamanı ve SDK

Red Hat veya Rocky sürümleri için:

NOT: Ekran görüntüleri yalnızca referans amaçlıdır ve gözlemlenen sonuçlarda bazı farklılıklar olabilir.


Depo meta verilerini ve CUDA GPG anahtarını yükleyin:
[x86_64 arm64 için "sbsa" ile değiştirin veya gerekirse ppc64le için "ppc64le" ile değiştirin. Tırnak işaretlerini kaldır]
Dağıtımı Belirle:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Depo meta verilerini ve CUDA GPG anahtarını yüklemek için 2 komutun terminalinde görsel çıktı

Depo meta verilerini güncelleştirin.

sudo dnf clean expire-cache

Terminal çalışıyor ve

Şimdi DCGM'yi yükleyin.

sudo dnf install -y datacenter-gpu-manager

sudo dnf install -y datacenter-gpu-manager

HGX sistemlerinde (A100/A800 ve H100/H800), NVSwitches'i yoklamak istiyorsanız NVIDIA Anahtar Yapılandırmasını yüklemeniz gerekir. NVSwitches'i numaralandırmak ve anahtarlar için telemetri sağlamak üzere DCGM'nin NSCQ kitaplığını sorgulayın. NSCQ, sistemde yüklü olan sürücü sürümü dalı (XXX) ile eşleşmelidir. Aşağıdaki komutlarda XXX yerine gerekli sürücü dalını yazın.

sudo dnf module install nvidia-driver:XXX/fm

 

Sürücü sürümü için işletim sistemini sorgulayın:

nvidia-smi

nvidia-smi

Sürücü sürümümüz 550 olduğundan bu örnekte aşağıdaki komutu kullanıyoruz:

sudo dnf module install nvidia-driver:550/fm



DCGM systemd hizmetini etkinleştirin (yeniden önyükleme sırasında) ve şimdi başlayın:

sudo systemctl --now enable nvidia-dcgm

Terminalde çalıştırılan

Yüklemeyi doğrulamak için, sistemi sorgulamak üzere dcgmi kullanın. Sistemde bulunan tüm desteklenen GPU'ların (ve tüm NVSwitch'lerin) bir listesini görmeniz gerekir: (anahtar küçük harf L'dir)
DCGMI Bulma -L 

dcgmi discovery -l 

[Aşağıdaki örnekte NvSwitch yoktur ancak alan, varsa veya algılandıysa ayrıntılarla doldurulur.]
dcgmi discovery -l

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.