XE Sistemleri: DCGMI sorunlarını gidermek için paketleri yükleme. RHEL Kayalık

摘要: Sorun giderme için DCGMI günlüklerini toplamak amacıyla Linux içinde DCGM (NVIDIA Data Center GPU Manager) kurulumu için yöntemler. RHEl/Kayalık

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Ön Koşullar
DCGM'yi çalıştırmak için hedef sistemin bağımlılık sırasına göre listelenen aşağıdaki NVIDIA bileşenlerini içermesi gerekir:
- Desteklenen NVIDIA Veri Merkezi Sürücüleri
- HGX (Hiper Ölçekli Grafik Uzantısı) sistemlerinde, Yapı Yöneticisi ve NVSwitch Yapılandırma ve Sorgu (NSCQ) paketleri
- DCGM Çalışma Zamanı ve SDK

Red Hat veya Rocky sürümleri için:

NOT: Ekran görüntüleri yalnızca referans amaçlıdır ve gözlemlenen sonuçlarda bazı farklılıklar olabilir.


Depo meta verilerini ve CUDA GPG anahtarını yükleyin:
[x86_64 arm64 için "sbsa" ile değiştirin veya gerekirse ppc64le için "ppc64le" ile değiştirin. Tırnak işaretlerini kaldır]
Dağıtımı Belirle:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Depo meta verilerini ve CUDA GPG anahtarını yüklemek için 2 komutun terminalinde görsel çıktı

Depo meta verilerini güncelleştirin.

sudo dnf clean expire-cache

Terminal çalışıyor ve

Şimdi DCGM'yi yükleyin.

sudo dnf install -y datacenter-gpu-manager

sudo dnf install -y datacenter-gpu-manager

HGX sistemlerinde (A100/A800 ve H100/H800), NVSwitches'i yoklamak istiyorsanız NVIDIA Anahtar Yapılandırmasını yüklemeniz gerekir. NVSwitches'i numaralandırmak ve anahtarlar için telemetri sağlamak üzere DCGM'nin NSCQ kitaplığını sorgulayın. NSCQ, sistemde yüklü olan sürücü sürümü dalı (XXX) ile eşleşmelidir. Aşağıdaki komutlarda XXX yerine gerekli sürücü dalını yazın.

sudo dnf module install nvidia-driver:XXX/fm

 

Sürücü sürümü için işletim sistemini sorgulayın:

nvidia-smi

nvidia-smi

Sürücü sürümümüz 550 olduğundan bu örnekte aşağıdaki komutu kullanıyoruz:

sudo dnf module install nvidia-driver:550/fm



DCGM systemd hizmetini etkinleştirin (yeniden önyükleme sırasında) ve şimdi başlayın:

sudo systemctl --now enable nvidia-dcgm

Terminalde çalıştırılan

Yüklemeyi doğrulamak için, sistemi sorgulamak üzere dcgmi kullanın. Sistemde bulunan tüm desteklenen GPU'ların (ve tüm NVSwitch'lerin) bir listesini görmeniz gerekir: (anahtar küçük harf L'dir)
DCGMI Bulma -L 

dcgmi discovery -l 

[Aşağıdaki örnekte NvSwitch yoktur ancak alan, varsa veya algılandıysa ayrıntılarla doldurulur.]
dcgmi discovery -l

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。