XE Sistemleri: DCGMI sorunlarını gidermek için paketleri yükleme. RHEL Kayalık
Podsumowanie: Sorun giderme için DCGMI günlüklerini toplamak amacıyla Linux içinde DCGM (NVIDIA Data Center GPU Manager) kurulumu için yöntemler. RHEl/Kayalık
Instrukcje
Ön Koşullar
DCGM'yi çalıştırmak için hedef sistemin bağımlılık sırasına göre listelenen aşağıdaki NVIDIA bileşenlerini içermesi gerekir:
- Desteklenen NVIDIA Veri Merkezi Sürücüleri
- HGX (Hiper Ölçekli Grafik Uzantısı) sistemlerinde, Yapı Yöneticisi ve NVSwitch Yapılandırma ve Sorgu (NSCQ) paketleri
- DCGM Çalışma Zamanı ve SDK
Red Hat veya Rocky sürümleri için:
Depo meta verilerini ve CUDA GPG anahtarını yükleyin:
[x86_64 arm64 için "sbsa" ile değiştirin veya gerekirse ppc64le için "ppc64le" ile değiştirin. Tırnak işaretlerini kaldır]
Dağıtımı Belirle:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Depo meta verilerini güncelleştirin.
sudo dnf clean expire-cache

Şimdi DCGM'yi yükleyin.
sudo dnf install -y datacenter-gpu-manager

HGX sistemlerinde (A100/A800 ve H100/H800), NVSwitches'i yoklamak istiyorsanız NVIDIA Anahtar Yapılandırmasını yüklemeniz gerekir. NVSwitches'i numaralandırmak ve anahtarlar için telemetri sağlamak üzere DCGM'nin NSCQ kitaplığını sorgulayın. NSCQ, sistemde yüklü olan sürücü sürümü dalı (XXX) ile eşleşmelidir. Aşağıdaki komutlarda XXX yerine gerekli sürücü dalını yazın.
sudo dnf module install nvidia-driver:XXX/fm
Sürücü sürümü için işletim sistemini sorgulayın:
nvidia-smi

Sürücü sürümümüz 550 olduğundan bu örnekte aşağıdaki komutu kullanıyoruz:
sudo dnf module install nvidia-driver:550/fm

DCGM systemd hizmetini etkinleştirin (yeniden önyükleme sırasında) ve şimdi başlayın:
sudo systemctl --now enable nvidia-dcgm

Yüklemeyi doğrulamak için, sistemi sorgulamak üzere dcgmi kullanın. Sistemde bulunan tüm desteklenen GPU'ların (ve tüm NVSwitch'lerin) bir listesini görmeniz gerekir: (anahtar küçük harf L'dir)
DCGMI Bulma -L
dcgmi discovery -l
[Aşağıdaki örnekte NvSwitch yoktur ancak alan, varsa veya algılandıysa ayrıntılarla doldurulur.]