Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі

Podsumowanie: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Передумови
Для запуску DCGM цільова система повинна включати наступні компоненти NVIDIA, перераховані в порядку залежностей:
- Підтримувані драйвери
NVIDIA Datacenter- У системах HGX (Hyperscale Graphics Extension) пакети
Fabric Manager і NVSwitch Configuration and Query (NSCQ)- DCGM Runtime і SDK

Для релізів Red Hat або Rocky:

ПРИМІТКА: Скріншоти наведені лише для довідки, і спостережувані результати можуть мати деякі відмінності.


Встановіть метадані сховища та ключ CUDA GPG:
[Замініть x86_64 на "sbsa" для arm64 або замініть на "ppc64le" для ppc64le, якщо потрібно. Вилучити лапки]
Визначте дистрибутив:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Візуальне виведення в терміналі 2-х команд для встановлення метаданих репозиторію та ключа CUDA GPG

Оновіть метадані репозиторію.

sudo dnf clean expire-cache

Запуск терміналу та виведення команди

Тепер встановіть DCGM.

sudo dnf install -y datacenter-gpu-manager

Термінал виконуємо команду

У системах HGX (A100/A800 і H100/H800) ви повинні встановити конфігурацію NVIDIA Switch, якщо ви хочете опитати NVSwitches. Надішліть запит до бібліотеки NSCQ для DCGM, щоб перерахувати NVSwitches і надати телеметрію для комутаторів. NSCQ повинен збігатися з гілкою версії драйвера (XXX), встановленої в системі. Замініть XXX потрібною гілкою драйвера в командах нижче.

sudo dnf module install nvidia-driver:XXX/fm

 

Запитайте версію драйвера в операційній системі:

nvidia-smi

Кінцевий висновок команди

Для цього прикладу ми використовуємо наступну команду, оскільки наша версія драйвера показує як 550:

sudo dnf module install nvidia-driver:550/fm

Вихід терміналу запущеного

Увімкніть службу systemd DCGM (при перезавантаженні) і запустіть зараз:

sudo systemctl --now enable nvidia-dcgm

Візуальне представлення того, що

Щоб перевірити встановлення, скористайтеся dcgmi для запиту до системи. Ви повинні побачити список усіх підтримуваних графічних процесорів (і будь-яких NVSwitches), знайдених у системі: (перемикач маленької літери L)
dcgmi discovery -l 

dcgmi discovery -l 

[Приклад нижче не має NvSwitches, але поле заповнюється деталями, якщо вони присутні або виявлені.]
Вихідні дані термінала запуску

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.