Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі
Podsumowanie: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі
Instrukcje
Передумови
Для запуску DCGM цільова система повинна включати наступні компоненти NVIDIA, перераховані в порядку залежностей:
- Підтримувані драйвери
NVIDIA Datacenter- У системах HGX (Hyperscale Graphics Extension) пакети
Fabric Manager і NVSwitch Configuration and Query (NSCQ)- DCGM Runtime і SDK
Для релізів Red Hat або Rocky:
Встановіть метадані сховища та ключ CUDA GPG:
[Замініть x86_64 на "sbsa" для arm64 або замініть на "ppc64le" для ppc64le, якщо потрібно. Вилучити лапки]
Визначте дистрибутив:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Оновіть метадані репозиторію.
sudo dnf clean expire-cache

Тепер встановіть DCGM.
sudo dnf install -y datacenter-gpu-manager

У системах HGX (A100/A800 і H100/H800) ви повинні встановити конфігурацію NVIDIA Switch, якщо ви хочете опитати NVSwitches. Надішліть запит до бібліотеки NSCQ для DCGM, щоб перерахувати NVSwitches і надати телеметрію для комутаторів. NSCQ повинен збігатися з гілкою версії драйвера (XXX), встановленої в системі. Замініть XXX потрібною гілкою драйвера в командах нижче.
sudo dnf module install nvidia-driver:XXX/fm
Запитайте версію драйвера в операційній системі:
nvidia-smi

Для цього прикладу ми використовуємо наступну команду, оскільки наша версія драйвера показує як 550:
sudo dnf module install nvidia-driver:550/fm

Увімкніть службу systemd DCGM (при перезавантаженні) і запустіть зараз:
sudo systemctl --now enable nvidia-dcgm

Щоб перевірити встановлення, скористайтеся dcgmi для запиту до системи. Ви повинні побачити список усіх підтримуваних графічних процесорів (і будь-яких NVSwitches), знайдених у системі: (перемикач маленької літери L)
dcgmi discovery -l
dcgmi discovery -l
[Приклад нижче не має NvSwitches, але поле заповнюється деталями, якщо вони присутні або виявлені.]