Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky

摘要: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Предварительные
требования Для запуска DCGM целевая система должна включать следующие компоненты NVIDIA, перечисленные в порядке зависимостей:
- Поддерживаемые драйверы
NVIDIA для центров обработки данных. - В системах HGX (Hyperscale Graphics Extension) пакеты
Fabric Manager и NVSwitch Configuration and Query (NSCQ) - DCGM Runtime и SDK

Для релизов Red Hat или Rocky:

ПРИМЕЧАНИЕ. Снимки экрана приведены только для справки, и наблюдаемые результаты могут иметь некоторые отличия.


Установите метаданные репозитория и ключ CUDA GPG:
[При необходимости замените x86_64 на «sbsa» для arm64 или на «ppc64le» для ppc64le. Уберите кавычки]
Определите дистрибутив:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Визуальный вывод в терминале 2-х команд для установки метаданных репозитория и ключа CUDA GPG

Обновите метаданные репозитория.

sudo dnf clean expire-cache

Терминал запущен, и вывод команды «sudo dnf clean expire-cache»

Теперь установите DCGM.

sudo dnf install -y datacenter-gpu-manager

В терминале выполняется команда «sudo dnf install -y datacenter-gpu-manager» и соответствующий вывод.

В системах HGX (A100/A800 и H100/H800) необходимо установить конфигурацию коммутатора NVIDIA, если вы хотите опросить NVSwitches. Запросите библиотеку NSCQ для DCGM, чтобы перечислить NVSwitches и предоставить данные телеметрии для коммутаторов. NSCQ должен соответствовать ветви версий драйверов (XXX), установленной в системе. Замените XXX нужной ветвью драйвера в командах ниже.

sudo dnf module install nvidia-driver:XXX/fm

 

Запросите версию драйвера у операционной системы:

nvidia-smi

Вывод команды «nvidia-smi» через терминал. Особо отметим, что версия драйвера — 550.54.14.

В этом примере мы используем следующую команду, так как версия драйвера отображается как 550:

sudo dnf module install nvidia-driver:550/fm

Вывод терминала при выполнении команды «sudo dnf module install nvidia-driver:550/fm»

Включите службу DCGM systemd (при перезагрузке) и начните сейчас:

sudo systemctl --now enable nvidia-dcgm

Визуальное представление команды «sudo systemctl --now enable nvidia-dcgm», выполняемой в терминале.

Чтобы проверить установку, используйте dcgmi для запроса системы. Вы должны увидеть список всех поддерживаемых графических процессоров (и всех NVSwitch), найденных в системе: (переключатель — L) в нижнем регистре)
DCGMI Discovery -L 

dcgmi discovery -l 

[В приведенном ниже примере NvSwitch не указаны, но поле заполняется подробными сведениями, если они присутствуют или обнаружены.]
Вывод терминала с помощью команды «dcgmi discovery -l»

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。