Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky

Podsumowanie: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Предварительные
требования Для запуска DCGM целевая система должна включать следующие компоненты NVIDIA, перечисленные в порядке зависимостей:
- Поддерживаемые драйверы
NVIDIA для центров обработки данных. - В системах HGX (Hyperscale Graphics Extension) пакеты
Fabric Manager и NVSwitch Configuration and Query (NSCQ) - DCGM Runtime и SDK

Для релизов Red Hat или Rocky:

ПРИМЕЧАНИЕ. Снимки экрана приведены только для справки, и наблюдаемые результаты могут иметь некоторые отличия.


Установите метаданные репозитория и ключ CUDA GPG:
[При необходимости замените x86_64 на «sbsa» для arm64 или на «ppc64le» для ppc64le. Уберите кавычки]
Определите дистрибутив:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Визуальный вывод в терминале 2-х команд для установки метаданных репозитория и ключа CUDA GPG

Обновите метаданные репозитория.

sudo dnf clean expire-cache

Терминал запущен, и вывод команды «sudo dnf clean expire-cache»

Теперь установите DCGM.

sudo dnf install -y datacenter-gpu-manager

В терминале выполняется команда «sudo dnf install -y datacenter-gpu-manager» и соответствующий вывод.

В системах HGX (A100/A800 и H100/H800) необходимо установить конфигурацию коммутатора NVIDIA, если вы хотите опросить NVSwitches. Запросите библиотеку NSCQ для DCGM, чтобы перечислить NVSwitches и предоставить данные телеметрии для коммутаторов. NSCQ должен соответствовать ветви версий драйверов (XXX), установленной в системе. Замените XXX нужной ветвью драйвера в командах ниже.

sudo dnf module install nvidia-driver:XXX/fm

 

Запросите версию драйвера у операционной системы:

nvidia-smi

Вывод команды «nvidia-smi» через терминал. Особо отметим, что версия драйвера — 550.54.14.

В этом примере мы используем следующую команду, так как версия драйвера отображается как 550:

sudo dnf module install nvidia-driver:550/fm

Вывод терминала при выполнении команды «sudo dnf module install nvidia-driver:550/fm»

Включите службу DCGM systemd (при перезагрузке) и начните сейчас:

sudo systemctl --now enable nvidia-dcgm

Визуальное представление команды «sudo systemctl --now enable nvidia-dcgm», выполняемой в терминале.

Чтобы проверить установку, используйте dcgmi для запроса системы. Вы должны увидеть список всех поддерживаемых графических процессоров (и всех NVSwitch), найденных в системе: (переключатель — L) в нижнем регистре)
DCGMI Discovery -L 

dcgmi discovery -l 

[В приведенном ниже примере NvSwitch не указаны, но поле заполняется подробными сведениями, если они присутствуют или обнаружены.]
Вывод терминала с помощью команды «dcgmi discovery -l»

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.