Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky
Podsumowanie: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky
Instrukcje
Предварительные
требования Для запуска DCGM целевая система должна включать следующие компоненты NVIDIA, перечисленные в порядке зависимостей:
- Поддерживаемые драйверы
NVIDIA для центров обработки данных. - В системах HGX (Hyperscale Graphics Extension) пакеты
Fabric Manager и NVSwitch Configuration and Query (NSCQ) - DCGM Runtime и SDK
Для релизов Red Hat или Rocky:
Установите метаданные репозитория и ключ CUDA GPG:
[При необходимости замените x86_64 на «sbsa» для arm64 или на «ppc64le» для ppc64le. Уберите кавычки]
Определите дистрибутив:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Обновите метаданные репозитория.
sudo dnf clean expire-cache

Теперь установите DCGM.
sudo dnf install -y datacenter-gpu-manager

В системах HGX (A100/A800 и H100/H800) необходимо установить конфигурацию коммутатора NVIDIA, если вы хотите опросить NVSwitches. Запросите библиотеку NSCQ для DCGM, чтобы перечислить NVSwitches и предоставить данные телеметрии для коммутаторов. NSCQ должен соответствовать ветви версий драйверов (XXX), установленной в системе. Замените XXX нужной ветвью драйвера в командах ниже.
sudo dnf module install nvidia-driver:XXX/fm
Запросите версию драйвера у операционной системы:
nvidia-smi

В этом примере мы используем следующую команду, так как версия драйвера отображается как 550:
sudo dnf module install nvidia-driver:550/fm

Включите службу DCGM systemd (при перезагрузке) и начните сейчас:
sudo systemctl --now enable nvidia-dcgm

Чтобы проверить установку, используйте dcgmi для запроса системы. Вы должны увидеть список всех поддерживаемых графических процессоров (и всех NVSwitch), найденных в системе: (переключатель — L) в нижнем регистре)
DCGMI Discovery -L
dcgmi discovery -l
[В приведенном ниже примере NvSwitch не указаны, но поле заполняется подробными сведениями, если они присутствуют или обнаружены.]