Sistemas XE: Como instalar pacotes para solução de problemas do DCGMI. RHEL Rocky

摘要: Como fazer a instalação do DCGM (NVIDIA Data Center GPU Manager) no Linux para coletar logs do DCGMI para solução de problemas. RHEl/Rocky

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
de data center NVIDIA compatíveis- Em sistemas HGX (Hyperscale Graphics Extension), nos pacotes
Fabric Manager e NVSwitch Configuration and Query (NSCQ), DCGM Runtime e SDK

Para versões Red Hat ou Rocky:

Nota: As capturas de tela são apenas para referência, e os resultados observados podem ter algumas diferenças.


Instale os metadados do repositório e a chave CUDA GPG:
[Substitua x86_64 por "sbsa" para arm64 ou substitua por "ppc64le" para ppc64le, se necessário. Remover aspas]
Determinar distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Saída visual no terminal dos 2 comandos para instalar metadados do repositório e a chave CUDA GPG

Atualize os metadados do repositório.

sudo dnf clean expire-cache

Terminal em execução e a saída do comando

Agora, instale o DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal executando o comando

Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a NVIDIA Switch Configuration se quiser consultar os NVSwitches. Consulte a biblioteca NSCQ para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalada no sistema. Substitua XXX pela ramificação de driver necessária nos comandos abaixo.

sudo dnf module install nvidia-driver:XXX/fm

 

Consulte o sistema operacional para obter a versão do driver:

nvidia-smi

Saída do terminal do comando

Neste exemplo, usamos o seguinte comando, já que a versão do driver é 550:

sudo dnf module install nvidia-driver:550/fm

Terminal de saída de execução

Ative o serviço DCGM systemd (na reinicialização) e inicie agora:

sudo systemctl --now enable nvidia-dcgm

Representação visual de

Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)
Detecção DCGMI -l 

dcgmi discovery -l 

[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes ou forem detectados.]
Saída do terminal de execução de

 

受影響的產品

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
文章屬性
文章編號: 000223375
文章類型: How To
上次修改時間: 10 4月 2025
版本:  3
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。