PowerEdge: Como instalar pacotes para solução de problemas do DCGMI no Ubuntu LTS

Summary: Como fazer a instalação do DCGM no Linux para coletar logs do DCGMI para solução de problemas.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
NVIDIA Datacenter compatíveis- Em sistemas HGX
, nos pacotes Fabric Manager e NVSwitch Configuration and Query (NSCQ)- DCGM Runtime e SDK
para versões Ubuntu:
Nota
: As capturas de tela são apenas para referência, e os resultados reais podem ter algumas diferenças.


Faça download do metapacote para o repositório de rede CUDA:
> wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-keyring_1.0-1_all.deb
[Substitua x86_64 por "sbsa" para arm64 ou substitua por "ppc64le" para ppc64le, se necessário. Remover aspas]
image.png

Instale os metadados do repositório e a chave CUDA GPG:
> sudo dpkg -i cuda-keyring_1.0-1_all.deb
image.png

Atualize o APT:
> sudo apt-get update
image.png

Instale o DCGM:
> sudo apt-get install -y datacenter-gpu-manager
image.png

Você pode obter esta caixa de diálogo antes que a atualização seja concluída, selecione OK para continuar (talvez seja necessário usar a guia para acessar OK/Cancelar)
image.png

Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a biblioteca de configuração e consulta de switch NVIDIA (NSCQ) para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalado no sistema. Substituir XXX com a ramificação do driver desejado nos comandos abaixo.
> sudo apt-get install -y libnvidia-nscq-XXX

Consulte o SO para a versão do driver:
> nvidia-smi
image.png

Então, neste exemplo, usaremos o seguinte comando:
> sudo apt-get install -y libnvidia-nscq-550
image.png

Você pode obter esta caixa de diálogo antes que a atualização seja concluída, selecione OK para continuar (talvez seja necessário usar a guia para acessar OK/Cancelar)
image.png

Ative o serviço systemd DCGM (na reinicialização) e inicie agora:
> sudo systemctl --now enable nvidia-dcgm
image.png

Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)
> dcgmi discovery -l 

[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes/detectados.]
image.png

Neste ponto, você deve ser capaz de executar o diagnóstico DCGM necessário.

Additional Information

https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html

Affected Products

PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223312
Article Type: How To
Last Modified: 10 Apr 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.