PowerEdge: Como instalar pacotes para solução de problemas do DCGMI no Ubuntu LTS
Summary: Como fazer a instalação do DCGM no Linux para coletar logs do DCGMI para solução de problemas.
Instructions
Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
NVIDIA Datacenter compatíveis- Em sistemas HGX
, nos pacotes Fabric Manager e NVSwitch Configuration and Query (NSCQ)- DCGM Runtime e SDK
para versões Ubuntu:
Nota
: As capturas de tela são apenas para referência, e os resultados reais podem ter algumas diferenças.
Faça download do metapacote para o repositório de rede CUDA:> wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-keyring_1.0-1_all.deb
[Substitua x86_64 por "sbsa" para arm64 ou substitua por "ppc64le" para ppc64le, se necessário. Remover aspas]
Instale os metadados do repositório e a chave CUDA GPG:> sudo dpkg -i cuda-keyring_1.0-1_all.deb
Atualize o APT:> sudo apt-get update
Instale o DCGM:> sudo apt-get install -y datacenter-gpu-manager
Você pode obter esta caixa de diálogo antes que a atualização seja concluída, selecione OK para continuar (talvez seja necessário usar a guia para acessar OK/Cancelar)
Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a biblioteca de configuração e consulta de switch NVIDIA (NSCQ) para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalado no sistema. Substituir XXX com a ramificação do driver desejado nos comandos abaixo.> sudo apt-get install -y libnvidia-nscq-XXX
Consulte o SO para a versão do driver:> nvidia-smi
Então, neste exemplo, usaremos o seguinte comando:> sudo apt-get install -y libnvidia-nscq-550
Você pode obter esta caixa de diálogo antes que a atualização seja concluída, selecione OK para continuar (talvez seja necessário usar a guia para acessar OK/Cancelar)
Ative o serviço systemd DCGM (na reinicialização) e inicie agora:> sudo systemctl --now enable nvidia-dcgm
Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)> dcgmi discovery -l
[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes/detectados.]
Neste ponto, você deve ser capaz de executar o diagnóstico DCGM necessário.