Sistemas XE: Como instalar pacotes para solução de problemas do DCGMI. RHEL Rocky

Podsumowanie: Como fazer a instalação do DCGM (NVIDIA Data Center GPU Manager) no Linux para coletar logs do DCGMI para solução de problemas. RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje

Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
de data center NVIDIA compatíveis- Em sistemas HGX (Hyperscale Graphics Extension), nos pacotes
Fabric Manager e NVSwitch Configuration and Query (NSCQ), DCGM Runtime e SDK

Para versões Red Hat ou Rocky:

Nota: As capturas de tela são apenas para referência, e os resultados observados podem ter algumas diferenças.


Instale os metadados do repositório e a chave CUDA GPG:
[Substitua x86_64 por "sbsa" para arm64 ou substitua por "ppc64le" para ppc64le, se necessário. Remover aspas]
Determinar distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Saída visual no terminal dos 2 comandos para instalar metadados do repositório e a chave CUDA GPG

Atualize os metadados do repositório.

sudo dnf clean expire-cache

Terminal em execução e a saída do comando

Agora, instale o DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal executando o comando

Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a NVIDIA Switch Configuration se quiser consultar os NVSwitches. Consulte a biblioteca NSCQ para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalada no sistema. Substitua XXX pela ramificação de driver necessária nos comandos abaixo.

sudo dnf module install nvidia-driver:XXX/fm

 

Consulte o sistema operacional para obter a versão do driver:

nvidia-smi

Saída do terminal do comando

Neste exemplo, usamos o seguinte comando, já que a versão do driver é 550:

sudo dnf module install nvidia-driver:550/fm

Terminal de saída de execução

Ative o serviço DCGM systemd (na reinicialização) e inicie agora:

sudo systemctl --now enable nvidia-dcgm

Representação visual de

Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)
Detecção DCGMI -l 

dcgmi discovery -l 

[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes ou forem detectados.]
Saída do terminal de execução de

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.