PowerEdge: Como solucionar problemas de limitação e detecção térmica da GPU

Resumo: Este artigo orienta os usuários durante o diagnóstico e a resolução de problemas de detecção e limitação térmica da GPU em servidores Dell PowerEdge. Ele abrange a verificação da temperatura da GPU e do status do acelerador, a análise dos logs do sistema, a melhoria do resfriamento, a verificação da instalação de hardware, a atualização do firmware do BIOS/iDRAC e da GPU e a execução de utilitários de diagnóstico, como nvidia-smi e DCGM. ...

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Instruções

Preparação

  • Acesso ao sistema operacional com privilégios administrativos.
  • Acesso ao iDRAC ou BIOS para visualizar os logs e as configurações do sistema.
  • Driver NVIDIA/CUDA e utilitário NVIDIA-smi instalados
  • Acesso físico ao servidor para verificações de hardware

Execução de tarefas

  1. Verifique a temperatura da GPU e o status do acelerador
    • Execute o seguinte comando no sistema operacional para verificar o desempenho da GPU e o status do acelerador:
      nvidia-smi -q -d performance 
    • Se os motivos do acelerador forem mostrados como "Não ativo", a GPU está funcionando normalmente.
  2. Monitorar a temperatura do sistema
    • Verifique o registro de eventos do sistema (SEL) no iDRAC.
    • Analise o log do ciclo de vida para ver se há avisos de temperatura.
    • Verifique a Temperatura de entrada do sistema na seção Visão geral da temperatura.
  3. Melhore as condições de resfriamento
    • Certifique-se de que a temperatura ambiente do datacenter esteja dentro dos limites compatíveis.
    • Remova todos os bloqueios do fluxo de ar no rack.
    • Verifique se todos os ventiladores do sistema estão funcionando corretamente.
    • Instale os defletores de fluxo de ar apropriados e os kits de refrigeração da GPU, se disponíveis.
  4. Verificar a instalação de hardware da GPU
    • Confirme se a GPU está encaixada corretamente no slot PCIe.
    • Verifique se há conexão segura nos cabos e conectores de alimentação.
    • Confirme se o modelo da GPU é compatível com a plataforma do servidor.
  5. Atualizar o firmware do sistema
    • Atualize o BIOS do servidor para a versão mais recente.
    • Atualize o firmware do iDRAC para a versão mais recente.
    • Atualize os drivers e o firmware da GPU para as versões mais recentes.
  6. Verificar a detecção da GPU
    • Use o seguinte comando para verificar se a GPU é detectada pelo sistema:
      nvidia-smi 
    • Se a GPU não for detectada, analise as configurações do BIOS e a instalação do hardware.
  7. Testar a GPU em outro slot PCIe
    • Desligue o servidor e desconecte os cabos de alimentação.
    • Remova a GPU do slot PCIe atual.
    • Instale a GPU em outro slot PCIe compatível.
    • Reconecte a alimentação e ligue o sistema.
    • Verifique a detecção usando nvidia-smi ou o inventário de hardware do iDRAC.
    • Se a GPU for detectada no novo slot, o slot original pode ter um problema de configuração ou hardware.
  8. Execute o teste de diagnóstico da GPU
    1. Ferramenta DCGMi
    2. NVIDIA SMI Logs
      • Execute# nvidia-smi para obter um resumo do uso e do status da GPU.
      • Execute# nvidia-smi -q para obter informações detalhadas da GPU.
      • Execute# nvidia-smi nvlink -s para visualizar o status e os erros do NVLink.
    3. Saídas no nível do sistema operacional
      • Execute
        # lspci -s 9b: 00.0 -vv
        (substitua o ID do dispositivo conforme apropriado) para visualizar os detalhes PCIe da GPU.)

Verificação

  • A temperatura da GPU permanece dentro da faixa operacional normal e o status do acelerador mostra "Não ativo"
  • A GPU aparece na saída de nvidia-smi e no inventário de hardware do iDRAC.
  • Nenhuma advertência relacionada à temperatura está presente no registro de eventos do sistema.

Produtos afetados

Rack Servers

Produtos

Tower Servers, XE Servers
Propriedades do artigo
Número do artigo: 000452203
Tipo de artigo: How To
Último modificado: 05 mai. 2026
Versão:  1
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.