PowerEdge: Como solucionar problemas de limitação e detecção térmica da GPU
Resumo: Este artigo orienta os usuários durante o diagnóstico e a resolução de problemas de detecção e limitação térmica da GPU em servidores Dell PowerEdge. Ele abrange a verificação da temperatura da GPU e do status do acelerador, a análise dos logs do sistema, a melhoria do resfriamento, a verificação da instalação de hardware, a atualização do firmware do BIOS/iDRAC e da GPU e a execução de utilitários de diagnóstico, como nvidia-smi e DCGM. ...
Este artigo aplica-se a
Este artigo não se aplica a
Este artigo não está vinculado a nenhum produto específico.
Nem todas as versões do produto estão identificadas neste artigo.
Instruções
Preparação
- Acesso ao sistema operacional com privilégios administrativos.
- Acesso ao iDRAC ou BIOS para visualizar os logs e as configurações do sistema.
- Driver NVIDIA/CUDA e utilitário NVIDIA-smi instalados
- Acesso físico ao servidor para verificações de hardware
Execução de tarefas
- Verifique a temperatura da GPU e o status do acelerador
- Execute o seguinte comando no sistema operacional para verificar o desempenho da GPU e o status do acelerador:
nvidia-smi -q -d performance
- Se os motivos do acelerador forem mostrados como "Não ativo", a GPU está funcionando normalmente.
- Execute o seguinte comando no sistema operacional para verificar o desempenho da GPU e o status do acelerador:
- Monitorar a temperatura do sistema
- Verifique o registro de eventos do sistema (SEL) no iDRAC.
- Analise o log do ciclo de vida para ver se há avisos de temperatura.
- Verifique a Temperatura de entrada do sistema na seção Visão geral da temperatura.
- Melhore as condições de resfriamento
- Certifique-se de que a temperatura ambiente do datacenter esteja dentro dos limites compatíveis.
- Remova todos os bloqueios do fluxo de ar no rack.
- Verifique se todos os ventiladores do sistema estão funcionando corretamente.
- Instale os defletores de fluxo de ar apropriados e os kits de refrigeração da GPU, se disponíveis.
- Verificar a instalação de hardware da GPU
- Confirme se a GPU está encaixada corretamente no slot PCIe.
- Verifique se há conexão segura nos cabos e conectores de alimentação.
- Confirme se o modelo da GPU é compatível com a plataforma do servidor.
- Atualizar o firmware do sistema
- Atualize o BIOS do servidor para a versão mais recente.
- Atualize o firmware do iDRAC para a versão mais recente.
- Atualize os drivers e o firmware da GPU para as versões mais recentes.
- Verificar a detecção da GPU
- Use o seguinte comando para verificar se a GPU é detectada pelo sistema:
nvidia-smi
- Se a GPU não for detectada, analise as configurações do BIOS e a instalação do hardware.
- Use o seguinte comando para verificar se a GPU é detectada pelo sistema:
- Testar a GPU em outro slot PCIe
- Desligue o servidor e desconecte os cabos de alimentação.
- Remova a GPU do slot PCIe atual.
- Instale a GPU em outro slot PCIe compatível.
- Reconecte a alimentação e ligue o sistema.
- Verifique a detecção usando
nvidia-smiou o inventário de hardware do iDRAC. - Se a GPU for detectada no novo slot, o slot original pode ter um problema de configuração ou hardware.
- Execute o teste de diagnóstico da GPU
- Ferramenta DCGMi
- Consulte o utilitário DCGM
- Para obter mais instruções , verifique PowerEdge: Instalação do NVIDIA DataCenter GPU Manager (DCGM) e como executar o diagnóstico
- Consulte o utilitário DCGM
- NVIDIA SMI Logs
- Execute
# nvidia-smipara obter um resumo do uso e do status da GPU. - Execute
# nvidia-smi -qpara obter informações detalhadas da GPU. - Execute
# nvidia-smi nvlink -spara visualizar o status e os erros do NVLink.
- Execute
- Saídas no nível do sistema operacional
- Execute
(substitua o ID do dispositivo conforme apropriado) para visualizar os detalhes PCIe da GPU.)# lspci -s 9b: 00.0 -vv
- Execute
- Ferramenta DCGMi
Verificação
- A temperatura da GPU permanece dentro da faixa operacional normal e o status do acelerador mostra "Não ativo"
- A GPU aparece na saída de
nvidia-smie no inventário de hardware do iDRAC. - Nenhuma advertência relacionada à temperatura está presente no registro de eventos do sistema.
Produtos afetados
Rack ServersProdutos
Tower Servers, XE ServersPropriedades do artigo
Número do artigo: 000452203
Tipo de artigo: How To
Último modificado: 05 mai. 2026
Versão: 1
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.