PowerEdge: Erro de driver NVIDIA: nvidia-smi falhou porque não conseguiu se comunicar com o driver NVIDIA

Summary: Ao executar o comando nvidia-smi, você pode encontrar um erro de driver informando que "nvidia-smi falhou porque não pôde se comunicar com o driver NVIDIA.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

A coluna nvidia-smi falha ao executar o comando e retorna a mensagem de erro:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

As informações da GPU NVIDIA não são exibidas durante a execução nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Mensagem de erro de falha da NVIDIA-SMI

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce mensagem com falha

 

Cause

O erro "nvidia-smi has failed because it could not communicate with the NVIDIA driver" pode ser causada por vários fatores:

  • Driver NVIDIA não instalado ou corrompido: O driver NVIDIA pode não estar instalado no sistema ou a instalação pode estar corrompida, causando o nvidia-smi falha ao tentar interagir com a GPU.

  • Incompatibilidade de driver: A versão do driver NVIDIA instalado pode não ser compatível com a GPU ou o sistema operacional, levando a problemas de comunicação.

  • Módulo de kernel NVIDIA não carregado: O módulo de kernel NVIDIA necessário (nvidia.ko) pode não ser carregado no sistema, impedindo a comunicação adequada entre os nvidia-smi e a GPU.

  • Falha na inicialização da GPU: A GPU pode não ter sido inicializada corretamente durante a inicialização ou devido a uma falha de hardware, o que significa nvidia-smi Não é possível estabelecer comunicação com a TI.

  • Versões de driver conflitantes: Vários drivers de GPU conflitantes (por exemplo, driver de código aberto Nouveau ou versões mais antigas do driver NVIDIA) podem ser instalados, fazendo com que o sistema não carregue o driver NVIDIA correto.

  • Hardware com defeito: Pode haver um problema de hardware com a própria GPU, como mau funcionamento físico, superaquecimento ou conexão inadequada, impedindo o acesso do sistema.

  • Licença NVIDIA ausente ou expirada (para configurações de vGPU): Em ambientes virtualizados, uma licença NVIDIA vGPU ausente ou vencida pode impedir que o driver funcione corretamente, levando a falhas de comunicação.

  • Atualizações do sistema ou alterações no kernel: Atualizações recentes no sistema operacional ou alterações no kernel podem ter afetado a compatibilidade ou a funcionalidade do driver NVIDIA, causando falha.

    Para resolver isso, verifique a instalação do driver, verifique se o driver correto está carregado e certifique-se de que o hardware e o software são compatíveis.

 

Resolution

Guia passo a passo para habilitar a vGPU no ESXi 7.0 e posterior:

  • Instale o NVIDIA vGPU Manager:

    • Faça download do NVIDIA vGPU Manager para VMware ESXi mais recente no site Esse hiperlink direcionará você para um site fora da Dell Technologies.da NVIDIA.
    • Use o SSH para acessar o host do ESXi ou o Shell do ESXi para instalar o pacote do vGPU Manager.
  • Instale os drivers vGPU NVIDIA nas máquinas virtuais (VMs):

    • Para cada VM que usa vGPU, instale o driver de GPU NVIDIA apropriado no sistema operacional convidado (por exemplo, Windows, Linux).
    • Faça download dos drivers do site da NVIDIA para o sistema operacional específico.
    • Instale os drivers dentro da VM como faria em uma máquina física.
  • Reinicialize o host do ESXi:

    • Depois de instalar o NVIDIA vGPU Manager, reinicialize o host do ESXi para que as alterações entrem em vigor.
  • Verifique se o driver NVIDIA está carregado:

    • Execute o comando:
      esxcli system module list | grep nvidia
    • Verifica se o módulo de kernel NVIDIA está carregado.
  • Carregue manualmente o driver NVIDIA (se não estiver carregado):

    • Se o módulo NVIDIA não estiver carregado, você poderá carregá-lo manualmente executando:
      esxcli system module load --module=nvidia
  • Habilite a virtualização de hardware (se não estiver habilitada):

    • Faça log-in no host do ESXi por meio do ESXi Host Client ou do vSphere Client.
    • Verifique se o Intel VT-x ou AMD-V está ativado no BIOS/UEFI do servidor físico. Essas opções são necessárias para a virtualização.
  • Verifique se a GPU NVIDIA foi detectada:

    • Execute o comando:
      lspci | grep -i nvidia
    • Verifica se a GPU NVIDIA é detectada pelo ESXi.
  • Verifique se há erros nos logs do sistema:

    • Use o comando para localizar mensagens de erro específicas relacionadas ao driver NVIDIA:
      tail -f /var/log/vmkernel.log
  • Verifique os logs específicos da NVIDIA:

    • Analise os logs específicos da NVIDIA localizados em:
      /var/log/nvidia-installer.log
  • Configure a vGPU no vSphere:

    • Abra o vSphere Client e navegue até o host do ESXi.
    • Clique com o botão direito do mouse na VM que usa vGPU e selecione Edit Settings.
    • Na guia VM Hardware , clique em Add New Device e selecione PCI Device.
    • Escolha a GPU NVIDIA (vGPU) que deseja atribuir à VM.
    • Selecione o perfil de vGPU desejado (por exemplo, GRID, vComputeServer etc.) dependendo dos recursos e licenciamento de GPU disponíveis.
  • Atribua um perfil de vGPU:

    • Ao configurar a VM, atribua um perfil de vGPU que determine a quantidade de recursos da GPU física a ser alocada para cada VM. As opções de perfil dependem do modelo da GPU.
  • Configure a licença NVIDIA:

    • Certifique-se de que a licença correta do NVIDIA vGPU esteja instalada no host do ESXi.
    • Para instalar ou atualizar a licença do vGPU, use o utilitário de licenciamento do vGPU fornecido com o pacote vGPU da NVIDIA.
    • A licença é necessária para que a funcionalidade vGPU funcione corretamente e pode ser aplicada ao host do ESXi por meio da linha de comando.
  • Verifique se a vGPU está ativada:

    • Depois de configurar a vGPU, verifique se ela é reconhecida corretamente na máquina virtual.
    • Faça log-in na VM e execute o seguinte comando:
      nvidia-smi
    • Isso deve exibir o status da GPU virtual, semelhante a como ela apareceria em uma máquina física.

 

Additional Information

A Dell deve sugerir que o cliente abra um caso com a NVIDIA para problemas relacionados à vGPU enviando um e-mail para enterprisesupport@nvidia.com OU enviando um caso na Web pelo portal ou entrando em contato com ele por telefone.

Portal Web: https://www.nvidia.com/en-us/support/Esse hiperlink direcionará você para um site fora da Dell Technologies.

Suporte por telefone:
Suporte por telefone da NVIDIA

Nota: Embora a Dell possa iniciar um caso com a NVIDIA para obter mais assistência, no entanto, se a licença não for emitida pela Dell, a NVIDIA geralmente prefere trabalhar diretamente com o cliente.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.