PowerEdge: Erro de driver NVIDIA: nvidia-smi falhou porque não conseguiu se comunicar com o driver NVIDIA
Summary: Ao executar o comando nvidia-smi, você pode encontrar um erro de driver informando que "nvidia-smi falhou porque não pôde se comunicar com o driver NVIDIA.
Symptoms
A coluna nvidia-smi falha ao executar o comando e retorna a mensagem de erro:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
As informações da GPU NVIDIA não são exibidas durante a execução nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
O erro "nvidia-smi has failed because it could not communicate with the NVIDIA driver" pode ser causada por vários fatores:
-
Driver NVIDIA não instalado ou corrompido: O driver NVIDIA pode não estar instalado no sistema ou a instalação pode estar corrompida, causando o
nvidia-smifalha ao tentar interagir com a GPU. -
Incompatibilidade de driver: A versão do driver NVIDIA instalado pode não ser compatível com a GPU ou o sistema operacional, levando a problemas de comunicação.
-
Módulo de kernel NVIDIA não carregado: O módulo de kernel NVIDIA necessário (
nvidia.ko) pode não ser carregado no sistema, impedindo a comunicação adequada entre osnvidia-smie a GPU. -
Falha na inicialização da GPU: A GPU pode não ter sido inicializada corretamente durante a inicialização ou devido a uma falha de hardware, o que significa
nvidia-smiNão é possível estabelecer comunicação com a TI. -
Versões de driver conflitantes: Vários drivers de GPU conflitantes (por exemplo, driver de código aberto Nouveau ou versões mais antigas do driver NVIDIA) podem ser instalados, fazendo com que o sistema não carregue o driver NVIDIA correto.
-
Hardware com defeito: Pode haver um problema de hardware com a própria GPU, como mau funcionamento físico, superaquecimento ou conexão inadequada, impedindo o acesso do sistema.
-
Licença NVIDIA ausente ou expirada (para configurações de vGPU): Em ambientes virtualizados, uma licença NVIDIA vGPU ausente ou vencida pode impedir que o driver funcione corretamente, levando a falhas de comunicação.
-
Atualizações do sistema ou alterações no kernel: Atualizações recentes no sistema operacional ou alterações no kernel podem ter afetado a compatibilidade ou a funcionalidade do driver NVIDIA, causando falha.
Para resolver isso, verifique a instalação do driver, verifique se o driver correto está carregado e certifique-se de que o hardware e o software são compatíveis.
Resolution
Guia passo a passo para habilitar a vGPU no ESXi 7.0 e posterior:
-
Instale o NVIDIA vGPU Manager:
- Faça download do NVIDIA vGPU Manager para VMware ESXi mais recente no site
da NVIDIA.
- Use o SSH para acessar o host do ESXi ou o Shell do ESXi para instalar o pacote do vGPU Manager.
- Faça download do NVIDIA vGPU Manager para VMware ESXi mais recente no site
-
Instale os drivers vGPU NVIDIA nas máquinas virtuais (VMs):
- Para cada VM que usa vGPU, instale o driver de GPU NVIDIA apropriado no sistema operacional convidado (por exemplo, Windows, Linux).
- Faça download dos drivers do site da NVIDIA para o sistema operacional específico.
- Instale os drivers dentro da VM como faria em uma máquina física.
-
Reinicialize o host do ESXi:
- Depois de instalar o NVIDIA vGPU Manager, reinicialize o host do ESXi para que as alterações entrem em vigor.
-
Verifique se o driver NVIDIA está carregado:
- Execute o comando:
esxcli system module list | grep nvidia
- Verifica se o módulo de kernel NVIDIA está carregado.
- Execute o comando:
-
Carregue manualmente o driver NVIDIA (se não estiver carregado):
- Se o módulo NVIDIA não estiver carregado, você poderá carregá-lo manualmente executando:
esxcli system module load --module=nvidia
- Se o módulo NVIDIA não estiver carregado, você poderá carregá-lo manualmente executando:
-
Habilite a virtualização de hardware (se não estiver habilitada):
- Faça log-in no host do ESXi por meio do ESXi Host Client ou do vSphere Client.
- Verifique se o Intel VT-x ou AMD-V está ativado no BIOS/UEFI do servidor físico. Essas opções são necessárias para a virtualização.
-
Verifique se a GPU NVIDIA foi detectada:
- Execute o comando:
lspci | grep -i nvidia
- Verifica se a GPU NVIDIA é detectada pelo ESXi.
- Execute o comando:
-
Verifique se há erros nos logs do sistema:
- Use o comando para localizar mensagens de erro específicas relacionadas ao driver NVIDIA:
tail -f /var/log/vmkernel.log
- Use o comando para localizar mensagens de erro específicas relacionadas ao driver NVIDIA:
-
Verifique os logs específicos da NVIDIA:
- Analise os logs específicos da NVIDIA localizados em:
/var/log/nvidia-installer.log
- Analise os logs específicos da NVIDIA localizados em:
-
Configure a vGPU no vSphere:
- Abra o vSphere Client e navegue até o host do ESXi.
- Clique com o botão direito do mouse na VM que usa vGPU e selecione Edit Settings.
- Na guia VM Hardware , clique em Add New Device e selecione PCI Device.
- Escolha a GPU NVIDIA (vGPU) que deseja atribuir à VM.
- Selecione o perfil de vGPU desejado (por exemplo, GRID, vComputeServer etc.) dependendo dos recursos e licenciamento de GPU disponíveis.
-
Atribua um perfil de vGPU:
- Ao configurar a VM, atribua um perfil de vGPU que determine a quantidade de recursos da GPU física a ser alocada para cada VM. As opções de perfil dependem do modelo da GPU.
-
Configure a licença NVIDIA:
- Certifique-se de que a licença correta do NVIDIA vGPU esteja instalada no host do ESXi.
- Para instalar ou atualizar a licença do vGPU, use o utilitário de licenciamento do vGPU fornecido com o pacote vGPU da NVIDIA.
- A licença é necessária para que a funcionalidade vGPU funcione corretamente e pode ser aplicada ao host do ESXi por meio da linha de comando.
-
Verifique se a vGPU está ativada:
- Depois de configurar a vGPU, verifique se ela é reconhecida corretamente na máquina virtual.
- Faça log-in na VM e execute o seguinte comando:
nvidia-smi
- Isso deve exibir o status da GPU virtual, semelhante a como ela apareceria em uma máquina física.
Additional Information
A Dell deve sugerir que o cliente abra um caso com a NVIDIA para problemas relacionados à vGPU enviando um e-mail para enterprisesupport@nvidia.com OU enviando um caso na Web pelo portal ou entrando em contato com ele por telefone.
Portal Web: https://www.nvidia.com/en-us/support/
Suporte por telefone: