PowerEdge: Errore del driver NVIDIA: nvidia-smi ha avuto esito negativo perché non è riuscito a comunicare con il driver NVIDIA

Summary: Quando si esegue il comando nvidia-smi, è possibile che si verifichi un errore del driver che indica che "nvidia-smi ha fallito perché non è riuscito a comunicare con il driver NVIDIA.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

La colonna nvidia-smi L'esecuzione del comando non viene eseguita e viene restituito il messaggio di errore:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Le informazioni sulla GPU NVIDIA non vengono visualizzate durante l'esecuzione nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Messaggio di errore NVIDIA-SMI has failed

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce messaggio di errore

 

Cause

L'errore "nvidia-smi has failed because it could not communicate with the NVIDIA driver" può essere causato da diversi fattori:

  • Driver NVIDIA non installato o danneggiato: Il driver NVIDIA potrebbe non essere installato sul sistema o l'installazione potrebbe essere danneggiata, causando il nvidia-smi errore dello strumento quando si tenta di interagire con la GPU.

  • Incompatibilità del driver: La versione del driver NVIDIA installata potrebbe non essere compatibile con la GPU o il sistema operativo, con conseguenti problemi di comunicazione.

  • Modulo kernel NVIDIA non caricato: Il modulo kernel NVIDIA richiesto (nvidia.ko) non possono essere caricati nel sistema, impedendo una corretta comunicazione tra i nvidia-smi e la GPU.

  • Errore inizializzazione GPU: La GPU potrebbe non essere stata inizializzata correttamente durante l'avvio o a causa di un guasto hardware, il che significa che nvidia-smi non è in grado di stabilire una comunicazione con esso.

  • Versioni driver in conflitto: È possibile che siano installati più driver GPU in conflitto o multipli (ad esempio, driver open source Nouveau o versioni precedenti di driver NVIDIA) che impediscono al sistema di caricare il driver NVIDIA corretto.

  • Hardware difettoso: Potrebbe esserci un problema hardware della GPU stessa, ad esempio un malfunzionamento fisico, un surriscaldamento o una connessione errata, che impedisce al sistema di accedervi.

  • Licenza NVIDIA mancante o scaduta (per configurazioni vGPU): Negli ambienti virtualizzati, una licenza NVIDIA vGPU mancante o scaduta può impedire il corretto funzionamento del driver, causando errori di comunicazione.

  • Aggiornamenti del sistema o modifiche del kernel: Recenti aggiornamenti del sistema operativo o modifiche del kernel potrebbero aver influito sulla compatibilità o sulla funzionalità del driver NVIDIA, causandone un errore.

    Per risolvere questo problema, controllare l'installazione dei driver, verificare che sia caricato il driver corretto e assicurarsi che l'hardware e il software siano compatibili.

 

Resolution

Guida dettagliata per abilitare vGPU in ESXi 7.0 e versioni successive:

  • Installare NVIDIA vGPU Manager:

    • Scaricare la versione più recente di NVIDIA vGPU Manager per VMware ESXi dal sito webQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies. di NVIDIA.
    • Utilizzare SSH per accedere all host ESXi o alla shell ESXi per installare il pacchetto vGPU Manager.
  • Installare i driver NVIDIA vGPU nelle macchine virtuali (VM):

    • Per ogni macchina virtuale che utilizza vGPU, installare il driver GPU NVIDIA appropriato nel sistema operativo guest (ad esempio, Windows, Linux).
    • Scaricare i driver dal sito web NVIDIA per il sistema operativo specifico.
    • Installare i driver all'interno della macchina virtuale come su un computer fisico.
  • Riavviare l'host ESXi:

    • Dopo aver installato NVIDIA vGPU Manager, riavviare l'host ESXi per rendere effettive le modifiche.
  • Verificare se il driver NVIDIA è caricato:

    • Eseguire il comando:
      esxcli system module list | grep nvidia
    • Verifica se è caricato il modulo kernel NVIDIA.
  • Caricare manualmente il driver NVIDIA (se non caricato):

    • Se il modulo NVIDIA non è caricato, è possibile caricarlo manualmente eseguendo:
      esxcli system module load --module=nvidia
  • Abilitare la virtualizzazione hardware (se non abilitata):

    • Accedere all host ESXi sul client host ESXi o vSphere Client.
    • Verificare che Intel VT-x o AMD-V sia abilitato nel BIOS/UEFI del server fisico. Queste opzioni sono necessarie per la virtualizzazione.
  • Verificare se la GPU NVIDIA è stata rilevata:

    • Eseguire il comando:
      lspci | grep -i nvidia
    • Questo verifica se la GPU NVIDIA viene rilevata da ESXi.
  • Verificare la presenza di errori nei registri di sistema:

    • Utilizzare il comando per trovare messaggi di errore specifici relativi al driver NVIDIA:
      tail -f /var/log/vmkernel.log
  • Controllare i registri specifici di NVIDIA:

    • Esaminare i registri specifici di NVIDIA disponibili in:
      /var/log/nvidia-installer.log
  • Configurare vGPU in vSphere:

    • Aprire vSphere Client e passare all host ESXi.
    • Cliccare con il pulsante destro del mouse sulla VM che utilizza vGPU e selezionare Edit Settings.
    • Nella scheda VM Hardware , cliccare su Add New Device e selezionare PCI Device.
    • Scegliere la GPU NVIDIA (vGPU) che si desidera assegnare alla VM.
    • Selezionare il profilo vGPU desiderato (ad esempio, GRID, vComputeServer e così via) a seconda delle risorse GPU disponibili e delle licenze.
  • Assegnare un profilo vGPU:

    • Quando si configura la VM, assegnare un profilo vGPU che determini la quantità di risorse della GPU fisica da allocare a ciascuna VM. Le opzioni del profilo dipendono dal modello di GPU.
  • Configurare la licenza NVIDIA:

    • Assicurarsi che sull'host ESXi sia installata la licenza NVIDIA vGPU corretta.
    • Per installare o aggiornare la licenza vGPU, utilizzare l'utilità di licenza vGPU fornita con il pacchetto NVIDIA vGPU.
    • La licenza è necessaria per il corretto funzionamento della funzionalità vGPU e può essere applicata all host ESXi tramite la riga di comando.
  • Verificare che vGPU sia abilitata:

    • Dopo aver configurato la vGPU, verificare che sia riconosciuta correttamente nella macchina virtuale.
    • Accedere alla VM ed eseguire il seguente comando:
      nvidia-smi
    • Dovrebbe essere visualizzato lo stato della GPU virtuale, in modo simile a come apparirebbe su una macchina fisica.

 

Additional Information

Dell consiglia al cliente di aprire un caso con NVIDIA per problemi relativi alla vGPU inviando un e-mail all'enterprisesupport@nvidia.com OPPURE inviando un caso web tramite il portale o contattandolo telefonicamente.

Portale Web: https://www.nvidia.com/en-us/support/Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

Supporto telefonico:
Supporto telefonico NVIDIA

Nota: Sebbene Dell possa avviare un caso con NVIDIA per ulteriore assistenza, tuttavia, se la licenza non viene rilasciata da Dell, NVIDIA in genere preferisce lavorare direttamente con il cliente.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.