PowerEdge: Errore del driver NVIDIA: nvidia-smi ha avuto esito negativo perché non è riuscito a comunicare con il driver NVIDIA
Summary: Quando si esegue il comando nvidia-smi, è possibile che si verifichi un errore del driver che indica che "nvidia-smi ha fallito perché non è riuscito a comunicare con il driver NVIDIA.
Symptoms
La colonna nvidia-smi L'esecuzione del comando non viene eseguita e viene restituito il messaggio di errore:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Le informazioni sulla GPU NVIDIA non vengono visualizzate durante l'esecuzione nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
L'errore "nvidia-smi has failed because it could not communicate with the NVIDIA driver" può essere causato da diversi fattori:
-
Driver NVIDIA non installato o danneggiato: Il driver NVIDIA potrebbe non essere installato sul sistema o l'installazione potrebbe essere danneggiata, causando il
nvidia-smierrore dello strumento quando si tenta di interagire con la GPU. -
Incompatibilità del driver: La versione del driver NVIDIA installata potrebbe non essere compatibile con la GPU o il sistema operativo, con conseguenti problemi di comunicazione.
-
Modulo kernel NVIDIA non caricato: Il modulo kernel NVIDIA richiesto (
nvidia.ko) non possono essere caricati nel sistema, impedendo una corretta comunicazione tra invidia-smie la GPU. -
Errore inizializzazione GPU: La GPU potrebbe non essere stata inizializzata correttamente durante l'avvio o a causa di un guasto hardware, il che significa che
nvidia-sminon è in grado di stabilire una comunicazione con esso. -
Versioni driver in conflitto: È possibile che siano installati più driver GPU in conflitto o multipli (ad esempio, driver open source Nouveau o versioni precedenti di driver NVIDIA) che impediscono al sistema di caricare il driver NVIDIA corretto.
-
Hardware difettoso: Potrebbe esserci un problema hardware della GPU stessa, ad esempio un malfunzionamento fisico, un surriscaldamento o una connessione errata, che impedisce al sistema di accedervi.
-
Licenza NVIDIA mancante o scaduta (per configurazioni vGPU): Negli ambienti virtualizzati, una licenza NVIDIA vGPU mancante o scaduta può impedire il corretto funzionamento del driver, causando errori di comunicazione.
-
Aggiornamenti del sistema o modifiche del kernel: Recenti aggiornamenti del sistema operativo o modifiche del kernel potrebbero aver influito sulla compatibilità o sulla funzionalità del driver NVIDIA, causandone un errore.
Per risolvere questo problema, controllare l'installazione dei driver, verificare che sia caricato il driver corretto e assicurarsi che l'hardware e il software siano compatibili.
Resolution
Guida dettagliata per abilitare vGPU in ESXi 7.0 e versioni successive:
-
Installare NVIDIA vGPU Manager:
- Scaricare la versione più recente di NVIDIA vGPU Manager per VMware ESXi dal sito web
di NVIDIA.
- Utilizzare SSH per accedere all host ESXi o alla shell ESXi per installare il pacchetto vGPU Manager.
- Scaricare la versione più recente di NVIDIA vGPU Manager per VMware ESXi dal sito web
-
Installare i driver NVIDIA vGPU nelle macchine virtuali (VM):
- Per ogni macchina virtuale che utilizza vGPU, installare il driver GPU NVIDIA appropriato nel sistema operativo guest (ad esempio, Windows, Linux).
- Scaricare i driver dal sito web NVIDIA per il sistema operativo specifico.
- Installare i driver all'interno della macchina virtuale come su un computer fisico.
-
Riavviare l'host ESXi:
- Dopo aver installato NVIDIA vGPU Manager, riavviare l'host ESXi per rendere effettive le modifiche.
-
Verificare se il driver NVIDIA è caricato:
- Eseguire il comando:
esxcli system module list | grep nvidia
- Verifica se è caricato il modulo kernel NVIDIA.
- Eseguire il comando:
-
Caricare manualmente il driver NVIDIA (se non caricato):
- Se il modulo NVIDIA non è caricato, è possibile caricarlo manualmente eseguendo:
esxcli system module load --module=nvidia
- Se il modulo NVIDIA non è caricato, è possibile caricarlo manualmente eseguendo:
-
Abilitare la virtualizzazione hardware (se non abilitata):
- Accedere all host ESXi sul client host ESXi o vSphere Client.
- Verificare che Intel VT-x o AMD-V sia abilitato nel BIOS/UEFI del server fisico. Queste opzioni sono necessarie per la virtualizzazione.
-
Verificare se la GPU NVIDIA è stata rilevata:
- Eseguire il comando:
lspci | grep -i nvidia
- Questo verifica se la GPU NVIDIA viene rilevata da ESXi.
- Eseguire il comando:
-
Verificare la presenza di errori nei registri di sistema:
- Utilizzare il comando per trovare messaggi di errore specifici relativi al driver NVIDIA:
tail -f /var/log/vmkernel.log
- Utilizzare il comando per trovare messaggi di errore specifici relativi al driver NVIDIA:
-
Controllare i registri specifici di NVIDIA:
- Esaminare i registri specifici di NVIDIA disponibili in:
/var/log/nvidia-installer.log
- Esaminare i registri specifici di NVIDIA disponibili in:
-
Configurare vGPU in vSphere:
- Aprire vSphere Client e passare all host ESXi.
- Cliccare con il pulsante destro del mouse sulla VM che utilizza vGPU e selezionare Edit Settings.
- Nella scheda VM Hardware , cliccare su Add New Device e selezionare PCI Device.
- Scegliere la GPU NVIDIA (vGPU) che si desidera assegnare alla VM.
- Selezionare il profilo vGPU desiderato (ad esempio, GRID, vComputeServer e così via) a seconda delle risorse GPU disponibili e delle licenze.
-
Assegnare un profilo vGPU:
- Quando si configura la VM, assegnare un profilo vGPU che determini la quantità di risorse della GPU fisica da allocare a ciascuna VM. Le opzioni del profilo dipendono dal modello di GPU.
-
Configurare la licenza NVIDIA:
- Assicurarsi che sull'host ESXi sia installata la licenza NVIDIA vGPU corretta.
- Per installare o aggiornare la licenza vGPU, utilizzare l'utilità di licenza vGPU fornita con il pacchetto NVIDIA vGPU.
- La licenza è necessaria per il corretto funzionamento della funzionalità vGPU e può essere applicata all host ESXi tramite la riga di comando.
-
Verificare che vGPU sia abilitata:
- Dopo aver configurato la vGPU, verificare che sia riconosciuta correttamente nella macchina virtuale.
- Accedere alla VM ed eseguire il seguente comando:
nvidia-smi
- Dovrebbe essere visualizzato lo stato della GPU virtuale, in modo simile a come apparirebbe su una macchina fisica.
Additional Information
Dell consiglia al cliente di aprire un caso con NVIDIA per problemi relativi alla vGPU inviando un e-mail all'enterprisesupport@nvidia.com OPPURE inviando un caso web tramite il portale o contattandolo telefonicamente.
Portale Web: https://www.nvidia.com/en-us/support/
Supporto telefonico: