PowerEdge: NVIDIA-ohjaimen virhe: nvidia-smi epäonnistui, koska se ei voinut kommunikoida NVIDIA-ohjaimen kanssa
Summary: Kun suoritat nvidia-smi-komentoa, saatat kohdata ohjainvirheen, jossa todetaan, että "nvidia-smi on epäonnistunut, koska se ei voinut kommunikoida NVIDIA-ohjaimen kanssa.
Symptoms
pikanäppäimellä nvidia-smi Komennon suorittaminen epäonnistuu ja se palauttaa virhesanoman:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA-grafiikkasuorittimen tietoja ei näytetä käytön aikana nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Virhe "nvidia-smi has failed because it could not communicate with the NVIDIA driver" voi johtua useista tekijöistä:
-
NVIDIA-ohjainta ei ole asennettu tai se on vioittunut: NVIDIA-ohjainta ei ehkä ole asennettu järjestelmään tai asennus voi vioittua, mikä aiheuttaa
nvidia-smityökalu epäonnistuu, kun yrität olla vuorovaikutuksessa GPU: n kanssa. -
Ohjainten yhteensopimattomuus: Asennetun NVIDIA-ohjaimen versio ei välttämättä ole yhteensopiva grafiikkasuorittimen tai käyttöjärjestelmän kanssa, mikä aiheuttaa tiedonsiirto-ongelmia.
-
NVIDIA-ydinmoduulia ei ladattu: Tarvittava NVIDIA-ydinmoduuli (
nvidia.ko) ei saa ladata järjestelmään, mikä estää asianmukaisen tiedonsiirronnvidia-smityökalu ja GPU. -
Grafiikkasuorittimen alustusvirhe: GPU:ta ei ehkä alustettu oikein käynnistyksen aikana tai laitteistovian vuoksi, mikä tarkoittaa
nvidia-smiei voi muodostaa yhteyttä siihen. -
Ristiriitaiset ajuriversiot: Järjestelmään saattaa liittyä ristiriitaisia tai useita grafiikkasuorittimen ajureita (esimerkiksi avoimen lähdekoodin Nouveau-ajuri tai vanhempi NVIDIA-ajuriversio), jolloin järjestelmä ei lataa oikeaa NVIDIA-ohjainta.
-
Viallinen laitteisto: Itse grafiikkasuorittimessa voi olla laitteisto-ongelma, kuten fyysinen toimintahäiriö, ylikuumeneminen tai virheellinen liitäntä, joka estää järjestelmää käyttämästä sitä.
-
NVIDIA-lisenssi puuttuu tai on vanhentunut (vGPU-kokoonpanot): Virtualisoiduissa ympäristöissä puuttuva tai vanhentunut NVIDIA vGPU -lisenssi voi estää ohjainta toimimasta oikein, mikä voi johtaa tiedonsiirtovirheisiin.
-
Järjestelmäpäivitykset tai ytimen muutokset: Käyttöjärjestelmän tai ytimen viimeaikaiset päivitykset ovat saattaneet vaikuttaa NVIDIA-ohjaimen yhteensopivuuteen tai toimintoihin ja aiheuttaa epäonnistumisen.
Voit ratkaista ongelman tarkistamalla ohjaimen asennuksen, varmistamalla, että oikea ohjain on ladattu, ja varmistamalla, että laitteisto ja ohjelmisto ovat yhteensopivia.
Resolution
Vaiheittainen opas vGPU:n ottamiseksi käyttöön ESXi 7.0:ssa ja uudemmissa:
-
Asenna NVIDIA vGPU Manager:
- Lataa uusin NVIDIA vGPU Manager VMware ESXille NVIDIA-verkkosivustolta
.
- Käytä SSH:ta ESXi-isännän muodostamiseen tai ESXi Shellin kautta vGPU Manager -paketin asentamiseen.
- Lataa uusin NVIDIA vGPU Manager VMware ESXille NVIDIA-verkkosivustolta
-
Asenna NVIDIA vGPU -ohjaimet virtuaalikoneisiin (VM):
- Asenna jokaiselle vGPU:ta käyttävälle virtuaalikoneelle asianmukainen NVIDIA-grafiikkasuorittimen ohjain vieraskäyttöjärjestelmään (esimerkiksi Windows, Linux).
- Lataa käyttöjärjestelmän ohjaimet NVIDIA-sivustolta.
- Asenna ohjaimet virtuaalikoneen sisälle samalla tavalla kuin fyysisessä koneessa.
-
Käynnistä ESXi-isäntä uudelleen:
- Kun olet asentanut NVIDIA vGPU Managerin, ota muutokset käyttöön käynnistämällä ESXi-isäntä uudelleen.
-
Tarkista, onko NVIDIA-ohjain ladattu:
- Suorita komento:
esxcli system module list | grep nvidia
- Tämä tarkistaa, onko NVIDIA-ydinmoduuli ladattu.
- Suorita komento:
-
Lataa NVIDIA-ohjain manuaalisesti (jos sitä ei ole ladattu):
- Jos NVIDIA-moduulia ei ole ladattu, voit ladata sen manuaalisesti suorittamalla seuraavaa:
esxcli system module load --module=nvidia
- Jos NVIDIA-moduulia ei ole ladattu, voit ladata sen manuaalisesti suorittamalla seuraavaa:
-
Ota laitteiston virtualisointi käyttöön (jos ei käytössä):
- Kirjaudu ESXi-isäntään ESXi-isäntäasiakasohjelman tai vSphere-asiakasohjelman kautta.
- Varmista, että Intel VT-x tai AMD-V on otettu käyttöön fyysisen palvelimen BIOSissa/UEFIssa. Näitä vaihtoehtoja tarvitaan virtualisointiin.
-
Tarkista, löytyykö NVIDIA-grafiikkasuoritin:
- Suorita komento:
lspci | grep -i nvidia
- ESXi tunnistaa NVIDIA-grafiikkasuorittimen.
- Suorita komento:
-
Tarkista järjestelmälokit virheiden varalta:
- Etsi komennolla NVIDIA-ohjaimeen liittyviä virheilmoituksia:
tail -f /var/log/vmkernel.log
- Etsi komennolla NVIDIA-ohjaimeen liittyviä virheilmoituksia:
-
Tarkista NVIDIA-kohtaiset lokit:
- Tarkista NVIDIA-lokit osoitteessa
/var/log/nvidia-installer.log
- Tarkista NVIDIA-lokit osoitteessa
-
Määritä vGPU vSpheressä:
- Avaa vSphere Client ja siirry ESXi-isäntään.
- Napsauta hiiren kakkospainikkeella virtuaalikonetta, joka käyttää vGPU:ta, ja valitse Muokkaa asetuksia.
- Valitse VM Hardware (VM-laitteisto ) -välilehdessä Add New Device ja sitten PCI Device.
- Valitse NVIDIA-grafiikkasuoritin (vGPU), jonka haluat määrittää virtuaalikoneeseen.
- Valitse haluamasi vGPU-profiili (esimerkiksi GRID tai vComputeServer) käytettävissä olevien grafiikkasuoritinresurssien ja käyttöoikeuksien mukaan.
-
Määritä vGPU-profiili:
- Kun määrität virtuaalikonetta, määritä vGPU-profiili , joka määrittää, kuinka suuri osa fyysisen grafiikkasuorittimen resursseista varataan kullekin virtuaalikoneelle. Profiilivaihtoehdot määräytyvät grafiikkasuorittimen mallin mukaan.
-
NVIDIA-käyttöoikeuden määrittäminen:
- Varmista, että ESXi-isäntään on asennettu oikea NVIDIA vGPU -lisenssi .
- Jos haluat asentaa tai päivittää vGPU-lisenssin, käytä NVIDIA vGPU -paketin mukana toimitettua vGPU-lisensointiapuohjelmaa .
- Lisenssi tarvitaan, jotta vGPU-toiminto toimii oikein, ja sitä voidaan käyttää ESXi-isännässä komentorivillä.
-
Varmista, että vGPU on käytössä:
- Kun olet asentanut vGPU:n, varmista, että virtuaalikone tunnistaa sen oikein.
- Kirjaudu virtuaalikoneeseen ja suorita seuraava komento:
nvidia-smi
- Tämän pitäisi näyttää virtuaalisen grafiikkasuorittimen tila samalla tavalla kuin fyysisessä koneessa.
Additional Information
Dellin tulisi ehdottaa, että asiakas avaa tapauksen NVIDIAn kanssa vGPU :hin liittyvistä ongelmista joko lähettämällä sähköpostia enterprisesupport@nvidia.com :lle TAI lähettämällä verkkotapauksen portaalin kautta tai ottamalla yhteyttä heihin puhelimitse.
Verkkoportaali: https://www.nvidia.com/en-us/support/
Puhelintuki: