PowerEdge: NVIDIA-ohjaimen virhe: nvidia-smi epäonnistui, koska se ei voinut kommunikoida NVIDIA-ohjaimen kanssa

Summary: Kun suoritat nvidia-smi-komentoa, saatat kohdata ohjainvirheen, jossa todetaan, että "nvidia-smi on epäonnistunut, koska se ei voinut kommunikoida NVIDIA-ohjaimen kanssa.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

pikanäppäimellä nvidia-smi Komennon suorittaminen epäonnistuu ja se palauttaa virhesanoman:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

NVIDIA-grafiikkasuorittimen tietoja ei näytetä käytön aikana nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
nvidia-SMI on failed -virheilmoitus

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce viesti epäonnistui

 

Cause

Virhe "nvidia-smi has failed because it could not communicate with the NVIDIA driver" voi johtua useista tekijöistä:

  • NVIDIA-ohjainta ei ole asennettu tai se on vioittunut: NVIDIA-ohjainta ei ehkä ole asennettu järjestelmään tai asennus voi vioittua, mikä aiheuttaa nvidia-smi työkalu epäonnistuu, kun yrität olla vuorovaikutuksessa GPU: n kanssa.

  • Ohjainten yhteensopimattomuus: Asennetun NVIDIA-ohjaimen versio ei välttämättä ole yhteensopiva grafiikkasuorittimen tai käyttöjärjestelmän kanssa, mikä aiheuttaa tiedonsiirto-ongelmia.

  • NVIDIA-ydinmoduulia ei ladattu: Tarvittava NVIDIA-ydinmoduuli (nvidia.ko) ei saa ladata järjestelmään, mikä estää asianmukaisen tiedonsiirron nvidia-smi työkalu ja GPU.

  • Grafiikkasuorittimen alustusvirhe: GPU:ta ei ehkä alustettu oikein käynnistyksen aikana tai laitteistovian vuoksi, mikä tarkoittaa nvidia-smi ei voi muodostaa yhteyttä siihen.

  • Ristiriitaiset ajuriversiot: Järjestelmään saattaa liittyä ristiriitaisia tai useita grafiikkasuorittimen ajureita (esimerkiksi avoimen lähdekoodin Nouveau-ajuri tai vanhempi NVIDIA-ajuriversio), jolloin järjestelmä ei lataa oikeaa NVIDIA-ohjainta.

  • Viallinen laitteisto: Itse grafiikkasuorittimessa voi olla laitteisto-ongelma, kuten fyysinen toimintahäiriö, ylikuumeneminen tai virheellinen liitäntä, joka estää järjestelmää käyttämästä sitä.

  • NVIDIA-lisenssi puuttuu tai on vanhentunut (vGPU-kokoonpanot): Virtualisoiduissa ympäristöissä puuttuva tai vanhentunut NVIDIA vGPU -lisenssi voi estää ohjainta toimimasta oikein, mikä voi johtaa tiedonsiirtovirheisiin.

  • Järjestelmäpäivitykset tai ytimen muutokset: Käyttöjärjestelmän tai ytimen viimeaikaiset päivitykset ovat saattaneet vaikuttaa NVIDIA-ohjaimen yhteensopivuuteen tai toimintoihin ja aiheuttaa epäonnistumisen.

    Voit ratkaista ongelman tarkistamalla ohjaimen asennuksen, varmistamalla, että oikea ohjain on ladattu, ja varmistamalla, että laitteisto ja ohjelmisto ovat yhteensopivia.

 

Resolution

Vaiheittainen opas vGPU:n ottamiseksi käyttöön ESXi 7.0:ssa ja uudemmissa:

  • Asenna NVIDIA vGPU Manager:

    • Lataa uusin NVIDIA vGPU Manager VMware ESXille NVIDIA-verkkosivustoltaTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon..
    • Käytä SSH:ta ESXi-isännän muodostamiseen tai ESXi Shellin kautta vGPU Manager -paketin asentamiseen.
  • Asenna NVIDIA vGPU -ohjaimet virtuaalikoneisiin (VM):

    • Asenna jokaiselle vGPU:ta käyttävälle virtuaalikoneelle asianmukainen NVIDIA-grafiikkasuorittimen ohjain vieraskäyttöjärjestelmään (esimerkiksi Windows, Linux).
    • Lataa käyttöjärjestelmän ohjaimet NVIDIA-sivustolta.
    • Asenna ohjaimet virtuaalikoneen sisälle samalla tavalla kuin fyysisessä koneessa.
  • Käynnistä ESXi-isäntä uudelleen:

    • Kun olet asentanut NVIDIA vGPU Managerin, ota muutokset käyttöön käynnistämällä ESXi-isäntä uudelleen.
  • Tarkista, onko NVIDIA-ohjain ladattu:

    • Suorita komento:
      esxcli system module list | grep nvidia
    • Tämä tarkistaa, onko NVIDIA-ydinmoduuli ladattu.
  • Lataa NVIDIA-ohjain manuaalisesti (jos sitä ei ole ladattu):

    • Jos NVIDIA-moduulia ei ole ladattu, voit ladata sen manuaalisesti suorittamalla seuraavaa:
      esxcli system module load --module=nvidia
  • Ota laitteiston virtualisointi käyttöön (jos ei käytössä):

    • Kirjaudu ESXi-isäntään ESXi-isäntäasiakasohjelman tai vSphere-asiakasohjelman kautta.
    • Varmista, että Intel VT-x tai AMD-V on otettu käyttöön fyysisen palvelimen BIOSissa/UEFIssa. Näitä vaihtoehtoja tarvitaan virtualisointiin.
  • Tarkista, löytyykö NVIDIA-grafiikkasuoritin:

    • Suorita komento:
      lspci | grep -i nvidia
    • ESXi tunnistaa NVIDIA-grafiikkasuorittimen.
  • Tarkista järjestelmälokit virheiden varalta:

    • Etsi komennolla NVIDIA-ohjaimeen liittyviä virheilmoituksia:
      tail -f /var/log/vmkernel.log
  • Tarkista NVIDIA-kohtaiset lokit:

    • Tarkista NVIDIA-lokit osoitteessa
      /var/log/nvidia-installer.log
  • Määritä vGPU vSpheressä:

    • Avaa vSphere Client ja siirry ESXi-isäntään.
    • Napsauta hiiren kakkospainikkeella virtuaalikonetta, joka käyttää vGPU:ta, ja valitse Muokkaa asetuksia.
    • Valitse VM Hardware (VM-laitteisto ) -välilehdessä Add New Device ja sitten PCI Device.
    • Valitse NVIDIA-grafiikkasuoritin (vGPU), jonka haluat määrittää virtuaalikoneeseen.
    • Valitse haluamasi vGPU-profiili (esimerkiksi GRID tai vComputeServer) käytettävissä olevien grafiikkasuoritinresurssien ja käyttöoikeuksien mukaan.
  • Määritä vGPU-profiili:

    • Kun määrität virtuaalikonetta, määritä vGPU-profiili , joka määrittää, kuinka suuri osa fyysisen grafiikkasuorittimen resursseista varataan kullekin virtuaalikoneelle. Profiilivaihtoehdot määräytyvät grafiikkasuorittimen mallin mukaan.
  • NVIDIA-käyttöoikeuden määrittäminen:

    • Varmista, että ESXi-isäntään on asennettu oikea NVIDIA vGPU -lisenssi .
    • Jos haluat asentaa tai päivittää vGPU-lisenssin, käytä NVIDIA vGPU -paketin mukana toimitettua vGPU-lisensointiapuohjelmaa .
    • Lisenssi tarvitaan, jotta vGPU-toiminto toimii oikein, ja sitä voidaan käyttää ESXi-isännässä komentorivillä.
  • Varmista, että vGPU on käytössä:

    • Kun olet asentanut vGPU:n, varmista, että virtuaalikone tunnistaa sen oikein.
    • Kirjaudu virtuaalikoneeseen ja suorita seuraava komento:
      nvidia-smi
    • Tämän pitäisi näyttää virtuaalisen grafiikkasuorittimen tila samalla tavalla kuin fyysisessä koneessa.

 

Additional Information

Dellin tulisi ehdottaa, että asiakas avaa tapauksen NVIDIAn kanssa vGPU :hin liittyvistä ongelmista joko lähettämällä sähköpostia enterprisesupport@nvidia.com :lle TAI lähettämällä verkkotapauksen portaalin kautta tai ottamalla yhteyttä heihin puhelimitse.

Verkkoportaali: https://www.nvidia.com/en-us/support/Tämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.

Puhelintuki:
NVIDIA-puhelintuki

Huomautus: Dell voi aloittaa tapauksen NVIDIAn kanssa lisätukea varten, mutta jos lisenssi ei ole Dellin myöntämä, NVIDIA haluaa yleensä työskennellä suoraan asiakkaan kanssa.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.