PowerEdge: Chyba ovladače NVIDIA: Rozhraní nvidia-smi selhalo, protože nemohlo komunikovat s ovladačem NVIDIA

Shrnutí: Při spuštění příkazu nvidia-smi se může zobrazit chyba ovladače "nvidia-smi has failed, because it could not communications with the nvidia driver.

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Skript nvidia-smi Příkaz se nezdaří spustit a vrátí chybovou zprávu:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Při spuštění se nezobrazují informace o grafickém procesoru NVIDIA nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Chybová zpráva NVIDIA-SMI has failed

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce zpráva o selhání

 

Příčina

Chyba "nvidia-smi has failed because it could not communicate with the NVIDIA driver" může být způsobeno několika faktory:

  • Ovladač NVIDIA není nainstalován nebo je poškozen: Ovladač NVIDIA nemusí být v systému nainstalován nebo může být instalace poškozena, což způsobí nvidia-smi nástroj selže při pokusu o interakci s grafickým procesorem.

  • Nekompatibilita ovladačů: Verze nainstalovaného ovladače NVIDIA nemusí být kompatibilní s GPU nebo operačním systémem, což může vést k problémům s komunikací.

  • Modul jádra NVIDIA není načten: Požadovaný modul jádra NVIDIA (nvidia.ko) nesmí být načteny do systému, což brání správné komunikaci mezi nvidia-smi a GPU.

  • Selhání inicializace GPU: Grafická karta nemusí být správně inicializována během spouštění nebo kvůli selhání hardwaru, což znamená, že nvidia-smi nemůže s ním navázat komunikaci.

  • Konfliktní verze ovladačů: Mohou být nainstalovány konfliktní nebo více ovladačů GPU (například ovladač Nouveau open-source nebo starší verze ovladačů NVIDIA), což způsobí, že systém nenačte správný ovladač NVIDIA.

  • Vadný hardware: Může se jednat o hardwarový problém samotné grafické karty, například fyzickou poruchu, přehřátí nebo nesprávné připojení, které systému brání v přístupu k grafické kartě.

  • Chybějící nebo ukončená licence NVIDIA (pro nastavení vGPU): Ve virtualizovaných prostředích může chybějící licence NVIDIA vGPU nebo její platnost zabránit správnému fungování ovladače, což může vést k selhání komunikace.

  • Aktualizace systému nebo změny jádra: Nedávné aktualizace operačního systému nebo změny jádra mohly ovlivnit kompatibilitu nebo funkčnost ovladače NVIDIA a způsobit jeho selhání.

    Chcete-li tento problém vyřešit, zkontrolujte instalaci ovladače, ověřte, zda je načten správný ovladač, a ujistěte se, že hardware a software jsou kompatibilní.

 

Řešení

Podrobný průvodce povolením funkce vGPU v systému ESXi 7.0 a novějším:

  • Nainstalujte nástroj NVIDIA vGPU Manager:

    • Stáhněte si nejnovější verzi nástroje NVIDIA vGPU Manager pro systém VMware ESXi z webuTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. NVIDIA.
    • Pro přístup k hostiteli ESXi použijte SSH nebo pomocí prostředí ESXi nainstalujte balíček vGPU Manager.
  • Nainstalujte ovladače NVIDIA vGPU do části Virtual Machines (VM):

    • Pro každý virtuální počítač, který používá vGPU, nainstalujte příslušný ovladač NVIDIA GPU v hostovaném operačním systému (například Windows, Linux).
    • Z webových stránek NVIDIA stáhněte ovladače pro konkrétní operační systém.
    • Nainstalujte ovladače do virtuálního počítače stejně jako na fyzickém počítači.
  • Restartujte hostitele ESXi:

    • Po instalaci nástroje NVIDIA vGPU Manager restartujte hostitele ESXi, aby se změny projevily.
  • Zkontrolujte, zda je načten ovladač NVIDIA:

    • Zadejte následující příkaz:
      esxcli system module list | grep nvidia
    • Tím se zkontroluje, jestli je načten modul jádra NVIDIA.
  • Ručně načtěte ovladač NVIDIA (není-li načten):

    • Pokud se modul NVIDIA nenačte, můžete jej načíst ručně spuštěním:
      esxcli system module load --module=nvidia
  • Povolit virtualizaci hardwaru (pokud není povolena):

    • Přihlaste se k hostiteli ESXi prostřednictvím hostitelského klienta ESXi nebo klienta vSphere.
    • Zkontrolujte, zda je v systému BIOS/UEFI fyzického serveru povolena technologie Intel VT-x nebo AMD-V . Tyto možnosti jsou vyžadovány pro virtualizaci.
  • Zkontrolujte, zda je detekován grafický procesor NVIDIA:

    • Zadejte následující příkaz:
      lspci | grep -i nvidia
    • Tím se ověří, jestli systém ESXi rozpozná grafickou kartu NVIDIA.
  • Zkontrolujte, zda systémové protokoly neobsahují chyby:

    • Pomocí příkazu vyhledejte konkrétní chybové zprávy související s ovladačem NVIDIA:
      tail -f /var/log/vmkernel.log
  • Zkontrolujte protokoly specifické pro grafické karty NVIDIA:

    • Projděte si protokoly specifické pro grafické karty NVIDIA, které se nacházejí na adrese:
      /var/log/nvidia-installer.log
  • Konfigurace vGPU v systému vSphere:

    • Otevřete klienta vSphere a přejděte na hostitele ESXi.
    • Klikněte pravým tlačítkem na virtuální počítač, který používá vGPU, a vyberte Upravit nastavení.
    • Na kartě VM Hardware klikněte na možnost Add New Device a vyberte možnost PCI Device.
    • Zvolte grafickou kartu NVIDIA (vGPU), kterou chcete přiřadit k virtuálnímu počítači.
    • Vyberte požadovaný profil vGPU (například GRID, vComputeServer atd.) v závislosti na dostupných zdrojích grafické karty a licencování.
  • Přiřazení profilu vGPU:

    • Při konfiguraci virtuálního počítače přiřaďte profil vGPU , který určuje, kolik prostředků fyzického GPU se má přidělit jednotlivým virtuálním počítačům. Možnosti profilu závisejí na modelu grafické karty.
  • Konfigurace licence NVIDIA:

    • Ujistěte se, že je v hostiteli ESXi nainstalována správná licence NVIDIA vGPU .
    • K instalaci nebo aktualizaci licence vGPU použijte nástroj pro licencování vGPU , který se dodává s balíčkem NVIDIA vGPU.
    • Licence je vyžadována, aby funkce vGPU fungovala správně, a lze ji použít u hostitele ESXi prostřednictvím příkazového řádku.
  • Ověřte, zda je povolen nástroj vGPU:

    • Po nastavení ověřte, že je virtuální GPU správně rozpoznáno ve virtuálním počítači.
    • Přihlaste se k virtuálnímu počítači a spusťte následující příkaz:
      nvidia-smi
    • Tím by se měl zobrazit stav virtuálního GPU, podobně jako na fyzickém počítači.

 

Další informace

Společnost Dell by měla zákazníkovi doporučit, aby v případě problémů souvisejících s vGPU otevřel případ u společnosti NVIDIA, a to buď zasláním e-mailu společnosti enterprisesupport@nvidia.com , NEBO odesláním webového případu prostřednictvím jejího portálu, případně kontaktováním telefonicky.

Webový portál: https://www.nvidia.com/en-us/support/Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.

Telefonická podpora:
Telefonická podpora NVIDIA

Poznámka: Společnost Dell sice může zahájit případ se společností NVIDIA a požádat o další pomoc, ale pokud licenci nevydá společnost Dell, společnost NVIDIA obvykle preferuje přímou spolupráci se zákazníkem.

 

Dotčené produkty

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Produkty

HS Series, OEM Server Solutions
Vlastnosti článku
Číslo článku: 000252982
Typ článku: Solution
Poslední úprava: 08 Nov 2025
Verze:  3
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.