PowerEdge: Chyba ovladače NVIDIA: Rozhraní nvidia-smi selhalo, protože nemohlo komunikovat s ovladačem NVIDIA

Summary: Při spuštění příkazu nvidia-smi se může zobrazit chyba ovladače "nvidia-smi has failed, because it could not communications with the nvidia driver.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Skript nvidia-smi Příkaz se nezdaří spustit a vrátí chybovou zprávu:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Při spuštění se nezobrazují informace o grafickém procesoru NVIDIA nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Chybová zpráva NVIDIA-SMI has failed

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce zpráva o selhání

 

Cause

Chyba "nvidia-smi has failed because it could not communicate with the NVIDIA driver" může být způsobeno několika faktory:

  • Ovladač NVIDIA není nainstalován nebo je poškozen: Ovladač NVIDIA nemusí být v systému nainstalován nebo může být instalace poškozena, což způsobí nvidia-smi nástroj selže při pokusu o interakci s grafickým procesorem.

  • Nekompatibilita ovladačů: Verze nainstalovaného ovladače NVIDIA nemusí být kompatibilní s GPU nebo operačním systémem, což může vést k problémům s komunikací.

  • Modul jádra NVIDIA není načten: Požadovaný modul jádra NVIDIA (nvidia.ko) nesmí být načteny do systému, což brání správné komunikaci mezi nvidia-smi a GPU.

  • Selhání inicializace GPU: Grafická karta nemusí být správně inicializována během spouštění nebo kvůli selhání hardwaru, což znamená, že nvidia-smi nemůže s ním navázat komunikaci.

  • Konfliktní verze ovladačů: Mohou být nainstalovány konfliktní nebo více ovladačů GPU (například ovladač Nouveau open-source nebo starší verze ovladačů NVIDIA), což způsobí, že systém nenačte správný ovladač NVIDIA.

  • Vadný hardware: Může se jednat o hardwarový problém samotné grafické karty, například fyzickou poruchu, přehřátí nebo nesprávné připojení, které systému brání v přístupu k grafické kartě.

  • Chybějící nebo ukončená licence NVIDIA (pro nastavení vGPU): Ve virtualizovaných prostředích může chybějící licence NVIDIA vGPU nebo její platnost zabránit správnému fungování ovladače, což může vést k selhání komunikace.

  • Aktualizace systému nebo změny jádra: Nedávné aktualizace operačního systému nebo změny jádra mohly ovlivnit kompatibilitu nebo funkčnost ovladače NVIDIA a způsobit jeho selhání.

    Chcete-li tento problém vyřešit, zkontrolujte instalaci ovladače, ověřte, zda je načten správný ovladač, a ujistěte se, že hardware a software jsou kompatibilní.

 

Resolution

Podrobný průvodce povolením funkce vGPU v systému ESXi 7.0 a novějším:

  • Nainstalujte nástroj NVIDIA vGPU Manager:

    • Stáhněte si nejnovější verzi nástroje NVIDIA vGPU Manager pro systém VMware ESXi z webuTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. NVIDIA.
    • Pro přístup k hostiteli ESXi použijte SSH nebo pomocí prostředí ESXi nainstalujte balíček vGPU Manager.
  • Nainstalujte ovladače NVIDIA vGPU do části Virtual Machines (VM):

    • Pro každý virtuální počítač, který používá vGPU, nainstalujte příslušný ovladač NVIDIA GPU v hostovaném operačním systému (například Windows, Linux).
    • Z webových stránek NVIDIA stáhněte ovladače pro konkrétní operační systém.
    • Nainstalujte ovladače do virtuálního počítače stejně jako na fyzickém počítači.
  • Restartujte hostitele ESXi:

    • Po instalaci nástroje NVIDIA vGPU Manager restartujte hostitele ESXi, aby se změny projevily.
  • Zkontrolujte, zda je načten ovladač NVIDIA:

    • Zadejte následující příkaz:
      esxcli system module list | grep nvidia
    • Tím se zkontroluje, jestli je načten modul jádra NVIDIA.
  • Ručně načtěte ovladač NVIDIA (není-li načten):

    • Pokud se modul NVIDIA nenačte, můžete jej načíst ručně spuštěním:
      esxcli system module load --module=nvidia
  • Povolit virtualizaci hardwaru (pokud není povolena):

    • Přihlaste se k hostiteli ESXi prostřednictvím hostitelského klienta ESXi nebo klienta vSphere.
    • Zkontrolujte, zda je v systému BIOS/UEFI fyzického serveru povolena technologie Intel VT-x nebo AMD-V . Tyto možnosti jsou vyžadovány pro virtualizaci.
  • Zkontrolujte, zda je detekován grafický procesor NVIDIA:

    • Zadejte následující příkaz:
      lspci | grep -i nvidia
    • Tím se ověří, jestli systém ESXi rozpozná grafickou kartu NVIDIA.
  • Zkontrolujte, zda systémové protokoly neobsahují chyby:

    • Pomocí příkazu vyhledejte konkrétní chybové zprávy související s ovladačem NVIDIA:
      tail -f /var/log/vmkernel.log
  • Zkontrolujte protokoly specifické pro grafické karty NVIDIA:

    • Projděte si protokoly specifické pro grafické karty NVIDIA, které se nacházejí na adrese:
      /var/log/nvidia-installer.log
  • Konfigurace vGPU v systému vSphere:

    • Otevřete klienta vSphere a přejděte na hostitele ESXi.
    • Klikněte pravým tlačítkem na virtuální počítač, který používá vGPU, a vyberte Upravit nastavení.
    • Na kartě VM Hardware klikněte na možnost Add New Device a vyberte možnost PCI Device.
    • Zvolte grafickou kartu NVIDIA (vGPU), kterou chcete přiřadit k virtuálnímu počítači.
    • Vyberte požadovaný profil vGPU (například GRID, vComputeServer atd.) v závislosti na dostupných zdrojích grafické karty a licencování.
  • Přiřazení profilu vGPU:

    • Při konfiguraci virtuálního počítače přiřaďte profil vGPU , který určuje, kolik prostředků fyzického GPU se má přidělit jednotlivým virtuálním počítačům. Možnosti profilu závisejí na modelu grafické karty.
  • Konfigurace licence NVIDIA:

    • Ujistěte se, že je v hostiteli ESXi nainstalována správná licence NVIDIA vGPU .
    • K instalaci nebo aktualizaci licence vGPU použijte nástroj pro licencování vGPU , který se dodává s balíčkem NVIDIA vGPU.
    • Licence je vyžadována, aby funkce vGPU fungovala správně, a lze ji použít u hostitele ESXi prostřednictvím příkazového řádku.
  • Ověřte, zda je povolen nástroj vGPU:

    • Po nastavení ověřte, že je virtuální GPU správně rozpoznáno ve virtuálním počítači.
    • Přihlaste se k virtuálnímu počítači a spusťte následující příkaz:
      nvidia-smi
    • Tím by se měl zobrazit stav virtuálního GPU, podobně jako na fyzickém počítači.

 

Additional Information

Společnost Dell by měla zákazníkovi doporučit, aby v případě problémů souvisejících s vGPU otevřel případ u společnosti NVIDIA, a to buď zasláním e-mailu společnosti enterprisesupport@nvidia.com , NEBO odesláním webového případu prostřednictvím jejího portálu, případně kontaktováním telefonicky.

Webový portál: https://www.nvidia.com/en-us/support/Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.

Telefonická podpora:
Telefonická podpora NVIDIA

Poznámka: Společnost Dell sice může zahájit případ se společností NVIDIA a požádat o další pomoc, ale pokud licenci nevydá společnost Dell, společnost NVIDIA obvykle preferuje přímou spolupráci se zákazníkem.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.