PowerEdge: Chyba ovladače NVIDIA: Rozhraní nvidia-smi selhalo, protože nemohlo komunikovat s ovladačem NVIDIA
Summary: Při spuštění příkazu nvidia-smi se může zobrazit chyba ovladače "nvidia-smi has failed, because it could not communications with the nvidia driver.
Symptoms
Skript nvidia-smi Příkaz se nezdaří spustit a vrátí chybovou zprávu:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Při spuštění se nezobrazují informace o grafickém procesoru NVIDIA nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Chyba "nvidia-smi has failed because it could not communicate with the NVIDIA driver" může být způsobeno několika faktory:
-
Ovladač NVIDIA není nainstalován nebo je poškozen: Ovladač NVIDIA nemusí být v systému nainstalován nebo může být instalace poškozena, což způsobí
nvidia-sminástroj selže při pokusu o interakci s grafickým procesorem. -
Nekompatibilita ovladačů: Verze nainstalovaného ovladače NVIDIA nemusí být kompatibilní s GPU nebo operačním systémem, což může vést k problémům s komunikací.
-
Modul jádra NVIDIA není načten: Požadovaný modul jádra NVIDIA (
nvidia.ko) nesmí být načteny do systému, což brání správné komunikaci mezinvidia-smia GPU. -
Selhání inicializace GPU: Grafická karta nemusí být správně inicializována během spouštění nebo kvůli selhání hardwaru, což znamená, že
nvidia-sminemůže s ním navázat komunikaci. -
Konfliktní verze ovladačů: Mohou být nainstalovány konfliktní nebo více ovladačů GPU (například ovladač Nouveau open-source nebo starší verze ovladačů NVIDIA), což způsobí, že systém nenačte správný ovladač NVIDIA.
-
Vadný hardware: Může se jednat o hardwarový problém samotné grafické karty, například fyzickou poruchu, přehřátí nebo nesprávné připojení, které systému brání v přístupu k grafické kartě.
-
Chybějící nebo ukončená licence NVIDIA (pro nastavení vGPU): Ve virtualizovaných prostředích může chybějící licence NVIDIA vGPU nebo její platnost zabránit správnému fungování ovladače, což může vést k selhání komunikace.
-
Aktualizace systému nebo změny jádra: Nedávné aktualizace operačního systému nebo změny jádra mohly ovlivnit kompatibilitu nebo funkčnost ovladače NVIDIA a způsobit jeho selhání.
Chcete-li tento problém vyřešit, zkontrolujte instalaci ovladače, ověřte, zda je načten správný ovladač, a ujistěte se, že hardware a software jsou kompatibilní.
Resolution
Podrobný průvodce povolením funkce vGPU v systému ESXi 7.0 a novějším:
-
Nainstalujte nástroj NVIDIA vGPU Manager:
- Stáhněte si nejnovější verzi nástroje NVIDIA vGPU Manager pro systém VMware ESXi z webu
NVIDIA.
- Pro přístup k hostiteli ESXi použijte SSH nebo pomocí prostředí ESXi nainstalujte balíček vGPU Manager.
- Stáhněte si nejnovější verzi nástroje NVIDIA vGPU Manager pro systém VMware ESXi z webu
-
Nainstalujte ovladače NVIDIA vGPU do části Virtual Machines (VM):
- Pro každý virtuální počítač, který používá vGPU, nainstalujte příslušný ovladač NVIDIA GPU v hostovaném operačním systému (například Windows, Linux).
- Z webových stránek NVIDIA stáhněte ovladače pro konkrétní operační systém.
- Nainstalujte ovladače do virtuálního počítače stejně jako na fyzickém počítači.
-
Restartujte hostitele ESXi:
- Po instalaci nástroje NVIDIA vGPU Manager restartujte hostitele ESXi, aby se změny projevily.
-
Zkontrolujte, zda je načten ovladač NVIDIA:
- Zadejte následující příkaz:
esxcli system module list | grep nvidia
- Tím se zkontroluje, jestli je načten modul jádra NVIDIA.
- Zadejte následující příkaz:
-
Ručně načtěte ovladač NVIDIA (není-li načten):
- Pokud se modul NVIDIA nenačte, můžete jej načíst ručně spuštěním:
esxcli system module load --module=nvidia
- Pokud se modul NVIDIA nenačte, můžete jej načíst ručně spuštěním:
-
Povolit virtualizaci hardwaru (pokud není povolena):
- Přihlaste se k hostiteli ESXi prostřednictvím hostitelského klienta ESXi nebo klienta vSphere.
- Zkontrolujte, zda je v systému BIOS/UEFI fyzického serveru povolena technologie Intel VT-x nebo AMD-V . Tyto možnosti jsou vyžadovány pro virtualizaci.
-
Zkontrolujte, zda je detekován grafický procesor NVIDIA:
- Zadejte následující příkaz:
lspci | grep -i nvidia
- Tím se ověří, jestli systém ESXi rozpozná grafickou kartu NVIDIA.
- Zadejte následující příkaz:
-
Zkontrolujte, zda systémové protokoly neobsahují chyby:
- Pomocí příkazu vyhledejte konkrétní chybové zprávy související s ovladačem NVIDIA:
tail -f /var/log/vmkernel.log
- Pomocí příkazu vyhledejte konkrétní chybové zprávy související s ovladačem NVIDIA:
-
Zkontrolujte protokoly specifické pro grafické karty NVIDIA:
- Projděte si protokoly specifické pro grafické karty NVIDIA, které se nacházejí na adrese:
/var/log/nvidia-installer.log
- Projděte si protokoly specifické pro grafické karty NVIDIA, které se nacházejí na adrese:
-
Konfigurace vGPU v systému vSphere:
- Otevřete klienta vSphere a přejděte na hostitele ESXi.
- Klikněte pravým tlačítkem na virtuální počítač, který používá vGPU, a vyberte Upravit nastavení.
- Na kartě VM Hardware klikněte na možnost Add New Device a vyberte možnost PCI Device.
- Zvolte grafickou kartu NVIDIA (vGPU), kterou chcete přiřadit k virtuálnímu počítači.
- Vyberte požadovaný profil vGPU (například GRID, vComputeServer atd.) v závislosti na dostupných zdrojích grafické karty a licencování.
-
Přiřazení profilu vGPU:
- Při konfiguraci virtuálního počítače přiřaďte profil vGPU , který určuje, kolik prostředků fyzického GPU se má přidělit jednotlivým virtuálním počítačům. Možnosti profilu závisejí na modelu grafické karty.
-
Konfigurace licence NVIDIA:
- Ujistěte se, že je v hostiteli ESXi nainstalována správná licence NVIDIA vGPU .
- K instalaci nebo aktualizaci licence vGPU použijte nástroj pro licencování vGPU , který se dodává s balíčkem NVIDIA vGPU.
- Licence je vyžadována, aby funkce vGPU fungovala správně, a lze ji použít u hostitele ESXi prostřednictvím příkazového řádku.
-
Ověřte, zda je povolen nástroj vGPU:
- Po nastavení ověřte, že je virtuální GPU správně rozpoznáno ve virtuálním počítači.
- Přihlaste se k virtuálnímu počítači a spusťte následující příkaz:
nvidia-smi
- Tím by se měl zobrazit stav virtuálního GPU, podobně jako na fyzickém počítači.
Additional Information
Společnost Dell by měla zákazníkovi doporučit, aby v případě problémů souvisejících s vGPU otevřel případ u společnosti NVIDIA, a to buď zasláním e-mailu společnosti enterprisesupport@nvidia.com , NEBO odesláním webového případu prostřednictvím jejího portálu, případně kontaktováním telefonicky.
Webový portál: https://www.nvidia.com/en-us/support/
Telefonická podpora: