PowerEdge: Błąd sterownika NVIDIA: nvidia-smi nie powiodło się, ponieważ nie mogło komunikować się ze sterownikiem NVIDIA

Summary: Podczas uruchamiania polecenia nvidia-smi może pojawić się błąd sterownika informujący, że "nvidia-smi nie powiodło się, ponieważ nie mogło komunikować się ze sterownikiem NVIDIA.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Polecenie nvidia-smi Polecenie nie uruchamia się i zwraca komunikat o błędzie:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Informacje o karcie graficznej NVIDIA nie są wyświetlane podczas uruchamiania nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Komunikat o błędzie NVIDIA-SMI nie powiódł się

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce komunikat o niepowodzeniu

 

Cause

Błąd "nvidia-smi has failed because it could not communicate with the NVIDIA driver" może być spowodowany kilkoma czynnikami:

  • Sterownik NVIDIA nie jest zainstalowany lub jest uszkodzony: Sterownik NVIDIA może nie być zainstalowany w systemie lub instalacja może być uszkodzona, co powoduje nvidia-smi narzędzie może ulec awarii podczas próby interakcji z procesorem graficznym.

  • Niezgodność sterownika: Wersja zainstalowanego sterownika NVIDIA może nie być zgodna z procesorem graficznym lub systemem operacyjnym, co prowadzi do problemów z komunikacją.

  • Moduł jądra NVIDIA nie został załadowany: Wymagany moduł jądra NVIDIA (nvidia.ko) nie mogą być wczytywane do systemu, co uniemożliwia prawidłową komunikację między nvidia-smi narzędzia i GPU.

  • Błąd inicjalizacji GPU: Procesor graficzny mógł nie zostać prawidłowo zainicjowany podczas rozruchu lub z powodu awarii sprzętu, co oznacza, że nvidia-smi nie może nawiązać z nim komunikacji.

  • Wersje sterowników powodujące konflikt: Mogą być zainstalowane sprzeczne lub wiele sterowników procesora graficznego (na przykład sterownik Nouveau typu open source lub starsze wersje sterowników NVIDIA), co powoduje, że system nie może załadować prawidłowego sterownika NVIDIA.

  • Wadliwy sprzęt: Może występować problem sprzętowy z samą kartą graficzną, taki jak awaria fizyczna, przegrzanie lub nieprawidłowe połączenie, uniemożliwiający systemowi dostęp do niego.

  • Brak lub wygaśnięcie licencji NVIDIA (w przypadku konfiguracji vGPU): W środowiskach zwirtualizowanych brak lub wygaśnięcie licencji NVIDIA vGPU może uniemożliwiać prawidłowe działanie sterownika, co prowadzi do problemów z komunikacją.

  • Aktualizacje systemu lub zmiany jądra: Niedawne aktualizacje systemu operacyjnego lub zmiany jądra mogły wpłynąć na zgodność lub funkcjonalność sterownika NVIDIA, powodując jego awarię.

    Aby rozwiązać ten problem, sprawdź instalację sterownika, upewnij się, że załadowano prawidłowy sterownik oraz czy sprzęt i oprogramowanie są zgodne.

 

Resolution

Przewodnik krok po kroku dotyczący włączania vGPU w oprogramowaniu ESXi 7.0 i nowszych:

  • Zainstaluj menedżera NVIDIA vGPU:

    • Pobierz najnowszą wersję aplikacji NVIDIA vGPU Manager dla oprogramowania VMware ESXi ze strony internetowejKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies. firmy NVIDIA.
    • Użyj SSH, aby uzyskać dostęp do hosta ESXi lub powłoki ESXi, aby zainstalować pakiet vGPU Manager.
  • Zainstaluj sterowniki NVIDIA vGPU w maszynach wirtualnych (VM):

    • Dla każdej maszyny wirtualnej korzystającej z vGPU zainstaluj odpowiedni sterownik GPU NVIDIA w systemie operacyjnym gościa (na przykład Windows, Linux).
    • Pobierz sterowniki ze strony NVIDIA dla określonego systemu operacyjnego.
    • Zainstaluj sterowniki wewnątrz maszyny wirtualnej, tak jak na komputerze fizycznym.
  • Uruchom ponownie hosta ESXi:

    • Po zainstalowaniu NVIDIA vGPU Manager uruchom ponownie hosta ESXi, aby zmiany zaczęły obowiązywać.
  • Sprawdź, czy sterownik NVIDIA jest załadowany:

    • Uruchom następujące polecenie:
      esxcli system module list | grep nvidia
    • Sprawdza to, czy moduł jądra NVIDIA jest załadowany.
  • Ręcznie załaduj sterownik NVIDIA (jeśli nie jest załadowany):

    • Jeśli moduł NVIDIA nie jest załadowany, możesz załadować go ręcznie, uruchamiając:
      esxcli system module load --module=nvidia
  • Włącz wirtualizację sprzętu (jeśli nie jest włączona):

    • Zaloguj się do hosta ESXi za pośrednictwem klienta hosta ESXi lub klienta vSphere.
    • Sprawdź, czy w systemie BIOS/UEFI serwera fizycznego włączono technologię Intel VT-x lub AMD-V . Te opcje są wymagane do wirtualizacji.
  • Sprawdź, czy procesor graficzny NVIDIA został wykryty:

    • Uruchom następujące polecenie:
      lspci | grep -i nvidia
    • Sprawdza to, czy procesor graficzny NVIDIA został wykryty przez ESXi.
  • Sprawdź dzienniki systemowe pod kątem błędów:

    • Użyj polecenia, aby znaleźć określone komunikaty o błędach związane ze sterownikiem NVIDIA:
      tail -f /var/log/vmkernel.log
  • Sprawdzanie dzienników specyficznych dla technologii NVIDIA:

    • Przejrzyj dzienniki specyficzne dla firmy NVIDIA znajdujące się pod adresem:
      /var/log/nvidia-installer.log
  • Konfiguracja vGPU w vSphere:

    • Otwórz klienta vSphere Client i przejdź do hosta ESXi.
    • Kliknij prawym przyciskiem myszy maszynę wirtualną korzystającą z procesora vGPU i wybierz polecenie Edit Settings.
    • Na karcie VM Hardware kliknij opcję Add New Device i wybierz opcję PCI Device.
    • Wybierz procesor GPU NVIDIA (vGPU), który chcesz przypisać do maszyny wirtualnej.
    • Wybierz żądany profil vGPU (na przykład GRID, vComputeServer itp.) w zależności od dostępnych zasobów GPU i licencji.
  • Przypisywanie profilu vGPU:

    • Podczas konfigurowania maszyny wirtualnej przypisz profil vGPU , który określa, ile zasobów fizycznego procesora GPU ma zostać przydzielone do każdej maszyny wirtualnej. Opcje profilu zależą od modelu GPU.
  • Konfiguracja licencji NVIDIA:

    • Upewnij się, że na hoście ESXi zainstalowano prawidłową licencję NVIDIA vGPU .
    • Aby zainstalować lub zaktualizować licencję vGPU, należy użyć narzędzia vGPU Licensing Utility dołączonego do pakietu NVIDIA vGPU.
    • Licencja jest wymagana do prawidłowego działania funkcji vGPU i można ją zastosować do hosta ESXi za pośrednictwem wiersza polecenia.
  • Sprawdź, czy funkcja vGPU jest włączona:

    • Po skonfigurowaniu procesora vGPU sprawdź, czy jest on prawidłowo rozpoznawany w maszynie wirtualnej.
    • Zaloguj się do maszyny wirtualnej i uruchom następujące polecenie:
      nvidia-smi
    • Powinien on wyświetlać stan wirtualnego procesora graficznego podobny do tego, jaki mógłby wyglądać na komputerze fizycznym.

 

Additional Information

Firma Dell powinna zasugerować klientowi otwarcie zgłoszenia do firmy NVIDIA w związku z problemami związanymi z vGPU , wysyłając wiadomość e-mail do enterprisesupport@nvidia.com LUB przesyłając zgłoszenie internetowe za pośrednictwem portalu lub kontaktując się z nimi telefonicznie.

Portal internetowy: https://www.nvidia.com/en-us/support/Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Pomoc telefoniczna:
Telefoniczna pomoc techniczna NVIDIA

Uwaga: Firma Dell może wszcząć sprawę w firmie NVIDIA w celu uzyskania dalszej pomocy, jednak jeśli licencja nie została wydana przez firmę Dell, firma NVIDIA zazwyczaj woli współpracować bezpośrednio z klientem.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.