PowerEdge: Błąd sterownika NVIDIA: nvidia-smi nie powiodło się, ponieważ nie mogło komunikować się ze sterownikiem NVIDIA
Summary: Podczas uruchamiania polecenia nvidia-smi może pojawić się błąd sterownika informujący, że "nvidia-smi nie powiodło się, ponieważ nie mogło komunikować się ze sterownikiem NVIDIA.
Symptoms
Polecenie nvidia-smi Polecenie nie uruchamia się i zwraca komunikat o błędzie:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Informacje o karcie graficznej NVIDIA nie są wyświetlane podczas uruchamiania nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Błąd "nvidia-smi has failed because it could not communicate with the NVIDIA driver" może być spowodowany kilkoma czynnikami:
-
Sterownik NVIDIA nie jest zainstalowany lub jest uszkodzony: Sterownik NVIDIA może nie być zainstalowany w systemie lub instalacja może być uszkodzona, co powoduje
nvidia-sminarzędzie może ulec awarii podczas próby interakcji z procesorem graficznym. -
Niezgodność sterownika: Wersja zainstalowanego sterownika NVIDIA może nie być zgodna z procesorem graficznym lub systemem operacyjnym, co prowadzi do problemów z komunikacją.
-
Moduł jądra NVIDIA nie został załadowany: Wymagany moduł jądra NVIDIA (
nvidia.ko) nie mogą być wczytywane do systemu, co uniemożliwia prawidłową komunikację międzynvidia-sminarzędzia i GPU. -
Błąd inicjalizacji GPU: Procesor graficzny mógł nie zostać prawidłowo zainicjowany podczas rozruchu lub z powodu awarii sprzętu, co oznacza, że
nvidia-sminie może nawiązać z nim komunikacji. -
Wersje sterowników powodujące konflikt: Mogą być zainstalowane sprzeczne lub wiele sterowników procesora graficznego (na przykład sterownik Nouveau typu open source lub starsze wersje sterowników NVIDIA), co powoduje, że system nie może załadować prawidłowego sterownika NVIDIA.
-
Wadliwy sprzęt: Może występować problem sprzętowy z samą kartą graficzną, taki jak awaria fizyczna, przegrzanie lub nieprawidłowe połączenie, uniemożliwiający systemowi dostęp do niego.
-
Brak lub wygaśnięcie licencji NVIDIA (w przypadku konfiguracji vGPU): W środowiskach zwirtualizowanych brak lub wygaśnięcie licencji NVIDIA vGPU może uniemożliwiać prawidłowe działanie sterownika, co prowadzi do problemów z komunikacją.
-
Aktualizacje systemu lub zmiany jądra: Niedawne aktualizacje systemu operacyjnego lub zmiany jądra mogły wpłynąć na zgodność lub funkcjonalność sterownika NVIDIA, powodując jego awarię.
Aby rozwiązać ten problem, sprawdź instalację sterownika, upewnij się, że załadowano prawidłowy sterownik oraz czy sprzęt i oprogramowanie są zgodne.
Resolution
Przewodnik krok po kroku dotyczący włączania vGPU w oprogramowaniu ESXi 7.0 i nowszych:
-
Zainstaluj menedżera NVIDIA vGPU:
- Pobierz najnowszą wersję aplikacji NVIDIA vGPU Manager dla oprogramowania VMware ESXi ze strony internetowej
firmy NVIDIA.
- Użyj SSH, aby uzyskać dostęp do hosta ESXi lub powłoki ESXi, aby zainstalować pakiet vGPU Manager.
- Pobierz najnowszą wersję aplikacji NVIDIA vGPU Manager dla oprogramowania VMware ESXi ze strony internetowej
-
Zainstaluj sterowniki NVIDIA vGPU w maszynach wirtualnych (VM):
- Dla każdej maszyny wirtualnej korzystającej z vGPU zainstaluj odpowiedni sterownik GPU NVIDIA w systemie operacyjnym gościa (na przykład Windows, Linux).
- Pobierz sterowniki ze strony NVIDIA dla określonego systemu operacyjnego.
- Zainstaluj sterowniki wewnątrz maszyny wirtualnej, tak jak na komputerze fizycznym.
-
Uruchom ponownie hosta ESXi:
- Po zainstalowaniu NVIDIA vGPU Manager uruchom ponownie hosta ESXi, aby zmiany zaczęły obowiązywać.
-
Sprawdź, czy sterownik NVIDIA jest załadowany:
- Uruchom następujące polecenie:
esxcli system module list | grep nvidia
- Sprawdza to, czy moduł jądra NVIDIA jest załadowany.
- Uruchom następujące polecenie:
-
Ręcznie załaduj sterownik NVIDIA (jeśli nie jest załadowany):
- Jeśli moduł NVIDIA nie jest załadowany, możesz załadować go ręcznie, uruchamiając:
esxcli system module load --module=nvidia
- Jeśli moduł NVIDIA nie jest załadowany, możesz załadować go ręcznie, uruchamiając:
-
Włącz wirtualizację sprzętu (jeśli nie jest włączona):
- Zaloguj się do hosta ESXi za pośrednictwem klienta hosta ESXi lub klienta vSphere.
- Sprawdź, czy w systemie BIOS/UEFI serwera fizycznego włączono technologię Intel VT-x lub AMD-V . Te opcje są wymagane do wirtualizacji.
-
Sprawdź, czy procesor graficzny NVIDIA został wykryty:
- Uruchom następujące polecenie:
lspci | grep -i nvidia
- Sprawdza to, czy procesor graficzny NVIDIA został wykryty przez ESXi.
- Uruchom następujące polecenie:
-
Sprawdź dzienniki systemowe pod kątem błędów:
- Użyj polecenia, aby znaleźć określone komunikaty o błędach związane ze sterownikiem NVIDIA:
tail -f /var/log/vmkernel.log
- Użyj polecenia, aby znaleźć określone komunikaty o błędach związane ze sterownikiem NVIDIA:
-
Sprawdzanie dzienników specyficznych dla technologii NVIDIA:
- Przejrzyj dzienniki specyficzne dla firmy NVIDIA znajdujące się pod adresem:
/var/log/nvidia-installer.log
- Przejrzyj dzienniki specyficzne dla firmy NVIDIA znajdujące się pod adresem:
-
Konfiguracja vGPU w vSphere:
- Otwórz klienta vSphere Client i przejdź do hosta ESXi.
- Kliknij prawym przyciskiem myszy maszynę wirtualną korzystającą z procesora vGPU i wybierz polecenie Edit Settings.
- Na karcie VM Hardware kliknij opcję Add New Device i wybierz opcję PCI Device.
- Wybierz procesor GPU NVIDIA (vGPU), który chcesz przypisać do maszyny wirtualnej.
- Wybierz żądany profil vGPU (na przykład GRID, vComputeServer itp.) w zależności od dostępnych zasobów GPU i licencji.
-
Przypisywanie profilu vGPU:
- Podczas konfigurowania maszyny wirtualnej przypisz profil vGPU , który określa, ile zasobów fizycznego procesora GPU ma zostać przydzielone do każdej maszyny wirtualnej. Opcje profilu zależą od modelu GPU.
-
Konfiguracja licencji NVIDIA:
- Upewnij się, że na hoście ESXi zainstalowano prawidłową licencję NVIDIA vGPU .
- Aby zainstalować lub zaktualizować licencję vGPU, należy użyć narzędzia vGPU Licensing Utility dołączonego do pakietu NVIDIA vGPU.
- Licencja jest wymagana do prawidłowego działania funkcji vGPU i można ją zastosować do hosta ESXi za pośrednictwem wiersza polecenia.
-
Sprawdź, czy funkcja vGPU jest włączona:
- Po skonfigurowaniu procesora vGPU sprawdź, czy jest on prawidłowo rozpoznawany w maszynie wirtualnej.
- Zaloguj się do maszyny wirtualnej i uruchom następujące polecenie:
nvidia-smi
- Powinien on wyświetlać stan wirtualnego procesora graficznego podobny do tego, jaki mógłby wyglądać na komputerze fizycznym.
Additional Information
Firma Dell powinna zasugerować klientowi otwarcie zgłoszenia do firmy NVIDIA w związku z problemami związanymi z vGPU , wysyłając wiadomość e-mail do enterprisesupport@nvidia.com LUB przesyłając zgłoszenie internetowe za pośrednictwem portalu lub kontaktując się z nimi telefonicznie.
Portal internetowy: https://www.nvidia.com/en-us/support/
Pomoc telefoniczna: