PowerEdge: NVIDIA Sürücü Hatası: nvidia-smi, NVIDIA sürücüsüyle iletişim kuramadığı için başarısız oldu
Summary: nvidia-smi komutunu çalıştırırken "nvidia-smi, NVIDIA sürücüsüyle iletişim kuramadığı için başarısız oldu.
Symptoms
Komutta nvidia-smi Komut çalıştırılamaz ve şu hata mesajını döndürür:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Çalışırken NVIDIA GPU bilgileri görüntülenmiyor nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Hata "nvidia-smi has failed because it could not communicate with the NVIDIA driver" birkaç faktörden kaynaklanabilir:
-
NVIDIA Sürücüsü Yüklü Değil veya Bozuk: NVIDIA sürücüsü sisteme yüklenmemiş olabilir veya yükleme bozulmuş olabilir.
nvidia-smiaracı GPU ile etkileşime girmeye çalışırken başarısız oluyor. -
Sürücü Uyumsuzluğu: Yüklü NVIDIA sürücüsünün sürümü, GPU veya işletim sistemiyle uyumlu olmayabilir ve bu da iletişim sorunlarına yol açabilir.
-
NVIDIA Çekirdek Modülü Yüklü Değil: Gerekli NVIDIA çekirdek modülü (
nvidia.ko) sisteme yüklenemeyebilir, bu da aralarındaki düzgün iletişimi engeller.nvidia-smiaracı ve GPU. -
GPU Başlatma Hatası: GPU, önyükleme sırasında veya bir donanım arızası nedeniyle düzgün şekilde başlatılmamış olabilir.
nvidia-smiile iletişim kuramaz. -
Çakışan Sürücü Sürümleri: Çakışan veya birden fazla GPU sürücüsü (örneğin, Nouveau açık kaynaklı sürücüsü veya daha eski NVIDIA sürücü sürümleri) yüklenebilir ve bu da sistemin doğru NVIDIA sürücüsünü yükleyememesine neden olabilir.
-
Arızalı Donanım: GPU'nun kendisinde fiziksel bir arıza, aşırı ısınma veya yanlış bağlantı gibi sistemin GPU'ya erişmesini engelleyen bir donanım sorunu olabilir.
-
Eksik veya Süresi Dolmuş NVIDIA Lisansı (vGPU kurulumları için): Sanallaştırılmış ortamlarda, eksik veya süresi dolmuş bir NVIDIA vGPU lisansı, sürücünün düzgün çalışmasını engelleyerek iletişim hatalarına yol açabilir.
-
Sistem Güncellemeleri veya Çekirdek Değişiklikleri: İşletim sisteminde yapılan son güncellemeler veya çekirdek değişiklikleri, NVIDIA sürücüsünün uyumluluğunu veya işlevselliğini etkileyerek arızalanmasına neden olmuş olabilir.
Bu sorunu çözmek için sürücü yüklemesini kontrol edin, doğru sürücünün yüklendiğini doğrulayın ve donanım ile yazılımın uyumlu olduğundan emin olun.
Resolution
ESXi 7.0 ve sonraki sürümlerde vGPU'yu etkinleştirmek için adım adım rehber:
-
NVIDIA vGPU Manager ı yükleyin:
- NVIDIA web
sitesinden VMware ESXi için en yeni NVIDIA vGPU Manager ı indirin.
- ESXi ana bilgisayarına erişmek için SSH'yi veya vGPU Manager paketini yüklemek için ESXi Kabuğunu kullanın.
- NVIDIA web
-
NVIDIA vGPU sürücülerini sanal makinelere (VM'ler) yükleyin:
- vGPU kullanan her VM için konuk işletim sistemine (örneğin Windows, Linux) uygun NVIDIA GPU sürücüsünü yükleyin.
- İlgili işletim sistemi için sürücüleri NVIDIA web sitesinden indirin.
- Sürücüleri, fiziksel bir makinede olduğu gibi VM'nin içine yükleyin.
-
ESXi ana bilgisayarını yeniden başlatın:
- NVIDIA vGPU Manager'ı kurduktan sonra, değişikliklerin etkili olması için ESXi ana bilgisayarını yeniden başlatın.
-
NVIDIA Sürücüsünün Yüklenip Yüklenmediğini Kontrol Edin:
- Şu komutu çalıştırın:
esxcli system module list | grep nvidia
- Bu, NVIDIA çekirdek modülünün yüklenip yüklenmediğini kontrol eder.
- Şu komutu çalıştırın:
-
NVIDIA Sürücüsünü Manuel Olarak Yükleyin (yüklü değilse):
- NVIDIA modülü yüklü değilse, aşağıdaki komutu çalıştırarak manuel olarak yükleyebilirsiniz:
esxcli system module load --module=nvidia
- NVIDIA modülü yüklü değilse, aşağıdaki komutu çalıştırarak manuel olarak yükleyebilirsiniz:
-
Donanım Sanallaştırmayı Etkinleştir (etkin değilse):
- ESXi Ana Bilgisayar İstemcisi veya vSphere Client üzerinden ESXi ana bilgisayarında oturum açın.
- Fiziksel sunucunun BIOS/UEFI'sinde Intel VT-x veya AMD-V'nin etkinleştirildiğinden emin olun. Bu seçenekler sanallaştırma için gereklidir.
-
NVIDIA GPU'nun algılanıp algılanmadığını kontrol edin:
- Şu komutu çalıştırın:
lspci | grep -i nvidia
- Bu, NVIDIA GPU'nun ESXi tarafından algılanıp algılanmadığını kontrol eder.
- Şu komutu çalıştırın:
-
Hatalar için sistem günlüklerini kontrol edin:
- NVIDIA sürücüsüyle ilgili belirli hata mesajlarını bulmak için şu komutu kullanın:
tail -f /var/log/vmkernel.log
- NVIDIA sürücüsüyle ilgili belirli hata mesajlarını bulmak için şu komutu kullanın:
-
NVIDIA'ya Özgü Günlükleri Kontrol Edin:
- Şu adreste bulunan NVIDIA'ya özel günlükleri inceleyin:
/var/log/nvidia-installer.log
- Şu adreste bulunan NVIDIA'ya özel günlükleri inceleyin:
-
vGPU'yu vSphere'de yapılandırın:
- vSphere Client'ı açın ve ESXi ana bilgisayarınıza gidin.
- vGPU kullanan VM'ye sağ tıklayın ve Edit Settings ögesini seçin.
- VM Hardware sekmesinde Add New Device ögesine tıklayın ve PCI Device ögesini seçin.
- VM'ye atamak istediğiniz NVIDIA GPU'yu (vGPU) seçin.
- Kullanılabilir GPU kaynaklarına ve lisansına bağlı olarak istediğiniz vGPU Profilini (örneğin, GRID, vComputeServer vb.) seçin.
-
Bir vGPU profili atayın:
- VM'yi yapılandırırken, fiziksel GPU kaynaklarının ne kadarının her VM'ye ayrılacağını belirleyen bir vGPU profili atayın. Profil seçenekleri GPU modeline bağlıdır.
-
NVIDIA Lisansını Yapılandırın:
- ESXi ana bilgisayarına doğru NVIDIA vGPU lisansının yüklendiğinden emin olun.
- vGPU lisansını yüklemek veya güncellemek için NVIDIA vGPU paketiyle birlikte gelen vGPU Lisanslama Yardımcı Programı'nı kullanın.
- Lisans, vGPU işlevinin düzgün çalışması için gereklidir ve komut satırı üzerinden ESXi ana bilgisayarına uygulanabilir.
-
Verify vGPU is Enabled:
- vGPU'yu kurduktan sonra, sanal makinede doğru şekilde tanındığını doğrulayın.
- VM'de oturum açın ve aşağıdaki komutu çalıştırın:
nvidia-smi
- Bu, sanal GPU'nun durumunu, fiziksel bir makinede nasıl göründüğüne benzer şekilde göstermelidir.
Additional Information
Dell, müşterinin vGPU ile ilgili Sorunlar için enterprisesupport@nvidia.com e e-posta göndererek VEYA portalları üzerinden bir web olayı göndererek ya da telefonla iletişim kurarak NVIDIA ile bir olay açmasını önermelidir.
Web Portalı: https://www.nvidia.com/en-us/support/
Telefon Desteği: