PowerEdge: NVIDIA Sürücü Hatası: nvidia-smi, NVIDIA sürücüsüyle iletişim kuramadığı için başarısız oldu

Summary: nvidia-smi komutunu çalıştırırken "nvidia-smi, NVIDIA sürücüsüyle iletişim kuramadığı için başarısız oldu.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Komutta nvidia-smi Komut çalıştırılamaz ve şu hata mesajını döndürür:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Çalışırken NVIDIA GPU bilgileri görüntülenmiyor nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Nvidia-SMI başarısız oldu hata mesajı

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce başarısız iletisi

 

Cause

Hata "nvidia-smi has failed because it could not communicate with the NVIDIA driver" birkaç faktörden kaynaklanabilir:

  • NVIDIA Sürücüsü Yüklü Değil veya Bozuk: NVIDIA sürücüsü sisteme yüklenmemiş olabilir veya yükleme bozulmuş olabilir. nvidia-smi aracı GPU ile etkileşime girmeye çalışırken başarısız oluyor.

  • Sürücü Uyumsuzluğu: Yüklü NVIDIA sürücüsünün sürümü, GPU veya işletim sistemiyle uyumlu olmayabilir ve bu da iletişim sorunlarına yol açabilir.

  • NVIDIA Çekirdek Modülü Yüklü Değil: Gerekli NVIDIA çekirdek modülü (nvidia.ko) sisteme yüklenemeyebilir, bu da aralarındaki düzgün iletişimi engeller. nvidia-smi aracı ve GPU.

  • GPU Başlatma Hatası: GPU, önyükleme sırasında veya bir donanım arızası nedeniyle düzgün şekilde başlatılmamış olabilir. nvidia-smi ile iletişim kuramaz.

  • Çakışan Sürücü Sürümleri: Çakışan veya birden fazla GPU sürücüsü (örneğin, Nouveau açık kaynaklı sürücüsü veya daha eski NVIDIA sürücü sürümleri) yüklenebilir ve bu da sistemin doğru NVIDIA sürücüsünü yükleyememesine neden olabilir.

  • Arızalı Donanım: GPU'nun kendisinde fiziksel bir arıza, aşırı ısınma veya yanlış bağlantı gibi sistemin GPU'ya erişmesini engelleyen bir donanım sorunu olabilir.

  • Eksik veya Süresi Dolmuş NVIDIA Lisansı (vGPU kurulumları için): Sanallaştırılmış ortamlarda, eksik veya süresi dolmuş bir NVIDIA vGPU lisansı, sürücünün düzgün çalışmasını engelleyerek iletişim hatalarına yol açabilir.

  • Sistem Güncellemeleri veya Çekirdek Değişiklikleri: İşletim sisteminde yapılan son güncellemeler veya çekirdek değişiklikleri, NVIDIA sürücüsünün uyumluluğunu veya işlevselliğini etkileyerek arızalanmasına neden olmuş olabilir.

    Bu sorunu çözmek için sürücü yüklemesini kontrol edin, doğru sürücünün yüklendiğini doğrulayın ve donanım ile yazılımın uyumlu olduğundan emin olun.

 

Resolution

ESXi 7.0 ve sonraki sürümlerde vGPU'yu etkinleştirmek için adım adım rehber:

  • NVIDIA vGPU Manager ı yükleyin:

    • NVIDIA webBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. sitesinden VMware ESXi için en yeni NVIDIA vGPU Manager ı indirin.
    • ESXi ana bilgisayarına erişmek için SSH'yi veya vGPU Manager paketini yüklemek için ESXi Kabuğunu kullanın.
  • NVIDIA vGPU sürücülerini sanal makinelere (VM'ler) yükleyin:

    • vGPU kullanan her VM için konuk işletim sistemine (örneğin Windows, Linux) uygun NVIDIA GPU sürücüsünü yükleyin.
    • İlgili işletim sistemi için sürücüleri NVIDIA web sitesinden indirin.
    • Sürücüleri, fiziksel bir makinede olduğu gibi VM'nin içine yükleyin.
  • ESXi ana bilgisayarını yeniden başlatın:

    • NVIDIA vGPU Manager'ı kurduktan sonra, değişikliklerin etkili olması için ESXi ana bilgisayarını yeniden başlatın.
  • NVIDIA Sürücüsünün Yüklenip Yüklenmediğini Kontrol Edin:

    • Şu komutu çalıştırın:
      esxcli system module list | grep nvidia
    • Bu, NVIDIA çekirdek modülünün yüklenip yüklenmediğini kontrol eder.
  • NVIDIA Sürücüsünü Manuel Olarak Yükleyin (yüklü değilse):

    • NVIDIA modülü yüklü değilse, aşağıdaki komutu çalıştırarak manuel olarak yükleyebilirsiniz:
      esxcli system module load --module=nvidia
  • Donanım Sanallaştırmayı Etkinleştir (etkin değilse):

    • ESXi Ana Bilgisayar İstemcisi veya vSphere Client üzerinden ESXi ana bilgisayarında oturum açın.
    • Fiziksel sunucunun BIOS/UEFI'sinde Intel VT-x veya AMD-V'nin etkinleştirildiğinden emin olun. Bu seçenekler sanallaştırma için gereklidir.
  • NVIDIA GPU'nun algılanıp algılanmadığını kontrol edin:

    • Şu komutu çalıştırın:
      lspci | grep -i nvidia
    • Bu, NVIDIA GPU'nun ESXi tarafından algılanıp algılanmadığını kontrol eder.
  • Hatalar için sistem günlüklerini kontrol edin:

    • NVIDIA sürücüsüyle ilgili belirli hata mesajlarını bulmak için şu komutu kullanın:
      tail -f /var/log/vmkernel.log
  • NVIDIA'ya Özgü Günlükleri Kontrol Edin:

    • Şu adreste bulunan NVIDIA'ya özel günlükleri inceleyin:
      /var/log/nvidia-installer.log
  • vGPU'yu vSphere'de yapılandırın:

    • vSphere Client'ı açın ve ESXi ana bilgisayarınıza gidin.
    • vGPU kullanan VM'ye sağ tıklayın ve Edit Settings ögesini seçin.
    • VM Hardware sekmesinde Add New Device ögesine tıklayın ve PCI Device ögesini seçin.
    • VM'ye atamak istediğiniz NVIDIA GPU'yu (vGPU) seçin.
    • Kullanılabilir GPU kaynaklarına ve lisansına bağlı olarak istediğiniz vGPU Profilini (örneğin, GRID, vComputeServer vb.) seçin.
  • Bir vGPU profili atayın:

    • VM'yi yapılandırırken, fiziksel GPU kaynaklarının ne kadarının her VM'ye ayrılacağını belirleyen bir vGPU profili atayın. Profil seçenekleri GPU modeline bağlıdır.
  • NVIDIA Lisansını Yapılandırın:

    • ESXi ana bilgisayarına doğru NVIDIA vGPU lisansının yüklendiğinden emin olun.
    • vGPU lisansını yüklemek veya güncellemek için NVIDIA vGPU paketiyle birlikte gelen vGPU Lisanslama Yardımcı Programı'nı kullanın.
    • Lisans, vGPU işlevinin düzgün çalışması için gereklidir ve komut satırı üzerinden ESXi ana bilgisayarına uygulanabilir.
  • Verify vGPU is Enabled:

    • vGPU'yu kurduktan sonra, sanal makinede doğru şekilde tanındığını doğrulayın.
    • VM'de oturum açın ve aşağıdaki komutu çalıştırın:
      nvidia-smi
    • Bu, sanal GPU'nun durumunu, fiziksel bir makinede nasıl göründüğüne benzer şekilde göstermelidir.

 

Additional Information

Dell, müşterinin vGPU ile ilgili Sorunlar için enterprisesupport@nvidia.com e e-posta göndererek VEYA portalları üzerinden bir web olayı göndererek ya da telefonla iletişim kurarak NVIDIA ile bir olay açmasını önermelidir.

Web Portalı: https://www.nvidia.com/en-us/support/Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.

Telefon Desteği:
NVIDIA Telefon Desteği

Not: Dell daha fazla yardım için NVIDIA ile bir olay başlatabilir ancak lisans Dell tarafından verilmemişse NVIDIA genellikle doğrudan müşteri ile çalışmayı tercih eder.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.