「PowerEdge:NVIDIAドライバー エラー:NVIDIAドライバーと通信できなかったため、nvidia-smiが失敗しました

Summary: nvidia-smiコマンドを実行すると、「nvidia-smiは、NVIDIAドライバーと通信できなかったため失敗しました。

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

nvidia-smi コマンドの実行に失敗し、次のエラー メッセージが返されます。

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

実行時にNVIDIA GPU情報が表示されない nvidia-smiの詳細を確認してください。

nvidia-smi has failed because it could not communicate with the NVIDIA driver
「nvidia-smi has failed」エラーメッセージ

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce失敗メッセージ

 

Cause

エラー nvidia-smi has failed because it could not communicate with the NVIDIA driver いくつかの要因によって引き起こされる可能性があります。

  • NVIDIAドライバーがインストールされていないか破損しています: NVIDIAドライバーがシステムにインストールされていないか、インストールが破損しているため、 nvidia-smi ツールが GPU と対話しようとしたときに失敗します。

  • ドライバーの非互換性: インストールされているNVIDIAドライバーのバージョンがGPUまたはオペレーティング システムと互換性がなく、通信の問題につながる場合があります。

  • NVIDIAカーネル モジュールがロードされていません: 必要な NVIDIA カーネル モジュール (nvidia.ko)がシステムにロードされず、システム間の適切な通信を妨げる可能性があります nvidia-smi ツールと GPU です。

  • GPU初期化エラー: 起動中またはハードウェア障害が原因でGPUが正しく初期化されていない可能性があります。つまり、次のようになります。 nvidia-smi 通信を確立できません。

  • 競合するドライバー バージョン: 競合している、または複数のGPUドライバー(たとえば、Nouveauオープンソース ドライバーや古いNVIDIAドライバー バージョン)がインストールされている場合、システムで正しいNVIDIAドライバーをロードできない可能性があります。

  • ハードウェアの障害: 物理的な誤動作、オーバーヒート、不適切な接続など、GPU自体にハードウェアの問題があり、システムがアクセスできない可能性があります。

  • NVIDIAライセンスの欠落または期限切れ(vGPUセットアップの場合): 仮想化環境では、NVIDIA vGPUライセンスがないか期限切れの場合、ドライバーが正常に機能せず、通信障害が発生する可能性があります。

  • システム アップデートまたはカーネルの変更: オペレーティングシステムの最近のアップデートまたはカーネルの変更が、NVIDIAドライバの互換性または機能に影響を与え、失敗する原因となっている可能性があります。

    これを解決するには、ドライバーのインストールを確認し、正しいドライバーがロードされていることを確認し、ハードウェアとソフトウェアに互換性があることを確認します。

 

Resolution

ESXi 7.0以降でvGPUを有効にするためのステップバイステップ ガイド:

  • NVIDIA vGPU Managerをインストールします。

    • NVIDIA Webサイトこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。から、最新のNVIDIA vGPU Manager for VMware ESXiをダウンロードします。
    • SSHを使用してESXiホストにアクセスするか、ESXiシェルを使用してvGPU Managerパッケージをインストールします。
  • 仮想マシン(VM)にNVIDIA vGPUドライバーをインストールします。

    • vGPUを使用しているVMごとに、ゲスト オペレーティング システム(Windows、Linuxなど)に適切なNVIDIA GPUドライバーをインストールします。
    • 特定のオペレーティング システムのドライバーをNVIDIAのWebサイトからダウンロードします。
    • 物理マシンの場合と同様に、VM内にドライバーをインストールします。
  • ESXiホストを再起動します。

    • NVIDIA vGPU Managerをインストールした後、変更を有効にするためにESXiホストを再起動します。
  • NVIDIAドライバーがロードされているかどうかを確認します。

    • 次のコマンドを実行します:
      esxcli system module list | grep nvidia
    • NVIDIAカーネルモジュールがロードされているかどうかをチェックします。
  • NVIDIAドライバーを手動でロードします(ロードされていない場合)。

    • NVIDIAモジュールがロードされていない場合は、次のコマンドを実行して手動でロードできます。
      esxcli system module load --module=nvidia
  • ハードウェア仮想化を有効にします(有効になっていない場合)。

    • ESXiホスト クライアントまたはvSphere Clientを介してESXiホストにログインします。
    • インテルVT-xまたはAMD-Vが物理サーバーのBIOS/UEFIで有効になっていることを確認します。仮想化には、これらのオプションが必要です。
  • NVIDIA GPUが検出されているかどうかを確認します。

    • 次のコマンドを実行します:
      lspci | grep -i nvidia
    • これにより、NVIDIA GPUがESXiによって検出されているかどうかがチェックされます。
  • システム ログにエラーがないか確認します。

    • NVIDIAドライバーに関連する特定のエラー メッセージを検索するには、次のコマンドを使用します。
      tail -f /var/log/vmkernel.log
  • NVIDIA固有のログを確認します。

    • 次の場所にあるNVIDIA固有のログを確認します。
      /var/log/nvidia-installer.log
  • vSphereでvGPUを構成します。

    • vSphere Clientを開き、ESXiホストに移動します。
    • vGPUを使用するVMを右クリックし、 Edit Settingsを選択します。
    • VM Hardwareタブで、Add New Deviceをクリックし、PCI Deviceを選択します。
    • VM に割り当てる NVIDIA GPU (vGPU) を選択します。
    • 使用可能なGPUリソースとライセンスに応じて、目的の vGPUプロファイル (GRID、vComputeServerなど)を選択します。
  • vGPUプロファイルを割り当てます。

    • VMを構成するときに、各VMに割り当てる物理GPUのリソースの量を決定する vGPUプロファイル を割り当てます。プロファイル オプションはGPUモデルによって異なります。
  • NVIDIAライセンスの設定:

    • 正しい NVIDIA vGPUライセンス がESXiホストにインストールされていることを確認します。
    • vGPUライセンスをインストールまたはアップデートするには、NVIDIA vGPUパッケージに付属の vGPUライセンス ユーティリティ ーを使用します。
    • vGPU機能が正常に動作するためにはライセンスが必要であり、コマンド ラインを介してESXiホストに適用できます。
  • vGPUが有効になっていることを確認します。

    • vGPUを設定したら、仮想マシンで正しく認識されていることを確認します。
    • VMにログ インし、次のコマンドを実行します。
      nvidia-smi
    • これにより、物理マシンでの表示と同様に、仮想GPUのステータスが表示されます。

 

Additional Information

Dellは、 vGPU 関連の問題について enterprisesupport@nvidia.com にEメールを送信するか、ポータルからWebケースを送信するか、電話で連絡して、NVIDIAでケースを開くことをお客様に提案する必要があります。

Webポータル: https://www.nvidia.com/en-us/support/このハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。

電話サポート:
NVIDIA電話サポート

注:DellはNVIDIAにケースを作成してさらなるサポートを求めることができますが、ライセンスがDellによって発行されていない場合、NVIDIAは通常、お客様と直接連携することを好みます。

 

Produse afectate

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Produse

HS Series, OEM Server Solutions
Proprietăți articol
Article Number: 000252982
Article Type: Solution
Ultima modificare: 08 nov. 2025
Version:  3
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.