「PowerEdge:NVIDIAドライバー エラー:NVIDIAドライバーと通信できなかったため、nvidia-smiが失敗しました
Summary: nvidia-smiコマンドを実行すると、「nvidia-smiは、NVIDIAドライバーと通信できなかったため失敗しました。
Symptoms
「 nvidia-smi コマンドの実行に失敗し、次のエラー メッセージが返されます。
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
実行時にNVIDIA GPU情報が表示されない nvidia-smiの詳細を確認してください。
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
エラー 」nvidia-smi has failed because it could not communicate with the NVIDIA driver「 いくつかの要因によって引き起こされる可能性があります。
-
NVIDIAドライバーがインストールされていないか破損しています: NVIDIAドライバーがシステムにインストールされていないか、インストールが破損しているため、
nvidia-smiツールが GPU と対話しようとしたときに失敗します。 -
ドライバーの非互換性: インストールされているNVIDIAドライバーのバージョンがGPUまたはオペレーティング システムと互換性がなく、通信の問題につながる場合があります。
-
NVIDIAカーネル モジュールがロードされていません: 必要な NVIDIA カーネル モジュール (
nvidia.ko)がシステムにロードされず、システム間の適切な通信を妨げる可能性がありますnvidia-smiツールと GPU です。 -
GPU初期化エラー: 起動中またはハードウェア障害が原因でGPUが正しく初期化されていない可能性があります。つまり、次のようになります。
nvidia-smi通信を確立できません。 -
競合するドライバー バージョン: 競合している、または複数のGPUドライバー(たとえば、Nouveauオープンソース ドライバーや古いNVIDIAドライバー バージョン)がインストールされている場合、システムで正しいNVIDIAドライバーをロードできない可能性があります。
-
ハードウェアの障害: 物理的な誤動作、オーバーヒート、不適切な接続など、GPU自体にハードウェアの問題があり、システムがアクセスできない可能性があります。
-
NVIDIAライセンスの欠落または期限切れ(vGPUセットアップの場合): 仮想化環境では、NVIDIA vGPUライセンスがないか期限切れの場合、ドライバーが正常に機能せず、通信障害が発生する可能性があります。
-
システム アップデートまたはカーネルの変更: オペレーティングシステムの最近のアップデートまたはカーネルの変更が、NVIDIAドライバの互換性または機能に影響を与え、失敗する原因となっている可能性があります。
これを解決するには、ドライバーのインストールを確認し、正しいドライバーがロードされていることを確認し、ハードウェアとソフトウェアに互換性があることを確認します。
Resolution
ESXi 7.0以降でvGPUを有効にするためのステップバイステップ ガイド:
-
NVIDIA vGPU Managerをインストールします。
- NVIDIA Webサイト
から、最新のNVIDIA vGPU Manager for VMware ESXiをダウンロードします。
- SSHを使用してESXiホストにアクセスするか、ESXiシェルを使用してvGPU Managerパッケージをインストールします。
- NVIDIA Webサイト
-
仮想マシン(VM)にNVIDIA vGPUドライバーをインストールします。
- vGPUを使用しているVMごとに、ゲスト オペレーティング システム(Windows、Linuxなど)に適切なNVIDIA GPUドライバーをインストールします。
- 特定のオペレーティング システムのドライバーをNVIDIAのWebサイトからダウンロードします。
- 物理マシンの場合と同様に、VM内にドライバーをインストールします。
-
ESXiホストを再起動します。
- NVIDIA vGPU Managerをインストールした後、変更を有効にするためにESXiホストを再起動します。
-
NVIDIAドライバーがロードされているかどうかを確認します。
- 次のコマンドを実行します:
esxcli system module list | grep nvidia
- NVIDIAカーネルモジュールがロードされているかどうかをチェックします。
- 次のコマンドを実行します:
-
NVIDIAドライバーを手動でロードします(ロードされていない場合)。
- NVIDIAモジュールがロードされていない場合は、次のコマンドを実行して手動でロードできます。
esxcli system module load --module=nvidia
- NVIDIAモジュールがロードされていない場合は、次のコマンドを実行して手動でロードできます。
-
ハードウェア仮想化を有効にします(有効になっていない場合)。
- ESXiホスト クライアントまたはvSphere Clientを介してESXiホストにログインします。
- インテルVT-xまたはAMD-Vが物理サーバーのBIOS/UEFIで有効になっていることを確認します。仮想化には、これらのオプションが必要です。
-
NVIDIA GPUが検出されているかどうかを確認します。
- 次のコマンドを実行します:
lspci | grep -i nvidia
- これにより、NVIDIA GPUがESXiによって検出されているかどうかがチェックされます。
- 次のコマンドを実行します:
-
システム ログにエラーがないか確認します。
- NVIDIAドライバーに関連する特定のエラー メッセージを検索するには、次のコマンドを使用します。
tail -f /var/log/vmkernel.log
- NVIDIAドライバーに関連する特定のエラー メッセージを検索するには、次のコマンドを使用します。
-
NVIDIA固有のログを確認します。
- 次の場所にあるNVIDIA固有のログを確認します。
/var/log/nvidia-installer.log
- 次の場所にあるNVIDIA固有のログを確認します。
-
vSphereでvGPUを構成します。
- vSphere Clientを開き、ESXiホストに移動します。
- vGPUを使用するVMを右クリックし、 Edit Settingsを選択します。
- VM Hardwareタブで、Add New Deviceをクリックし、PCI Deviceを選択します。
- VM に割り当てる NVIDIA GPU (vGPU) を選択します。
- 使用可能なGPUリソースとライセンスに応じて、目的の vGPUプロファイル (GRID、vComputeServerなど)を選択します。
-
vGPUプロファイルを割り当てます。
- VMを構成するときに、各VMに割り当てる物理GPUのリソースの量を決定する vGPUプロファイル を割り当てます。プロファイル オプションはGPUモデルによって異なります。
-
NVIDIAライセンスの設定:
- 正しい NVIDIA vGPUライセンス がESXiホストにインストールされていることを確認します。
- vGPUライセンスをインストールまたはアップデートするには、NVIDIA vGPUパッケージに付属の vGPUライセンス ユーティリティ ーを使用します。
- vGPU機能が正常に動作するためにはライセンスが必要であり、コマンド ラインを介してESXiホストに適用できます。
-
vGPUが有効になっていることを確認します。
- vGPUを設定したら、仮想マシンで正しく認識されていることを確認します。
- VMにログ インし、次のコマンドを実行します。
nvidia-smi
- これにより、物理マシンでの表示と同様に、仮想GPUのステータスが表示されます。
Additional Information
Dellは、 vGPU 関連の問題について enterprisesupport@nvidia.com にEメールを送信するか、ポータルからWebケースを送信するか、電話で連絡して、NVIDIAでケースを開くことをお客様に提案する必要があります。
Webポータル: https://www.nvidia.com/en-us/support/
電話サポート: