「PowerEdge:GPUサーマル スロットルおよび検出の問題をトラブルシューティングする方法
概要: この記事では、Dell PowerEdgeサーバーでのGPUサーマル スロットルと検出の問題を診断して解決する方法について説明します。この記事では、GPUの温度とスロットルのステータスの確認、システム ログの確認、冷却機能の改善、ハードウェアの取り付けの確認、BIOS/iDRACおよびGPUファームウェアのアップデート、nvidia-smiやDCGMなどの診断ユーティリティーの実行について説明します。 ...
この記事は次に適用されます:
この記事は次には適用されません:
この記事は、特定の製品に関連付けられていません。
すべての製品パージョンがこの記事に記載されているわけではありません。
手順
準備
- 管理者権限でのオペレーティング システムへのアクセス。
- iDRACまたはBIOSにアクセスして、システム ログと設定を表示します。
- NVIDIA/CUDAドライバーとNVIDIA-SMIユーティリティーをインストールした
- ハードウェア チェックのためのサーバーへの物理的なアクセス
タスクの実行
- GPUの温度とスロットルのステータスを確認します
- オペレーティング システムで次のコマンドを実行して、GPUのパフォーマンスとスロットルのステータスを確認します。
nvidia-smi -q -d performance
- スロットルの理由が[非アクティブ]と表示されている場合、GPUは正常に動作しています。
- オペレーティング システムで次のコマンドを実行して、GPUのパフォーマンスとスロットルのステータスを確認します。
- システム温度の監視
- iDRACのシステム イベント ログ(SEL)を確認します。
- 温度に関する警告については、ライフ サイクル ログを確認します。
- [Temperature Overview]セクションで[System Inlet Temperature]を確認します。
- 冷却条件の改善
- データセンターの周囲温度がサポートされている制限内であることを確認します。
- ラック内のエアフローの遮断を取り除きます。
- すべてのシステム ファンが正常に機能していることを確認します。
- 適切なエアフロー カバーとGPU冷却キット(ある場合)を取り付けます。
- GPUハードウェアの取り付けの確認
- GPUがPCIeスロットに正しく装着されていることを確認します。
- 電源ケーブルとコネクターがしっかりと取り付けられていることを確認します。
- GPUモデルがサーバー プラットフォームでサポートされていることを確認します。
- システム ファームウェアのアップデート
- サーバーBIOSを最新バージョンにアップデートします。
- iDRACファームウェアを最新バージョンにアップデートします。
- GPUドライバーとファームウェアを最新リリースにアップデートします。
- GPU検出の確認
- 次のコマンドを使用して、GPUがシステムによって検出されているかどうかを確認します。
nvidia-smi
- GPUが検出されない場合は、BIOS設定とハードウェアの取り付けを確認してください。
- 次のコマンドを使用して、GPUがシステムによって検出されているかどうかを確認します。
- 別のPCIeスロットでGPUをテストします
- サーバーの電源を切り、電源ケーブルを外します。
- 現在のPCIeスロットからGPUを取り外します。
- サポートされている別のPCIeスロットにGPUを取り付けます。
- 電源を再接続し、システムの電源を入れます。
- 次による検出の確認
nvidia-smiまたはiDRACハードウェア インベントリー。 - 新しいスロットでGPUが検出された場合、元のスロットに構成またはハードウェアの問題がある可能性があります。
- GPU診断テストを実行します
- DCGMiツール
- DCGMユーティリティーを参照してください
- 詳細については、「 PowerEdge: NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法
- DCGMユーティリティーを参照してください
- NVIDIA SMIログ
- そのノードで
# nvidia-smiを使用して、GPU の使用状況とステータスの概要を取得します。 - そのノードで
# nvidia-smi -qGPUの詳細については、を参照してください。 - そのノードで
# nvidia-smi nvlink -sをクリックすると、NVLinkのステータスとエラーが表示されます。
- そのノードで
- OSレベルの出力
- そのノードで
(必要に応じてデバイスIDを置き換える)を使用して、GPUのPCIeの詳細を表示します。)# lspci -s 9b: 00.0 -vv
- そのノードで
- DCGMiツール
確認
- GPU温度は通常の動作範囲内に留まり、スロットル ステータスには「非アクティブ」と表示されます
- GPUは次の出力に表示されます:
nvidia-smiiDRACハードウェア インベントリーで確認できます。 - システム イベント ログに温度関連の警告は記録されていません。
対象製品
Rack Servers製品
Tower Servers, XE Servers文書のプロパティ
文書番号: 000452203
文書の種類: How To
最終更新: 05 5月 2026
バージョン: 1
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。