PowerEdge:如何針對 GPU 散熱節流和偵測問題進行故障診斷
摘要: 本文將引導使用者診斷和解決 Dell PowerEdge 伺服器上的 GPU 散熱節流和偵測問題。其中包括檢查 GPU 溫度及節流狀態、檢閱系統記錄、改善散熱、確認硬體安裝、更新 BIOS/iDRAC 和 GPU 韌體,以及執行 nvidia-smi 和 DCGM 等診斷公用程式。
本文章適用於
本文章不適用於
本文無關於任何特定產品。
本文未識別所有產品版本。
說明
預備動作
- 以系統管理員權限存取作業系統。
- 存取 iDRAC 或 BIOS,以檢視系統記錄和設定。
- 安裝 NVIDIA/CUDA 驅動程式和 NVIDIA-smi 公用程式
- 實體存取伺服器以進行硬體檢查
工作執行
- 檢查 GPU 溫度和節流狀態
- 在作業系統內執行下列命令,以檢查 GPU 效能和節流狀態:
nvidia-smi -q -d performance
- 如果節流原因顯示為「非作用中」,則 GPU 運作正常。
- 在作業系統內執行下列命令,以檢查 GPU 效能和節流狀態:
- 監控系統溫度
- 檢查 iDRAC 中的系統事件記錄 (SEL)。
- 檢閱生命週期記錄,了解溫度警告。
- 從溫度概觀區段確認系統進氣溫度。
- 改善冷卻條件
- 確認資料中心周圍溫度在支援範圍內。
- 移除機架中所有氣流阻塞處。
- 確認所有系統風扇運作正常。
- 安裝適當的氣流護罩和 GPU 散熱套件 (若有)。
- 確認 GPU 硬體安裝
- 確認 GPU 已正確插入 PCIe 插槽。
- 檢查電源線和連接器是否牢固連接。
- 驗證伺服器平台是否支援 GPU 型號。
- 更新系統韌體
- 將伺服器 BIOS 更新至最新版本。
- 將 iDRAC 韌體更新至最新版本。
- 將 GPU 驅動程式和韌體更新至最新版本。
- 驗證 GPU 偵測
- 使用以下命令檢查系統是否偵測到 GPU:
nvidia-smi
- 如果未偵測到 GPU,請檢閱 BIOS 設定和硬體安裝。
- 使用以下命令檢查系統是否偵測到 GPU:
- 在另一個 PCIe 插槽測試 GPU
- 關閉伺服器電源,並拔下電源線。
- 從目前的 PCIe 插槽卸下 GPU。
- 將 GPU 安裝至另一個支援的 PCIe 插槽。
- 重新連接系統電源並開啟電源。
- 使用下列項目檢查偵測:
nvidia-smi或 iDRAC 硬體清查。 - 如果在新的插槽中偵測到 GPU,則原來的插槽可能有組態或硬體方面的問題。
- 執行 GPU 診斷測試
- DCGMi 工具
- NVIDIA SMI 記錄
- 執行
# nvidia-smi以取得 GPU 使用方式和狀態的摘要。 - 執行
# nvidia-smi -q以取得詳細的 GPU 資訊。 - 執行
# nvidia-smi nvlink -s以查看 NVLink 狀態和錯誤。
- 執行
- 作業系統層級輸出
- 執行
(視情況更換裝置 ID) 以檢視 GPU 的 PCIe 詳細資料。)# lspci -s 9b: 00.0 -vv
- 執行
驗證
- GPU 溫度維持在正常運作範圍內,且節流狀態顯示「非作用中」
- GPU 出現在以下項目的輸出中:
nvidia-smi以及在 iDRAC 硬體清單中。 - 系統事件記錄中不會顯示與溫度相關的警告。
受影響的產品
Rack Servers產品
Tower Servers, XE Servers文章屬性
文章編號: 000452203
文章類型: How To
上次修改時間: 05 5月 2026
版本: 1
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。