PowerEdge:如何針對 GPU 散熱節流和偵測問題進行故障診斷

摘要: 本文將引導使用者診斷和解決 Dell PowerEdge 伺服器上的 GPU 散熱節流和偵測問題。其中包括檢查 GPU 溫度及節流狀態、檢閱系統記錄、改善散熱、確認硬體安裝、更新 BIOS/iDRAC 和 GPU 韌體,以及執行 nvidia-smi 和 DCGM 等診斷公用程式。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

說明

預備動作

  • 以系統管理員權限存取作業系統。
  • 存取 iDRAC 或 BIOS,以檢視系統記錄和設定。
  • 安裝 NVIDIA/CUDA 驅動程式和 NVIDIA-smi 公用程式
  • 實體存取伺服器以進行硬體檢查

工作執行

  1. 檢查 GPU 溫度和節流狀態
    • 在作業系統內執行下列命令,以檢查 GPU 效能和節流狀態:
      nvidia-smi -q -d performance 
    • 如果節流原因顯示為「非作用中」,則 GPU 運作正常。
  2. 監控系統溫度
    • 檢查 iDRAC 中的系統事件記錄 (SEL)。
    • 檢閱生命週期記錄,了解溫度警告。
    • 從溫度概觀區段確認系統進氣溫度。
  3. 改善冷卻條件
    • 確認資料中心周圍溫度在支援範圍內。
    • 移除機架中所有氣流阻塞處。
    • 確認所有系統風扇運作正常。
    • 安裝適當的氣流護罩和 GPU 散熱套件 (若有)。
  4. 確認 GPU 硬體安裝
    • 確認 GPU 已正確插入 PCIe 插槽。
    • 檢查電源線和連接器是否牢固連接。
    • 驗證伺服器平台是否支援 GPU 型號。
  5. 更新系統韌體
    • 將伺服器 BIOS 更新至最新版本。
    • 將 iDRAC 韌體更新至最新版本。
    • 將 GPU 驅動程式和韌體更新至最新版本。
  6. 驗證 GPU 偵測
    • 使用以下命令檢查系統是否偵測到 GPU:
      nvidia-smi 
    • 如果未偵測到 GPU,請檢閱 BIOS 設定和硬體安裝。
  7. 在另一個 PCIe 插槽測試 GPU
    • 關閉伺服器電源,並拔下電源線。
    • 從目前的 PCIe 插槽卸下 GPU。
    • 將 GPU 安裝至另一個支援的 PCIe 插槽。
    • 重新連接系統電源並開啟電源。
    • 使用下列項目檢查偵測: nvidia-smi 或 iDRAC 硬體清查。
    • 如果在新的插槽中偵測到 GPU,則原來的插槽可能有組態或硬體方面的問題。
  8. 執行 GPU 診斷測試
    1. DCGMi 工具
    2. NVIDIA SMI 記錄
      • 執行# nvidia-smi 以取得 GPU 使用方式和狀態的摘要。
      • 執行# nvidia-smi -q 以取得詳細的 GPU 資訊。
      • 執行# nvidia-smi nvlink -s 以查看 NVLink 狀態和錯誤。
    3. 作業系統層級輸出
      • 執行
        # lspci -s 9b: 00.0 -vv
        (視情況更換裝置 ID) 以檢視 GPU 的 PCIe 詳細資料。)

驗證

  • GPU 溫度維持在正常運作範圍內,且節流狀態顯示「非作用中」
  • GPU 出現在以下項目的輸出中: nvidia-smi 以及在 iDRAC 硬體清單中。
  • 系統事件記錄中不會顯示與溫度相關的警告。

受影響的產品

Rack Servers

產品

Tower Servers, XE Servers
文章屬性
文章編號: 000452203
文章類型: How To
上次修改時間: 05 5月 2026
版本:  1
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。