PowerEdge:GPU 散熱節流或偵測不到 GPU 問題

摘要: 本文提供 Dell PowerEdge 伺服器上 GPU 散熱節流和 GPU 未偵測到問題的故障診斷指南。這些問題可能是因為溫度條件、硬體組態問題,或系統組態設定所導致。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

 

  • GPU 效能會在高工作負荷期間降低。
  • GPU 時脈速度會自動下降以保護硬體。
  • GPU 溫度在工作負荷壓力期間達到高值。
  • 系統事件記錄 (SEL) 會顯示與系統入口溫度相關的警告。
  • 作業系統或管理工具中不會出現 GPU。
  • 命令 nvidia-smi 不顯示任何 GPU 裝置。
  • iDRAC 或 BIOS 無法偵測到已安裝的 GPU。

原因

  • 資料中心環境溫度過高
  • 伺服器機架氣流不足或進氣口受阻
  • 風扇設定檔或散熱原則設定不正確
  • GPU 未正確插入 PCIe 插槽
  • 不支援的 GPU 組態或韌體不符
  • BIOS、iDRAC 或 GPU 韌體過期
  • GPU 模組的電源或纜線連接問題

解析度

1.檢查 GPU 溫度及節流狀態:

在作業系統內執行下列命令,以檢查 NVIDIA GPU 的 GPU 效能和節流狀態:

nvidia-smi -q -d performance

如果節流原因顯示為「非作用中」,則 GPU 運作正常。

 

2.監控系統溫度:

  • 檢查 iDRAC 中的系統事件記錄 (SEL)。
  • 檢閱生命週期記錄,了解溫度警告。
  • 從溫度概觀區段確認系統進氣溫度

 

3.改善冷卻條件:

  • 確認資料中心周圍溫度在支援的範圍內。
  • 移除機架中的氣流堵塞物。
  • 確認所有系統風扇運作正常。
  • 使用適當的氣流護罩和 GPU 散熱套件。

 

4.驗證 GPU 硬體安裝:

  • 請確定 GPU 已正確插入 PCIe 插槽。
  • 檢查 GPU 電源線和連接器。
  • 確認伺服器平台支援 GPU。

 

5.更新系統韌體:

  • 更新伺服器 BIOS。
  • 更新 iDRAC 韌體。
  • 更新 GPU 驅動程式和韌體。

 

6.確認 GPU 偵測:

使用下列命令檢查系統是否偵測到 Nvidia GPU:

nvidia-smi

如果未偵測到 GPU,請檢查 BIOS 設定和硬體安裝。

 

7.在另一個 PCIe 插槽測試 GPU:

如果偵測不到 GPU,或持續遇到效能問題,請嘗試將 GPU 安裝至另一個可用的 PCIe 插槽。

  • 關閉伺服器電源,並拔下電源線。
  • 從目前的 PCIe 插槽卸下 GPU。
  • 將 GPU 安裝至另一個支援的 PCIe 插槽。
  • 重新連接系統電源並開啟電源。
  • 使用命令檢查是否偵測到 GPU nvidia-smi 或從 iDRAC 硬體清查。

如果在另一個插槽中偵測到 GPU,原始 PCIe 插槽可能有組態或硬體問題。

 

8.執行 GPU 診斷測試:

執行 NVIDIA 資料中心 GPU Manager (DCGM) 診斷工具,以確認 Nvidia GPU 健全狀況,並偵測潛在的硬體或散熱問題。

  1. 透過 SSH 或主控台存取作業系統。
  2. 執行下列命令以執行延伸的 GPU 診斷測試:
sudo dcgmi diag

此命令會執行全面的診斷測試,檢查 GPU 記憶體、PCIe 連線能力和散熱行為。檢閱輸出結果,以識別任何硬體或效能相關問題。

受影響的產品

C Series, Rack Servers, XE Servers
文章屬性
文章編號: 000458921
文章類型: Solution
上次修改時間: 01 5月 2026
版本:  1
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。