PowerEdge:GPU 散熱節流或偵測不到 GPU 問題
摘要: 本文提供 Dell PowerEdge 伺服器上 GPU 散熱節流和 GPU 未偵測到問題的故障診斷指南。這些問題可能是因為溫度條件、硬體組態問題,或系統組態設定所導致。
本文章適用於
本文章不適用於
本文無關於任何特定產品。
本文未識別所有產品版本。
症狀
- GPU 效能會在高工作負荷期間降低。
- GPU 時脈速度會自動下降以保護硬體。
- GPU 溫度在工作負荷壓力期間達到高值。
- 系統事件記錄 (SEL) 會顯示與系統入口溫度相關的警告。
- 作業系統或管理工具中不會出現 GPU。
- 命令
nvidia-smi不顯示任何 GPU 裝置。 - iDRAC 或 BIOS 無法偵測到已安裝的 GPU。
原因
- 資料中心環境溫度過高
- 伺服器機架氣流不足或進氣口受阻
- 風扇設定檔或散熱原則設定不正確
- GPU 未正確插入 PCIe 插槽
- 不支援的 GPU 組態或韌體不符
- BIOS、iDRAC 或 GPU 韌體過期
- GPU 模組的電源或纜線連接問題
解析度
1.檢查 GPU 溫度及節流狀態:
在作業系統內執行下列命令,以檢查 NVIDIA GPU 的 GPU 效能和節流狀態:
nvidia-smi -q -d performance
如果節流原因顯示為「非作用中」,則 GPU 運作正常。
2.監控系統溫度:
- 檢查 iDRAC 中的系統事件記錄 (SEL)。
- 檢閱生命週期記錄,了解溫度警告。
- 從溫度概觀區段確認系統進氣溫度。
3.改善冷卻條件:
- 確認資料中心周圍溫度在支援的範圍內。
- 移除機架中的氣流堵塞物。
- 確認所有系統風扇運作正常。
- 使用適當的氣流護罩和 GPU 散熱套件。
4.驗證 GPU 硬體安裝:
- 請確定 GPU 已正確插入 PCIe 插槽。
- 檢查 GPU 電源線和連接器。
- 確認伺服器平台支援 GPU。
5.更新系統韌體:
- 更新伺服器 BIOS。
- 更新 iDRAC 韌體。
- 更新 GPU 驅動程式和韌體。
6.確認 GPU 偵測:
使用下列命令檢查系統是否偵測到 Nvidia GPU:
nvidia-smi
如果未偵測到 GPU,請檢查 BIOS 設定和硬體安裝。
7.在另一個 PCIe 插槽測試 GPU:
如果偵測不到 GPU,或持續遇到效能問題,請嘗試將 GPU 安裝至另一個可用的 PCIe 插槽。
- 關閉伺服器電源,並拔下電源線。
- 從目前的 PCIe 插槽卸下 GPU。
- 將 GPU 安裝至另一個支援的 PCIe 插槽。
- 重新連接系統電源並開啟電源。
- 使用命令檢查是否偵測到 GPU
nvidia-smi或從 iDRAC 硬體清查。
如果在另一個插槽中偵測到 GPU,原始 PCIe 插槽可能有組態或硬體問題。
8.執行 GPU 診斷測試:
執行 NVIDIA 資料中心 GPU Manager (DCGM) 診斷工具,以確認 Nvidia GPU 健全狀況,並偵測潛在的硬體或散熱問題。
- 透過 SSH 或主控台存取作業系統。
- 執行下列命令以執行延伸的 GPU 診斷測試:
sudo dcgmi diag
此命令會執行全面的診斷測試,檢查 GPU 記憶體、PCIe 連線能力和散熱行為。檢閱輸出結果,以識別任何硬體或效能相關問題。
受影響的產品
C Series, Rack Servers, XE Servers文章屬性
文章編號: 000458921
文章類型: Solution
上次修改時間: 01 5月 2026
版本: 1
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。