PowerEdge:TMP0203:CPU 溫度高於重大閾值上限
Summary: 當 CPU 工作負荷達到或接近 CPU PowerMax 時,使用 iDRAC9 的 PowerEdge 伺服器可能會回報 CPU x 溫度高於重大閾值上限的事件。
Symptoms
當 CPU 工作負荷尖峰達到或接近 CPU 最大功率時,搭載 iDRAC9 的 PowerEdge 伺服器可能會回報 CPU x 溫度高於重大閾值上限的事件。當為了滿足額外的 CPU 需求而發生暫時性電源突發時,處理器溫度可能會短暫超過上關鍵閾值。例如,伺服器以 50-60% 的使用率運作,並在 5-20 秒內尖峰至 100% 的使用率,可能會短暫超過 CPU 溫度的關鍵閾值上限。超過此閾值時,事件會記錄在系統事件記錄和生命週期記錄中。當峰值暫時性尖峰結束且 CPU 溫度恢復正常時,系統會記錄事件,表示 CPU x 溫度在範圍內。
當發生這樣的瞬態尖峰時,這兩個事件通常在5-20秒內發生。請參閱以下範例作為這些類型的暫時性事件的指南。
系統事件記錄:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
生命週期記錄:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
達到這些溫度閾值時,Intel 處理器可能會進行節流,以降低耗電量並降低 CPU 溫度。
Cause
Resolution
雖然這些類型的暫時性 CPU 效能尖峰並不異常,但 iDRAC9 工程部門會持續微調散熱演算法,以防止這些事件發生。例如,iDRAC9 4.22.00.00 和 iDRAC9 4.40.00.00 包含此順序專屬的散熱改善。若要確保 PowerEdge 伺服器上已安裝最新的動態散熱演算法,請更新至最新的可用 iDRAC9 韌體。
因應措施:
最終使用者可以手動修改系統散熱,以避免這些暫時性事件導致 CPU 溫度突然升高。使用下列任一因應措施,將風扇速度提高至基準,並維持較低的 CPU 溫度。
最高效能設定檔
系統散熱設定檔最佳化可修改為最大效能 (效能最佳化)。此散熱設定檔具備下列優點:
- 降低記憶體或 CPU 節流的可能性
- 渦輪加速模式啟動的可能性增加
- 通常,在閒置和壓力負載時,風扇速度會較高
可透過下列方法修改最佳化散熱設定檔:
iDRAC9 UI>組態>系統設定>硬體設定>散熱組態
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
風扇速度偏移
風扇速度偏移可讓您透過四個增量級距提高系統風扇速度。這些級距為伺服器系統風扇的一般基線度和最高速度之間的平均分配。風扇速度偏移可讓風扇速度基於由溫度控制演算法所計算的基線風扇速度以按百分比值增加。可能的值為:
- 低風扇速度 - 將風扇速度驅動至中等風扇速度。
- 中型風扇速度 - 以接近中速的磁碟機風扇速度運作。
- 高風扇速度 - 使風扇速度接近全速。
- 最大風扇速度 - 將風扇速度提升至全速。
- 熄滅 - 風扇速度偏移設為關閉。此為預設值。設為「關閉」時,不會顯示百分比。預設風扇速度會套用至無偏移。反之,最大設定會導致所有風扇以最大轉速運轉。
可透過下列方法修改風扇速度偏移:
iDRAC9 UI>組態>系統設定>硬體設定>散熱組態
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
注意:提高風扇速度基準會增加風扇耗電量並增加風扇噪音。