PowerEdge:TMP0203:CPU 温度高于临界阈值上限
Summary: 当 CPU 工作负载在 CPU PowerMax 或附近出现峰值时,具有 iDRAC9 的 PowerEdge 服务器可能会报告 CPU x 温度高于临界阈值上限事件。
Symptoms
当 CPU 工作负载峰值达到或接近 CPU 功率最大值时,具有 iDRAC9 的 PowerEdge 服务器可能会报告 CPU x 温度高于临界阈值上限事件。当发生瞬时电源突发以满足额外的 CPU 需求时,处理器温度可能会短暂超过临界阈值上限。例如,如果服务器以 50-60% 的利用率运行,然后突然飙升至 100% 的利用率并持续 5-20 秒,则可能会短暂地超过 CPU 温度的临界阈值上限。超过此阈值时,事件将记录在系统事件日志和生命周期日志中。当瞬时峰值结束并且 CPU 温度恢复正常时,将记录一个事件,指示 CPU x 温度在范围内。
当出现这样的瞬时峰值时,这两个事件通常在相差 5-20 秒内发生。请参阅下面的示例作为这些类型的瞬时事件的指南。
系统事件日志:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
生命周期日志:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
当达到这些温度阈值时,英特尔处理器可能会进行限制以降低功耗和 CPU 温度。
Cause
Resolution
虽然这些类型的瞬时 CPU 性能峰值并不是异常现象,但 iDRAC9 工程部门会继续微调散热算法以防止这些事件。例如,iDRAC9 4.22.00.00 和 iDRAC9 4.40.00.00 包括特定于此序列的散热改进。要确保 PowerEdge 服务器上安装了最新的动态散热算法,请更新到最新的可用 iDRAC9 固件。
临时解决方法:
终端用户可以手动修改系统散热,以防止这些瞬时事件引发 CPU 升温。使用以下任一解决方法将风扇速度提高到基线,并保持较低的 CPU 温度。
最大性能配置
系统散热配置文件优化可修改为“最大性能”(性能优化)。此散热配置具有以下优势:
- 内存或 CPU 节流的可能性降低
- Turbo 模式激活的可能性增加
- 通常,空闲和压力载荷下的风扇速率较高
可以通过以下方法修改散热配置优化:
iDRAC9 UI>配置>系统设置>硬件设置>冷却配置
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
风扇速度偏移
风扇速度偏移允许您通过四个渐进步骤提高系统风扇速度。这些步骤在服务器系统风扇的典型基线速度和最大速度之间均匀分布。风扇速度偏移会导致风扇速度在基线风扇速度(由散热控制算法计算)的基础上提高(偏移百分比值)。可能的值包括:
- 低风扇速率 - 将风扇速率提高到适度风扇速率。
- Medium fan speed - 将风扇速度提高到接近中等。
- 高风扇速率 - 将风扇速率提高到接近全速。
- 最大风扇速率 - 将风扇速率提高到全速。
- 关闭 - 风扇速率偏移设置为关闭。这是默认值。当设置为 off 时,不会显示百分比。没有偏移时,应用默认风扇速度。相反,最大设置会导致所有风扇以最大速度运行。
可以通过以下方法修改风扇速度偏移:
iDRAC9 UI>配置>系统设置>硬件设置>冷却配置
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
提醒:提高风扇速度基线会增加风扇功耗并增加风扇声音。