PowerEdge: TMP0203: La temperatura de la CPU es mayor que el umbral crítico superior
Summary: Es posible que los servidores PowerEdge con iDRAC9 informen que la temperatura de la CPU x es mayor que los eventos del umbral crítico superior cuando la carga de trabajo de la CPU alcanza o está cerca de PowerMax de la CPU. ...
Symptoms
Los servidores PowerEdge con iDRAC9 pueden informar que la temperatura de la CPU x es mayor que los eventos del umbral crítico superior cuando la carga de trabajo de la CPU alcanza o está cerca del límite máximo de alimentación de la CPU. Cuando se producen ráfagas de alimentación transitorias para satisfacer la demanda adicional de CPU, la temperatura del procesador puede superar brevemente el umbral crítico superior. Por ejemplo, un servidor que funciona con una utilización del 50 al 60 % y picos de utilización al 100 % durante 5 a 20 segundos puede superar brevemente el umbral crítico superior de la temperatura de la CPU. Cuando se supera este umbral, los eventos se registran en el registro de eventos del sistema y en el registro de Lifecycle. Cuando el pico transitorio termina y la temperatura de la CPU vuelve a la normalidad, se registra un evento que indica que la temperatura de la CPU x está dentro del rango.
Cuando se producen picos transitorios como este, los dos eventos suelen ocurrir dentro de 5 a 20 segundos entre sí. Consulte los ejemplos que aparecen a continuación como guía para estos tipos de eventos transitorios.
Registro de eventos del sistema:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
Registro de Lifecycle:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
Cuando se alcanzan estos umbrales de temperatura, los procesadores Intel pueden regularse para reducir el consumo de energía y disminuir la temperatura de la CPU.
Cause
Resolution
Si bien estos tipos de aumentos transitorios del rendimiento de la CPU no son inusuales, el equipo de ingeniería de iDRAC9 continúa ajustando el algoritmo térmico para evitar estos eventos. Por ejemplo, iDRAC9 4.22.00.00 e iDRAC9 4.40.00.00 incluyen mejoras térmicas específicas para esta secuencia. Para asegurarse de que los algoritmos térmicos dinámicos más recientes estén instalados en los servidores PowerEdge, actualice al firmware de iDRAC9 más reciente disponible.
Soluciones alternativas:
Los usuarios finales pueden modificar manualmente los parámetros térmicos del sistema para evitar que estos eventos transitorios aumenten la temperatura de la CPU. Utilice cualquiera de las siguientes soluciones alternativas para aumentar la velocidad del ventilador en la línea de base y mantener una temperatura de CPU más baja.
Perfil de rendimiento máximo
La optimización del perfil térmico del sistema puede modificarse a máximo rendimiento (rendimiento optimizado). Este perfil térmico conlleva las siguientes ventajas:
- Menor probabilidad de limitación de la CPU o de la memoria
- Mayor probabilidad de activación del modo turbo
- Por lo general, las velocidades del ventilador son más altas en cargas de esfuerzo y en estado inactivo.
La optimización del perfil térmico se puede modificar a través de los siguientes métodos:
Interfaz de usuario > de iDRAC9Configuración>Configuración> del sistema Configuración> de hardware Configuración de enfriamiento
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
Compensación de la velocidad del ventilador
La compensación de la velocidad del ventilador le permite aumentar la velocidad del ventilador del sistema en cuatro pasos graduales. Estos pasos se dividen en partes iguales entre la velocidad base habitual y la velocidad máxima de los ventiladores del sistema del servidor. Una compensación de la velocidad de los ventiladores provoca un aumento de la velocidad de los ventiladores (en el valor del % de compensación) por encima de la velocidad de referencia de los ventiladores calculada por el algoritmo de control térmico. Los valores posibles son:
- Velocidad baja del ventilador: lleva la velocidad del ventilador a una velocidad moderada.
- Velocidad media del ventilador: lleva la velocidad del ventilador a un valor cercano al valor medio.
- Alta velocidad del ventilador: lleva la velocidad del ventilador a un valor cercano a la velocidad máxima.
- Velocidad máxima del ventilador: impulsa las velocidades del ventilador a la velocidad máxima.
- Desactivado: el desplazamiento de la velocidad del ventilador está desactivado. Este es el valor predeterminado. Cuando se establece como desactivado, el porcentaje no se visualiza. La velocidad predeterminada del ventilador se aplica sin compensación. Por el contrario, el ajuste máximo hace que todos los ventiladores funcionen a la velocidad máxima.
La compensación de velocidad del ventilador se puede modificar a través de los siguientes métodos:
Interfaz de usuario > de iDRAC9Configuración>Configuración> del sistema Configuración> de hardware Configuración de enfriamiento
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
Nota: El aumento de las bases de velocidad del ventilador aumenta el consumo de energía del ventilador y aumenta la acústica del ventilador.