PowerEdge: TMP0203: A temperatura da CPU é superior ao limite máximo crítico
Summary: Os servidores PowerEdge com iDRAC9 podem relatar temperatura x da CPU superior aos eventos de limite crítico quando a carga de trabalho da CPU atinge ou fica próxima à CPU PowerMax.
Symptoms
Os servidores PowerEdge com iDRAC9 podem relatar temperatura x da CPU superior aos eventos de limite crítico quando a carga de trabalho da CPU atinge ou fica próxima ao consumo máximo de energia da CPU. Quando ocorrem picos de energia transitórios para atender à demanda adicional da CPU, a temperatura do processador pode exceder brevemente o limite crítico máximo. Por exemplo, um servidor que está operando com 50% a 60% de utilização e atinge 100% de utilização por 5 a 20 segundos pode exceder brevemente o limite máximo crítico de temperatura da CPU. Quando esse limite é excedido, os eventos são registrados no registro de eventos do sistema e no registro do ciclo de vida. Quando o pico transitório chegar ao fim e a temperatura da CPU voltar ao normal, um evento será registrado indicando que a temperatura da CPU x está dentro do intervalo.
Quando picos transitórios ocorrem, os dois eventos normalmente ocorrem dentro de 5-20 segundos um do outro. Consulte os exemplos abaixo como orientação para esses tipos de eventos transitórios.
Log de eventos do sistema:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
Registro do ciclo de vida:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
Quando esses limites de temperatura são atingidos, os processadores Intel podem ficar acelerados para reduzir o consumo de energia e diminuir a temperatura da CPU.
Cause
Resolution
Embora esses tipos de picos transitórios de desempenho da CPU não sejam anormais, a engenharia do iDRAC9 continua ajustando o algoritmo térmico para evitar esses eventos. Por exemplo, o iDRAC9 4.22.00.00 e o iDRAC9 4.40.00.00 incluem melhorias térmicas específicas para essa sequência. Para garantir que os algoritmos térmicos dinâmicos mais recentes estejam instalados nos servidores PowerEdge, atualize para o firmware mais recente disponível do iDRAC9.
Soluções temporárias:
Os usuários finais podem modificar manualmente as condições térmicas do sistema para evitar que esses eventos transitórios elevem a temperatura da CPU. Use uma das soluções temporárias a seguir para aumentar a velocidade do ventilador na linha de base e manter a temperatura da CPU mais baixa.
Perfil de desempenho máximo
A otimização do perfil térmico do sistema pode ser modificada para o desempenho máximo (desempenho otimizado). Esse perfil térmico tem as seguintes vantagens:
- Probabilidade reduzida de aceleração da memória ou da CPU
- Maior probabilidade de ativação do modo turbo
- Geralmente, velocidades mais altas do ventilador em cargas ociosas e de estresse
A otimização do perfil térmico pode ser modificada por meio dos seguintes métodos:
IU do >iDRAC9Configuração>Configurações do> sistema Configurações> de hardware Configuração de resfriamento
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
Compensação de velocidade do ventilador
A compensação de velocidade do ventilador permite que você aumente a velocidade do ventilador do sistema com quatro etapas incrementais. Essas etapas são divididas igualmente entre a velocidade de linha de base típica e a velocidade máxima dos ventiladores do sistema de servidor. Uma compensação de velocidade do ventilador faz com que as velocidades do ventilador aumentem (pelo valor % de compensação) em relação às velocidades do ventilador de linha de base calculadas pelo algoritmo de controle térmico. Os valores possíveis são:
- Baixa velocidade do ventilador: impulsiona as velocidades do ventilador a uma velocidade moderada.
- Medium fan speed - Impulsiona as velocidades do ventilador a uma velocidade próxima à média.
- Alta velocidade do ventilador - Impulsiona as velocidades do ventilador a uma velocidade próxima à máxima.
- Max fan speed – Impulsiona as velocidades do ventilador a uma velocidade máxima.
- Desligado - a compensação de velocidade do ventilador está desligada. Este é o valor padrão. Quando a compensação está desativada, a porcentagem não é exibida. A velocidade padrão do ventilador é aplicada sem compensação. Por outro lado, a configuração máxima faz com que todos os ventiladores funcionem na velocidade máxima.
A compensação de velocidade do ventilador pode ser modificada por meio dos seguintes métodos:
IU do >iDRAC9Configuração>Configurações do> sistema Configurações> de hardware Configuração de resfriamento
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
Nota: O aumento das linhas de base de velocidade do ventilador aumenta o consumo de energia e aumenta a acústica do ventilador.