VxRail: O nó aciona o alerta de alta temperatura de entrada
Summary: O nó do VxRail relata alertas de alta temperatura de entrada. Isso geralmente se deve a um fator ambiental, como problema no ar-condicionado.
Symptoms
O nó do VxRail aciona estes alertas no Life Cycle Controller:
2024-06-03 02:18:00 2586 TMPS0103 Inlet temperature is above critical level for extended duration.
2024-05-07 08:41:37 355 TMP0121 The system inlet temperature is greater than the upper critical threshold.
O registro de eventos gera as entradas de eventos correspondentes:
2024-05-07 04:49:36 7 The system inlet temperature is within range.
2024-05-07 04:47:19 6 The system inlet temperature is greater than the upper warning threshold.
2024-05-06 19:41:37 5 The system inlet temperature is greater than the upper critical threshold.
2024-05-06 19:12:49 4 The system inlet temperature is greater than the upper warning threshold.
Se o servidor estiver sob um evento crítico, ele será executado automaticamente em um modo degradado. Se a situação durar muito tempo, ela desliga.
Nesta captura de tela, o log do iDRAC leria a temperatura na CPU ou na placa de sistema, juntamente com seu limite crítico e de advertência. 38 como advertência e 42 como crítica.
Cause
Isso ocorre devido à situação ambiental em que a ventilação não é boa. Isso faz com que o nó do VxRail gere uma alta temperatura. Quando o módulo do ventilador não consegue ajustar a velocidade para resfriar a temperatura do componente interno, o evento térmico faz com que o servidor seja executado em um modo degradado e o desliga para evitar danos ao hardware. Essa operação depende da configuração de alerta de temperatura no iDRAC.
Alta temperatura de entrada: Se o alerta de temperatura não estiver definido, quando ele atingir 42 graus ou mais por um longo período, ele será executado primeiro no modo degradado e tentará usar o módulo do ventilador para resfriar o servidor. Depois de um longo tempo, ele desliga o servidor.
Resolution
- Os nós do VxRail têm um mecanismo interno para lidar com a situação ambiental ruim com seu módulo de ventilador e com os limites de definição de advertência e crítico. Como mencionado acima depois de se deparar com o crítico:
Um. Em iDRAC-configuration-system>> settings-alert> configuration-alerts-alert>> configuration -> expanda a temperatura. Se a primeira linha crítica estiver com o Power off, depois de atingir a temperatura crítica, ele será desligado imediatamente por disparo térmico da CPU.
O seguinte comando do iDRAC teria o mesmo efeito:
racadm>>racadm eventfilters get -c idrac.alert.system.TMP.critical
B. Se esse parâmetro for No Action, o iDRAC tentará ajustar o módulo do ventilador para resfriar o sistema primeiro. Depois de executar ciclos prolongados, uma queda térmica da CPU desligaria o servidor para evitar danos aos componentes de hardware por temperatura contínua.
2. Para evitar essa alta temperatura de entrada, os clientes devem garantir que as temperaturas de entrada estejam dentro da faixa para obter o desempenho ideal.