VxRail: Węzeł wyzwala alert o wysokiej temperaturze na wlocie
Summary: Węzeł VxRail zgłasza alerty o wysokiej temperaturze przy wlocie. Jest to zwykle spowodowane czynnikiem środowiskowym, takim jak problem z klimatyzatorem.
Symptoms
Węzeł VxRail wyzwala następujące alerty w kontrolerze cyklu eksploatacji:
2024-06-03 02:18:00 2586 TMPS0103 Inlet temperature is above critical level for extended duration.
2024-05-07 08:41:37 355 TMP0121 The system inlet temperature is greater than the upper critical threshold.
Dziennik zdarzeń generuje pasujące wpisy zdarzeń:
2024-05-07 04:49:36 7 The system inlet temperature is within range.
2024-05-07 04:47:19 6 The system inlet temperature is greater than the upper warning threshold.
2024-05-06 19:41:37 5 The system inlet temperature is greater than the upper critical threshold.
2024-05-06 19:12:49 4 The system inlet temperature is greater than the upper warning threshold.
Jeśli na serwerze wystąpi zdarzenie krytyczne, będzie on automatycznie działać w trybie obniżonej wydajności. Jeśli sytuacja trwa długo, wyłącza się.
Na tym zrzucie ekranu dziennik kontrolera iDRAC odczytuje temperaturę procesora lub płyty głównej wraz z ostrzeżeniem i progiem krytycznym. 38 jako ostrzeżenie i 42 jako krytyczne.
Cause
Wynika to z sytuacji, w której wentylacja nie jest dobra. Powoduje to, że węzeł VxRail generuje wysoką temperaturę. Jeśli moduł wentylatorów nie jest w stanie dostosować prędkości w celu obniżenia wewnętrznej temperatury elementu, zdarzenie termiczne powoduje przejście serwera w tryb awaryjnej wydajności i wyłączenie serwera, aby uniknąć uszkodzenia sprzętu. Ta operacja zależy od ustawienia alertu temperatury w kontrolerze iDRAC.
Wysoka temperatura na wlocie: Jeśli alert temperatury nie jest ustawiony, to gdy temperatura osiągnie 42 stopnie lub więcej przez dłuższy czas, najpierw działa w trybie awaryjnym i próbuje użyć modułu wentylatora do schłodzenia serwera. Po dłuższym czasie wyłącza serwer.
Resolution
- Węzły VxRail mają wewnętrzny mechanizm radzenia sobie ze złą sytuacją środowiskową dzięki modułowi wentylatora i progom definicji ostrzeżenia i krytycznego. Jak wspomniano powyżej po napotkaniu błędu krytycznego:
A. W obszarze iDRAC-configuration-system>> settings-alert> configuration-alerts-alert>> configuration -> expand temperature. Jeśli pierwszy krytyczny wiersz jest wyłączony, po osiągnięciu temperatury krytycznej zostanie natychmiast wyłączony przez blokadę termiczną procesora.
Następujące polecenie kontrolera iDRAC miałoby taki sam skutek:
racadm>>racadm eventfilters get -c idrac.alert.system.TMP.critical
B. Jeśli ten parametr to No Action, kontroler iDRAC próbuje najpierw dostosować moduł wentylatora, aby schłodzić system. Po dłuższych cyklach działanie procesora spowoduje wyłączenie serwera, co pozwoli uniknąć uszkodzenia elementów sprzętowych przez ciągłą temperaturę.
2. Aby uniknąć tak wysokiej temperatury wlotowej, klienci muszą upewnić się, że temperatury na wlocie mieszczą się w zakresie zapewniającym optymalną wydajność.