VxRail: Knude udløser advarsel om høj indløbstemperatur
Summary: VxRail-node rapporterer advarsler om høj indgangstemperatur. Dette skyldes normalt en miljøfaktor såsom klimaanlægsproblem.
Symptoms
VxRail-noden udløser disse advarsler i livscykluscontrolleren:
2024-06-03 02:18:00 2586 TMPS0103 Inlet temperature is above critical level for extended duration.
2024-05-07 08:41:37 355 TMP0121 The system inlet temperature is greater than the upper critical threshold.
Hændelsesloggen genererer de matchende hændelsesposter:
2024-05-07 04:49:36 7 The system inlet temperature is within range.
2024-05-07 04:47:19 6 The system inlet temperature is greater than the upper warning threshold.
2024-05-06 19:41:37 5 The system inlet temperature is greater than the upper critical threshold.
2024-05-06 19:12:49 4 The system inlet temperature is greater than the upper warning threshold.
Hvis serveren er under den kritiske hændelse, kører den automatisk i en forringet tilstand. Hvis situationen varer lang tid, lukker den ned.
På dette skærmbillede aflæser iDRAC-loggen temperaturen på CPU'en eller bundkortet sammen med deres advarsel og kritiske grænse. 38 som advarsel og 42 som kritisk.
Cause
Dette skyldes miljøsituationen, at ventilationen ikke er god. Dette får VxRail-noden til at generere en høj temperatur. Når blæsermodulet ikke kan justere hastigheden til at køle den interne komponenttemperatur ned, får den termiske hændelse serveren til at køre i en forringet tilstand og lukker serveren ned for at undgå hardwareskader. Denne handling afhænger af indstillingen af temperaturalarmen i iDRAC.
Indløb høj temperatur: Hvis temperaturalarmen ikke er indstillet, kører den først i forringet tilstand, når den når til 42 grader eller derover i længere tid, og forsøger at bruge blæsermodulet til at køle serveren ned. Efter længere tid lukker den serveren ned.
Resolution
- VxRail-noder har en intern mekanisme til at håndtere den dårlige miljøsituation med blæsermodulet og med definitionstærsklerne for advarsel og kritisk. Som nævnt ovenfor efter at have løbet ind i kritisk:
En. Udvid temperaturen under iDRAC-konfiguration-systemindstillinger-alarmkonfiguration-alarmer-advarselskonfigurationkonfiguration>>>>>>. Hvis den første kritiske linje er med Power off, vil den straks lukke ned efter at have nået den kritiske temperatur ved CPU ens termiske trip.
Følgende iDRAC-kommando skulle vise sig at have samme effekt:
racadm>>racadm eventfilters get -c idrac.alert.system.TMP.critical
B. Hvis denne parameter er No Action, forsøger iDRAC at justere blæsermodulet for at køle systemet ned først. Når den har kørt længere cyklusser, slukker en CPU-termisk tur serveren for at undgå beskadigelse af hardwarekomponenter ved kontinuerlig temperatur.
2. For at undgå denne høje indgangstemperatur skal kunderne sikre, at indløbstemperaturerne er inden for området for optimal ydeevne.