ECS: Systeem heeft hoge temperatuur gedetecteerd op een knooppunt
Summary: Wat kan ik controleren als ik een e-mailwaarschuwing ontvang met de melding dat het systeem een hoge temperatuursensormeting op een knooppunt heeft gedetecteerd.
Instructions
-
Bevestig welke hardware het alarmeerde knooppunt heeft.
admin@node1:~> sudo xdoctor -x Telegraf Version: 3.8.0.2-1549.73c8abc2 Fabric Version: 3.8.0.2-4347.d30cd09 Fabric-Zookeeper Version: 3.8.0.2-120.b4a1c5c Utilities Version: 3.7.0.4-1166.b78f3fe Influxdb Version: 3.8.0.2-1549.73c8abc2 Grafana Version: 3.8.0.2-1549.73c8abc2 Syslog Version: 3.8.0.2-4347.d30cd09 Service Version: 9.0.0.0-22840.479b013c74 Os Version: 3.8.0.2-2113.3fa664c.3 Fluxd Version: 3.8.0.2-1549.73c8abc2 Throttler Version: 3.8.0.2-1549.73c8abc2 Object Image Version: 3.8.0.2-138636.7343cd5c2c3 -------------------- ECS Version: 3.8.0.2 -------------------- HW Gen : 2 HW Model: U-Series HW Code : S2600KP ------------------------- xDoctor Version: 4.8-98.0 -------------------------Voor Gen 1/2-knooppunten reageert u op het formulier in de e-mail dat assistentie vereist is. Voor Gen 3-knooppunten volgt u de rest van deze kb.
-
Controleer de huidige status van de temperatuursensoren. Hieronder zien we "CRIT" op twee van de knooppunten, wat wijst op problemen op die twee knooppunten. Als alle knooppunten als "OK" worden gemeld, maar deze waarschuwing onlangs meerdere keren is ontvangen, kan dit een terugkerend probleem zijn. Zo ja, reageer dan op het formulier in de e-mail dat hulp nodig is met een terugkerende temperatuurwaarschuwing.
admin@node1:~> viprexec -i cs_hal sensors temp Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. ... ... ...
Als meerdere knooppunten als niet 'OK' worden gemeld, is er mogelijk een probleem in de omgeving van uw datacenter. Controleer of er geen problemen zijn in het gebied waarin het ECS zich bevindt waardoor de ECS-temperatuur kan stijgen.
-
Controleer de status van de ECS-ventilatoren.
admin@ecs:~>cs_hal sensors fan Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
-
Reageer op het formulier in de e-mail dat hulp nodig is, inclusief zowel de uitgangen van de temperatuursensor als de uitgangen van de ventilator.