ECS: System hat hohe Temperatur auf einem Node festgestellt
Summary: Was kann ich überprüfen, wenn ich eine E-Mail-Warnmeldung erhalte, die mich darüber informiert, dass das System einen hohen Temperatursensorwert an einem Node erkannt hat?
Instructions
-
Überprüfen Sie, um welche Hardware es sich bei dem Node handelt, zu dem die Warnmeldung ausgegeben wurde.
admin@node1:~> sudo xdoctor -x Telegraf Version: 3.8.0.2-1549.73c8abc2 Fabric Version: 3.8.0.2-4347.d30cd09 Fabric-Zookeeper Version: 3.8.0.2-120.b4a1c5c Utilities Version: 3.7.0.4-1166.b78f3fe Influxdb Version: 3.8.0.2-1549.73c8abc2 Grafana Version: 3.8.0.2-1549.73c8abc2 Syslog Version: 3.8.0.2-4347.d30cd09 Service Version: 9.0.0.0-22840.479b013c74 Os Version: 3.8.0.2-2113.3fa664c.3 Fluxd Version: 3.8.0.2-1549.73c8abc2 Throttler Version: 3.8.0.2-1549.73c8abc2 Object Image Version: 3.8.0.2-138636.7343cd5c2c3 -------------------- ECS Version: 3.8.0.2 -------------------- HW Gen : 2 HW Model: U-Series HW Code : S2600KP ------------------------- xDoctor Version: 4.8-98.0 -------------------------Antworten Sie für Nodes der 1/2. Generation auf das Formular in der E-Mail, dass Unterstützung erforderlich ist. Befolgen Sie für Gen 3-Nodes den Rest dieses Wissensdatenbank-Artikels.
-
Überprüfen Sie den aktuellen Status der Temperatursensoren. Unten sehen wir "CRIT" auf zwei der Nodes, was auf Probleme auf diesen beiden Nodes hinweist. Wenn alle Nodes als "OK" gemeldet werden, diese Warnmeldung jedoch in letzter Zeit mehrmals empfangen wurde, kann es sich um ein wiederkehrendes Problem handeln. Wenn dies der Fall ist, antworten Sie auf das Formular in der E-Mail, dass Unterstützung bei einer wiederkehrenden Temperaturwarnung erforderlich ist.
admin@node1:~> viprexec -i cs_hal sensors temp Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. ... ... ...
Wenn mehrere Nodes als nicht OK gemeldet werden, handelt es sich möglicherweise um ein Problem in der Umgebung Ihres Rechenzentrums. Stellen Sie sicher, dass in dem Bereich, in dem sich das ECS befindet, keine Probleme vorliegen, die die ECS-Temperatur erhöhen könnten.
-
Überprüfen Sie den Status der ECS-Lüfter.
admin@ecs:~>cs_hal sensors fan Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
-
Beantworten Sie das Formular in der E-Mail, dass Unterstützung erforderlich ist, einschließlich der Temperatursensor- und Lüfterausgänge.