ECS: Temperatura elevata rilevata dal sistema su un nodo
Summary: Cosa è possibile verificare se si riceve un avviso via e-mail che informa che il sistema ha rilevato una lettura del sensore di temperatura elevata su un nodo?
Instructions
-
Verificare l'hardware del nodo sottoposto ad alert.
admin@node1:~> sudo xdoctor -x Telegraf Version: 3.8.0.2-1549.73c8abc2 Fabric Version: 3.8.0.2-4347.d30cd09 Fabric-Zookeeper Version: 3.8.0.2-120.b4a1c5c Utilities Version: 3.7.0.4-1166.b78f3fe Influxdb Version: 3.8.0.2-1549.73c8abc2 Grafana Version: 3.8.0.2-1549.73c8abc2 Syslog Version: 3.8.0.2-4347.d30cd09 Service Version: 9.0.0.0-22840.479b013c74 Os Version: 3.8.0.2-2113.3fa664c.3 Fluxd Version: 3.8.0.2-1549.73c8abc2 Throttler Version: 3.8.0.2-1549.73c8abc2 Object Image Version: 3.8.0.2-138636.7343cd5c2c3 -------------------- ECS Version: 3.8.0.2 -------------------- HW Gen : 2 HW Model: U-Series HW Code : S2600KP ------------------------- xDoctor Version: 4.8-98.0 -------------------------Per i nodi Gen 1/2, rispondere al modulo nell'e-mail indicando che è necessaria assistenza. Per i nodi Gen 3, attenersi al resto di questo articolo della KB.
-
Controllare lo stato attuale dei sensori di temperatura. Di seguito è riportato "CRIT" su due dei nodi, che indica problemi in questi due nodi. Se tutti i nodi segnalano "OK" ma questo avviso è stato ricevuto più volte di recente, potrebbe trattarsi di un problema ricorrente. In tal caso, rispondi al modulo nell'e-mail indicando che è necessaria assistenza con un avviso di temperatura ricorrente.
admin@node1:~> viprexec -i cs_hal sensors temp Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. ... ... ...
Se più nodi vengono segnalati come non "OK", è possibile che si tratti di un problema all'interno dell'ambiente del data center. Verificare che nell'area in cui si trova ECS non vi siano problemi che potrebbero aumentare la temperatura dell'ECS.
-
Controllare lo stato delle ventole ECS.
admin@ecs:~>cs_hal sensors fan Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
-
Rispondi al modulo nell'e-mail in cui dici che è necessaria assistenza, includendo sia le uscite del sensore di temperatura che quelle della ventola.