ECS : Système détecté : haute température sur un nœud
Summary: Que puis-je vérifier si je reçois une alerte par e-mail m’informant que le système a détecté une lecture de capteur de température élevée sur un nœud ?
Instructions
-
Confirmez le matériel du nœud alerté.
admin@node1:~> sudo xdoctor -x Telegraf Version: 3.8.0.2-1549.73c8abc2 Fabric Version: 3.8.0.2-4347.d30cd09 Fabric-Zookeeper Version: 3.8.0.2-120.b4a1c5c Utilities Version: 3.7.0.4-1166.b78f3fe Influxdb Version: 3.8.0.2-1549.73c8abc2 Grafana Version: 3.8.0.2-1549.73c8abc2 Syslog Version: 3.8.0.2-4347.d30cd09 Service Version: 9.0.0.0-22840.479b013c74 Os Version: 3.8.0.2-2113.3fa664c.3 Fluxd Version: 3.8.0.2-1549.73c8abc2 Throttler Version: 3.8.0.2-1549.73c8abc2 Object Image Version: 3.8.0.2-138636.7343cd5c2c3 -------------------- ECS Version: 3.8.0.2 -------------------- HW Gen : 2 HW Model: U-Series HW Code : S2600KP ------------------------- xDoctor Version: 4.8-98.0 -------------------------Pour les nœuds Gen 1/2, répondez au formulaire de l’e-mail indiquant qu’une assistance est requise. Pour les nœuds Gen 3, suivez le reste de cet article de la base de connaissances.
-
Vérifiez l’état actuel des capteurs de température. Ci-dessous, nous voyons « CRIT » sur deux des nœuds, indiquant des problèmes sur ces deux nœuds. Si tous les nœuds indiquent « OK », mais que cette alerte a été reçue plusieurs fois récemment, il peut s’agir d’un problème récurrent. Si c’est le cas, répondez au formulaire figurant dans l’e-mail indiquant qu’une assistance est requise en envoyant une alerte de température récurrente.
admin@node1:~> viprexec -i cs_hal sensors temp Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. ... ... ...
Si plusieurs nœuds ne sont pas signalés comme « OK », il s’agit peut-être d’un problème dans l’environnement de votre datacenter. Vérifiez qu’il n’y a pas de problèmes dans la zone où se trouve l’ECS qui pourraient augmenter la température de l’ECS.
-
Vérifiez l’état des ventilateurs ECS.
admin@ecs:~>cs_hal sensors fan Output from host : xxx.xxx.xxx.xxx Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
-
Répondez au formulaire de l’e-mail indiquant qu’une assistance est requise, y compris les sorties du capteur de température et les sorties du ventilateur.