ECS: RAP015: Guasto alla temperatura; Codice sintomo: 2010
Summary: È stato raggiunto un sensore di temperatura sul nodo che segnala il raggiungimento di un livello critico.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Un sensore di temperatura ha rilevato una temperatura superiore a una soglia critica.
È possibile che un componente non funzioni correttamente e che un sensore di temperatura segnali il raggiungimento di un livello critico.
Un sensore di temperatura sul nodo segnala che è stato raggiunto un livello critico.
È possibile che un componente non funzioni correttamente e che un sensore di temperatura segnali il raggiungimento di un livello critico.
Un sensore di temperatura sul nodo segnala che è stato raggiunto un livello critico.
Cause
Si è verificato un problema che ha causato il superamento di un livello critico da parte di un sensore di temperatura.
Resolution
Per Gen2, scorrere fino in fondo.
Hardware Gen3:
1. Controllare lo stato dei sensori di temperatura utilizzando cs_hal sul nodo segnalato.
Comando:
Hardware Gen3:
1. Controllare lo stato dei sensori di temperatura utilizzando cs_hal sul nodo segnalato.
Comando:
#cs_hal sensors temp
Esempio: Per Gen3, sono disponibili solo tre sensori di temperatura come indicato di seguito.
admin@n1-mgmt:~> cs_hal sensors temp Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 54 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. admin@n1-mgmt:~>
2. Controllare tutti i nodi nel rack e verificare se altri nodi segnalano un sensore di temperatura non "OK"
Comando:
Esempio: In questo esempio, più nodi nella metà superiore del rack segnalano una temperatura di ingresso troppo alta.
3. Possibili scenari:
4. Importante: Utilizzare https://central.dell.com/case-lookup/ e cercare il PSNT (Product Serial Number Tag) per controllare la cronologia. Controlla quante occorrenze si sono verificate negli ultimi 3-6 mesi. Verificare se il problema è persistente e interessa diversi nodi o se è interessato un intero rack con una temperatura di ingresso superiore al normale, ciò indica un problema ambientale persistente da risolvere. Non chiudere il caso come duplicato a meno che non ci sia un chiaro piano d'azione e conclusioni per risolvere il problema della temperatura.
5. Se il team PE non rileva un problema o se la cronologia contiene molte occorrenze dello stesso avviso (per 3 mesi o più), consultare un L2 over Swarm e prepararsi a ordinare un CE per esaminare le condizioni ambientali del rack e dei nodi interessati.
Comando:
viprexec -i cs_hal sensors temp
Esempio: In questo esempio, più nodi nella metà superiore del rack segnalano una temperatura di ingresso troppo alta.
admin@n1-mgmt:~> viprexec -i cs_hal sensors temp Output from host : 192.168.219.1 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.2 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.3 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.4 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 48 Degrees Celsius Processor Temperature Temp OK 50 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.5 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 48 Degrees Celsius Processor Temperature Temp OK 50 Degrees Celsius System Board Temperature Inlet Temp WARN 38 Degrees Celsius; above non-critical threshold System Board Temperature Exhaust Temp OK 49 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.6 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 50 Degrees Celsius Processor Temperature Temp OK 52 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 51 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.7 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 45 Degrees Celsius Processor Temperature Temp OK 48 Degrees Celsius System Board Temperature Inlet Temp OK 36 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.8 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 51 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp OK 31 Degrees Celsius System Board Temperature Exhaust Temp OK 43 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.9 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 52 Degrees Celsius Processor Temperature Temp OK 51 Degrees Celsius System Board Temperature Inlet Temp OK 30 Degrees Celsius System Board Temperature Exhaust Temp OK 42 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.10 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 54 Degrees Celsius Processor Temperature Temp OK 51 Degrees Celsius System Board Temperature Inlet Temp OK 28 Degrees Celsius System Board Temperature Exhaust Temp OK 41 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. 192.168.219.7 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 45 Degrees Celsius Processor Temperature Temp OK 48 Degrees Celsius System Board Temperature Inlet Temp OK 36 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius Output from host : 192.168.219.11 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 56 Degrees Celsius Processor Temperature Temp OK 55 Degrees Celsius System Board Temperature Inlet Temp OK 27 Degrees Celsius System Board Temperature Exhaust Temp OK 40 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.12 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 59 Degrees Celsius Processor Temperature Temp OK 59 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.13 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 51 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 36 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.14 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 57 Degrees Celsius Processor Temperature Temp OK 60 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.15 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 59 Degrees Celsius Processor Temperature Temp OK 59 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 39 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.16 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 56 Degrees Celsius Processor Temperature Temp OK 56 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. admin@n1-mgmt:~>
3. Possibili scenari:
- Un solo nodo segnala uno o più sensori: Se il problema si verifica su un solo nodo in cui la temperatura non è indicata come "OK", è molto probabile che si tratti di un problema relativo a una parte o che il nodo non dispone di una buona circolazione dell'aria a causa più di un problema interno che di un problema del rack.
- Sono interessati più nodi, che si tratta più che altro di un problema ambientale all'interno del rack stesso o forse del data center.
4. Verificare che le ventole funzionino correttamente. In caso contrario, potrebbe essere necessario sostituire una ventola.
Comando:
#cs_hal sensors fanEsempio:
admin@ecs:~>cs_hal sensors fan Output from host : 192.168.219.1 Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.3. Se tutte le ventole sono corrette, significa che non ci sono problemi con i sistemi ventolati. Contattare il team Power Edge per verificare se è necessario sostituire un componente. Se le ventole segnalano un problema, seguire le indicazioni ECS: Dial Home: Guasto alla ventola; Codice sintomo: Anno 2008
4. Importante: Utilizzare https://central.dell.com/case-lookup/ e cercare il PSNT (Product Serial Number Tag) per controllare la cronologia. Controlla quante occorrenze si sono verificate negli ultimi 3-6 mesi. Verificare se il problema è persistente e interessa diversi nodi o se è interessato un intero rack con una temperatura di ingresso superiore al normale, ciò indica un problema ambientale persistente da risolvere. Non chiudere il caso come duplicato a meno che non ci sia un chiaro piano d'azione e conclusioni per risolvere il problema della temperatura.
5. Se il team PE non rileva un problema o se la cronologia contiene molte occorrenze dello stesso avviso (per 3 mesi o più), consultare un L2 over Swarm e prepararsi a ordinare un CE per esaminare le condizioni ambientali del rack e dei nodi interessati.
Gen 2:
1. Controllare lo stato dei sensori di temperatura utilizzando cs_hal.
Esempio:
# cs_hal sensors temp Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Temperature SSB Therm Trip OK System Board Temperature BB Inlet Temp OK 32 Degrees Celsius CPU (DCMI Compat) Temperature HSBP Temp OK -222 Degrees Celsius System Board Temperature SSB Temp OK 60 Degrees Celsius System Board Temperature BB BMC Temp OK 51 Degrees Celsius System Board Temperature P1 VR Temp OK 38 Degrees Celsius System Board Temperature IB Temp OK 46 Degrees Celsius System Board Temperature Exit Air Temp OK 54 Degrees Celsius Front Panel Temperature IOM Temp OK 43 Degrees Celsius Drive Backplane Temperature HSBP PSOC OK 37 Degrees Celsius Front Panel Temperature LAN NIC Temp OK 67 Degrees Celsius Power Supply Temperature PS1 Temperature OK 34 Degrees Celsius Power Supply Temperature PS2 Temperature OK 34 Degrees Celsius Processor Temperature P1 Therm Margin OK 216 Degrees Celsius Processor Temperature P2 Therm Margin OK 206 Degrees Celsius Processor Temperature P1 Therm Ctrl % OK 0 Unspecified Processor Temperature P2 Therm Ctrl % OK 0 Unspecified Processor Temperature P1 DTS Therm Mgn OK 216 Degrees Celsius Processor Temperature P2 DTS Therm Mgn OK 206 Degrees Celsius Processor Temperature P1 VRD Hot OK Processor Temperature P2 VRD Hot OK System Board Temperature DIMM Thrm Mrgn 1 OK 201 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 2 OK 200 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 3 OK 198 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 4 OK 197 Degrees Celsius System Board Temperature Agg Thrm Mgn 1 OK 233 Degrees Celsius
2. Seguire la stessa procedura per la terza generazione (ma non segnalare a PowerEdge), ulteriori dettagli verranno aggiornati per la seconda generazione in futuro.
Affected Products
ECS ApplianceProducts
ECS ApplianceArticle Properties
Article Number: 000046763
Article Type: Solution
Last Modified: 30 Apr 2024
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.