ECS: RAP015: Temperaturversagen; Symptomcode: 2010
Summary: Ein Temperatursensor auf dem Node meldet, dass er ein kritisches Niveau erreicht hat.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Ein Temperatursensor hat eine Temperatur erkannt, die über einem kritischen Schwellenwert liegt.
Eine Komponente funktioniert möglicherweise nicht ordnungsgemäß, was dazu führt, dass ein Temperatursensor meldet, dass ein kritischer Level erreicht wurde.
Ein Temperatursensor auf dem Node meldet, dass ein kritisches Level erreicht wurde.
Eine Komponente funktioniert möglicherweise nicht ordnungsgemäß, was dazu führt, dass ein Temperatursensor meldet, dass ein kritischer Level erreicht wurde.
Ein Temperatursensor auf dem Node meldet, dass ein kritisches Level erreicht wurde.
Cause
Es ist ein Problem aufgetreten, das dazu geführt hat, dass ein Temperatursensor einen kritischen Wert überschritten hat.
Resolution
Scrollen Sie für Gen2 nach unten.
Gen3-Hardware:
1. Überprüfen Sie den Status der Temperatursensoren mithilfe von cs_hal auf dem gemeldeten Node.
Befehl:
Gen3-Hardware:
1. Überprüfen Sie den Status der Temperatursensoren mithilfe von cs_hal auf dem gemeldeten Node.
Befehl:
#cs_hal sensors temp
Beispiel: Für Gen3 gibt es nur drei Temperatursensoren wie folgt.
admin@n1-mgmt:~> cs_hal sensors temp Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 54 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. admin@n1-mgmt:~>
2. Überprüfen Sie alle Nodes im Rack und prüfen Sie, ob andere Nodes melden, dass der Temperatursensor nicht "OK"
ist. Befehl:
Beispiel: In diesem Beispiel melden mehrere Nodes in der oberen Hälfte des Racks eine zu hohe Einlasstemperatur.
3. Mögliche Szenarien:
4. Wichtig: Verwenden Sie https://central.dell.com/case-lookup/ und schlagen Sie das PSNT (Produktseriennummer-Etikett) nach, um die Historie zu überprüfen. Prüfen Sie, wie viele Vorkommnisse in den letzten 3 bis 6 Monaten aufgetreten sind. Überprüfen Sie, ob das Problem bestehen bleibt und mehrere Nodes betrifft, oder ob ein ganzes Rack mit einer höheren Einlasstemperatur als normal betroffen ist. Dann deutet dies auf anhaltende Umgebungsprobleme hin, die gelöst werden müssen. Schließen Sie den Vorgang nur dann als Duplikat, wenn ein klarer Aktionsplan und Schlussfolgerungen zur Behebung des Temperaturproblems vorhanden sind.
5. Wenn das PE-Team kein Problem findet oder wenn der Verlauf viele Vorkommnisse aus derselben Warnmeldung enthält (für 3 Monate oder länger), wenden Sie sich an einen L2 über Swarm und bereiten Sie sich darauf vor, einen CE zu bestellen, um die Umgebungsbedingungen des betroffenen Racks und der betroffenen Nodes zu überprüfen.
ist. Befehl:
viprexec -i cs_hal sensors temp
Beispiel: In diesem Beispiel melden mehrere Nodes in der oberen Hälfte des Racks eine zu hohe Einlasstemperatur.
admin@n1-mgmt:~> viprexec -i cs_hal sensors temp Output from host : 192.168.219.1 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 53 Degrees Celsius Processor Temperature Temp OK 53 Degrees Celsius System Board Temperature Inlet Temp CRIT 40 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.2 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 47 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 50 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.3 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 46 Degrees Celsius Processor Temperature Temp OK 46 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.4 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 48 Degrees Celsius Processor Temperature Temp OK 50 Degrees Celsius System Board Temperature Inlet Temp OK 35 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.5 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 48 Degrees Celsius Processor Temperature Temp OK 50 Degrees Celsius System Board Temperature Inlet Temp WARN 38 Degrees Celsius; above non-critical threshold System Board Temperature Exhaust Temp OK 49 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.6 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 50 Degrees Celsius Processor Temperature Temp OK 52 Degrees Celsius System Board Temperature Inlet Temp CRIT 39 Degrees Celsius; above critical threshold System Board Temperature Exhaust Temp OK 51 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.7 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 45 Degrees Celsius Processor Temperature Temp OK 48 Degrees Celsius System Board Temperature Inlet Temp OK 36 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.8 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 51 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp OK 31 Degrees Celsius System Board Temperature Exhaust Temp OK 43 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.9 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 52 Degrees Celsius Processor Temperature Temp OK 51 Degrees Celsius System Board Temperature Inlet Temp OK 30 Degrees Celsius System Board Temperature Exhaust Temp OK 42 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.10 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 54 Degrees Celsius Processor Temperature Temp OK 51 Degrees Celsius System Board Temperature Inlet Temp OK 28 Degrees Celsius System Board Temperature Exhaust Temp OK 41 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. 192.168.219.7 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 45 Degrees Celsius Processor Temperature Temp OK 48 Degrees Celsius System Board Temperature Inlet Temp OK 36 Degrees Celsius System Board Temperature Exhaust Temp OK 47 Degrees Celsius Output from host : 192.168.219.11 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 56 Degrees Celsius Processor Temperature Temp OK 55 Degrees Celsius System Board Temperature Inlet Temp OK 27 Degrees Celsius System Board Temperature Exhaust Temp OK 40 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.12 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 59 Degrees Celsius Processor Temperature Temp OK 59 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.13 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 51 Degrees Celsius Processor Temperature Temp OK 49 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 36 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.14 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 57 Degrees Celsius Processor Temperature Temp OK 60 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.15 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 59 Degrees Celsius Processor Temperature Temp OK 59 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 39 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. Output from host : 192.168.219.16 Entity Type Label Status Info ----- ----- ----- ----- ----- Processor Temperature Temp OK 56 Degrees Celsius Processor Temperature Temp OK 56 Degrees Celsius System Board Temperature Inlet Temp OK 26 Degrees Celsius System Board Temperature Exhaust Temp OK 38 Degrees Celsius NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information. admin@n1-mgmt:~>
3. Mögliche Szenarien:
- Ein Node , der nur einen Sensor oder mehrere meldet: Wenn das Problem nur auf einem Node auftritt, auf dem die Temperatur nicht "OK" meldet, weist dies höchstwahrscheinlich auf ein Teilproblem hin oder der Node hat keinen guten Luftstrom, was eher auf ein internes als auf ein Rackproblem zurückzuführen ist.
- Mehrere Nodes sind betroffen, dies ist eher ein Umgebungsproblem innerhalb des Racks selbst oder möglicherweise im Rechenzentrum.
4. Überprüfen Sie, ob die Lüfter ordnungsgemäß laufen. Falls nicht, muss möglicherweise ein Lüfter ausgetauscht werden.
Befehl:
#cs_hal sensors fanBeispiel:
admin@ecs:~>cs_hal sensors fan Output from host : 192.168.219.1 Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Fan Fan1 OK 12600 RPM System Board Fan Fan2 OK 12600 RPM System Board Fan Fan3 OK 16920 RPM System Board Fan Fan4 OK 16800 RPM System Board Fan Fan5 OK 17040 RPM System Board Fan Fan6 OK 16920 RPM System Board Fan Fan Redundancy OK fully redundant; NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.3. Wenn alle Lüfter OK melden, bedeutet dies, dass keine Probleme mit den Lüftersystemen vorliegen. Ziehen Sie das Power Edge-Team hinzu, um zu prüfen, ob ein Teil ausgetauscht werden muss. Wenn Lüfter Probleme melden, befolgen Sie ECS: Dial Home: Lüfterfehler; SymptomCode: 2008
4. Wichtig: Verwenden Sie https://central.dell.com/case-lookup/ und schlagen Sie das PSNT (Produktseriennummer-Etikett) nach, um die Historie zu überprüfen. Prüfen Sie, wie viele Vorkommnisse in den letzten 3 bis 6 Monaten aufgetreten sind. Überprüfen Sie, ob das Problem bestehen bleibt und mehrere Nodes betrifft, oder ob ein ganzes Rack mit einer höheren Einlasstemperatur als normal betroffen ist. Dann deutet dies auf anhaltende Umgebungsprobleme hin, die gelöst werden müssen. Schließen Sie den Vorgang nur dann als Duplikat, wenn ein klarer Aktionsplan und Schlussfolgerungen zur Behebung des Temperaturproblems vorhanden sind.
5. Wenn das PE-Team kein Problem findet oder wenn der Verlauf viele Vorkommnisse aus derselben Warnmeldung enthält (für 3 Monate oder länger), wenden Sie sich an einen L2 über Swarm und bereiten Sie sich darauf vor, einen CE zu bestellen, um die Umgebungsbedingungen des betroffenen Racks und der betroffenen Nodes zu überprüfen.
Generation 2:
1. Überprüfen Sie den Status der Temperatursensoren mithilfe von cs_hal.
Beispiel:
# cs_hal sensors temp Entity Type Label Status Info ----- ----- ----- ----- ----- System Board Temperature SSB Therm Trip OK System Board Temperature BB Inlet Temp OK 32 Degrees Celsius CPU (DCMI Compat) Temperature HSBP Temp OK -222 Degrees Celsius System Board Temperature SSB Temp OK 60 Degrees Celsius System Board Temperature BB BMC Temp OK 51 Degrees Celsius System Board Temperature P1 VR Temp OK 38 Degrees Celsius System Board Temperature IB Temp OK 46 Degrees Celsius System Board Temperature Exit Air Temp OK 54 Degrees Celsius Front Panel Temperature IOM Temp OK 43 Degrees Celsius Drive Backplane Temperature HSBP PSOC OK 37 Degrees Celsius Front Panel Temperature LAN NIC Temp OK 67 Degrees Celsius Power Supply Temperature PS1 Temperature OK 34 Degrees Celsius Power Supply Temperature PS2 Temperature OK 34 Degrees Celsius Processor Temperature P1 Therm Margin OK 216 Degrees Celsius Processor Temperature P2 Therm Margin OK 206 Degrees Celsius Processor Temperature P1 Therm Ctrl % OK 0 Unspecified Processor Temperature P2 Therm Ctrl % OK 0 Unspecified Processor Temperature P1 DTS Therm Mgn OK 216 Degrees Celsius Processor Temperature P2 DTS Therm Mgn OK 206 Degrees Celsius Processor Temperature P1 VRD Hot OK Processor Temperature P2 VRD Hot OK System Board Temperature DIMM Thrm Mrgn 1 OK 201 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 2 OK 200 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 3 OK 198 Degrees Celsius System Board Temperature DIMM Thrm Mrgn 4 OK 197 Degrees Celsius System Board Temperature Agg Thrm Mgn 1 OK 233 Degrees Celsius
2. Befolgen Sie die gleichen Schritte wie bei Gen 3 (aber nicht an PowerEdge melden). Weitere Details werden in Zukunft für Gen2 aktualisiert.
Affected Products
ECS ApplianceProducts
ECS ApplianceArticle Properties
Article Number: 000046763
Article Type: Solution
Last Modified: 30 Apr 2024
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.