ECS: RAP015: awaria temperatury; Kod symptomu: 2010

Summary: Czujnik temperatury na węźle zgłasza osiągnięcie poziomu krytycznego.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Czujnik temperatury wykrył temperaturę przekraczającą próg krytyczny.
Element może nie działać prawidłowo, co powoduje, że czujnik temperatury zgłasza osiągnięcie poziomu krytycznego.
Czujnik temperatury na węźle zgłasza osiągnięcie poziomu krytycznego.

Cause

Wystąpił problem, który spowodował, że czujnik temperatury przekroczył poziom krytyczny.

Resolution

W przypadku Gen2 przewiń w dół.

Sprzęt Gen3: 

1. Sprawdź stan czujników temperatury za pomocą cs_hal w zgłoszonym węźle.

Polecenia: 
#cs_hal sensors temp
 
Example: W przypadku Gen3 dostępne są tylko trzy czujniki Temp w następujący sposób.
 
admin@n1-mgmt:~>  cs_hal sensors temp
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      53 Degrees Celsius
Processor         Temperature         Temp              OK      54 Degrees Celsius
System Board      Temperature         Inlet Temp        CRIT    40 Degrees Celsius; above critical threshold
System Board      Temperature         Exhaust Temp      OK      50 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
admin@n1-mgmt:~>
2. Sprawdź wszystkie węzły w szafie serwerowej i sprawdź, czy inne węzły zgłaszają, że czujnik temperatury nie jest "OK"

Command: 
viprexec -i  cs_hal sensors temp

Example: W tym przykładzie wiele węzłów w górnej połowie szafy serwerowej zgłasza zbyt wysoką temperaturę przy wlocie. 
admin@n1-mgmt:~> viprexec -i  cs_hal sensors temp

Output from host : 192.168.219.1
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      53 Degrees Celsius
Processor         Temperature         Temp              OK      53 Degrees Celsius
System Board      Temperature         Inlet Temp        CRIT    40 Degrees Celsius; above critical threshold
System Board      Temperature         Exhaust Temp      OK      50 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.2
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      47 Degrees Celsius
Processor         Temperature         Temp              OK      49 Degrees Celsius
System Board      Temperature         Inlet Temp        CRIT    39 Degrees Celsius; above critical threshold
System Board      Temperature         Exhaust Temp      OK      50 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.3
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      46 Degrees Celsius
Processor         Temperature         Temp              OK      46 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      35 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      47 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.4
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      48 Degrees Celsius
Processor         Temperature         Temp              OK      50 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      35 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      47 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.5
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      48 Degrees Celsius
Processor         Temperature         Temp              OK      50 Degrees Celsius
System Board      Temperature         Inlet Temp        WARN    38 Degrees Celsius; above non-critical threshold
System Board      Temperature         Exhaust Temp      OK      49 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.6
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      50 Degrees Celsius
Processor         Temperature         Temp              OK      52 Degrees Celsius
System Board      Temperature         Inlet Temp        CRIT    39 Degrees Celsius; above critical threshold
System Board      Temperature         Exhaust Temp      OK      51 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.7
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      45 Degrees Celsius
Processor         Temperature         Temp              OK      48 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      36 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      47 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.8
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      51 Degrees Celsius
Processor         Temperature         Temp              OK      49 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      31 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      43 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.9
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      52 Degrees Celsius
Processor         Temperature         Temp              OK      51 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      30 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      42 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.10
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      54 Degrees Celsius
Processor         Temperature         Temp              OK      51 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      28 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      41 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
 192.168.219.7
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      45 Degrees Celsius
Processor         Temperature         Temp              OK      48 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      36 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      47 Degrees Celsius

Output from host : 192.168.219.11
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      56 Degrees Celsius
Processor         Temperature         Temp              OK      55 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      27 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      40 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.12
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      59 Degrees Celsius
Processor         Temperature         Temp              OK      59 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      26 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      38 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.13
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      51 Degrees Celsius
Processor         Temperature         Temp              OK      49 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      26 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      36 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.14
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      57 Degrees Celsius
Processor         Temperature         Temp              OK      60 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      26 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      38 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.15
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      59 Degrees Celsius
Processor         Temperature         Temp              OK      59 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      26 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      39 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.

Output from host : 192.168.219.16
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
Processor         Temperature         Temp              OK      56 Degrees Celsius
Processor         Temperature         Temp              OK      56 Degrees Celsius
System Board      Temperature         Inlet Temp        OK      26 Degrees Celsius
System Board      Temperature         Exhaust Temp      OK      38 Degrees Celsius

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
admin@n1-mgmt:~>

3. Możliwe scenariusze:
  1. Jeden węzeł zgłaszający tylko czujnik lub więcej: Jeśli problem występuje tylko w jednym węźle, w przypadku którego temperatura nie jest prawidłowa, najprawdopodobniej oznacza to problem z częściami lub węzeł nie zapewnia prawidłowego przepływu powietrza, ponieważ jest to bardziej prawdopodobne niż problem z szafą serwerową.
  2. Problem dotyczy wielu węzłów , jest to problem środowiskowy w samej szafie serwerowej lub ewentualnie w centrum danych


4. Sprawdź, czy wentylatory działają prawidłowo. Jeśli nie, wentylator może wymagać wymiany.

Polecenia:

#cs_hal sensors fan
Example: 
admin@ecs:~>cs_hal sensors fan

Output from host : 192.168.219.1
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
System Board      Fan                 Fan1              OK      12600 RPM
System Board      Fan                 Fan2              OK      12600 RPM
System Board      Fan                 Fan3              OK      16920 RPM
System Board      Fan                 Fan4              OK      16800 RPM
System Board      Fan                 Fan5              OK      17040 RPM
System Board      Fan                 Fan6              OK      16920 RPM
System Board      Fan                 Fan Redundancy    OK      fully redundant;

NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
3. Jeśli wszystkie wentylatory zgłaszają prawidłowo, oznacza to, że nie ma problemów z systemami wentylatorów. Skontaktuj się z zespołem PowerEdge , aby sprawdzić, czy część wymaga wymiany. Jeśli ktokolwiek z fanów zgłasza problem, postępuj zgodnie z ECS: Dial Home: awaria wentylatora; SymptomCode: Rok 2008

4. Ważne: Użyj https://central.dell.com/case-lookup/  i wyszukaj PSNT (Product Serial Number Tag), aby sprawdzić historię. Sprawdź, ile zdarzeń miało miejsce w ciągu ostatnich 3-6 miesięcy. Sprawdź, czy problem utrzymuje się i dotyczy kilku węzłów, czy też problem dotyczy całej szafy serwerowej, a temperatura przy wlocie jest wyższa niż normalnie, oznacza to utrzymujące się problemy środowiskowe, które należy rozwiązać. Nie zamykaj obudowy jako duplikatu, chyba że istnieje jasny plan działania i wnioski mające na celu rozwiązanie problemu z temperaturą. 

5. Jeśli zespół PE nie znajdzie problemu lub jeśli historia zawiera wiele wystąpień tego samego alertu (przez 3 miesiące lub dłużej), skonsultuj się z L2 przez Swarm i przygotuj się do pracy, aby CE przejrzał warunki środowiskowe szafy serwerowej i węzłów, których dotyczy problem. 
 
Gen 2: 
 
1. Sprawdź stan czujników temperatury za pomocą cs_hal.
Example:
# cs_hal sensors temp
Entity            Type                Label             Status  Info
-----             -----               -----             -----   -----
System Board      Temperature         SSB Therm Trip    OK
System Board      Temperature         BB Inlet Temp     OK      32 Degrees Celsius
CPU (DCMI Compat) Temperature         HSBP Temp         OK      -222 Degrees Celsius
System Board      Temperature         SSB Temp          OK      60 Degrees Celsius
System Board      Temperature         BB BMC Temp       OK      51 Degrees Celsius
System Board      Temperature         P1 VR Temp        OK      38 Degrees Celsius
System Board      Temperature         IB Temp           OK      46 Degrees Celsius
System Board      Temperature         Exit Air Temp     OK      54 Degrees Celsius
Front Panel       Temperature         IOM Temp          OK      43 Degrees Celsius
Drive Backplane   Temperature         HSBP PSOC         OK      37 Degrees Celsius
Front Panel       Temperature         LAN NIC Temp      OK      67 Degrees Celsius
Power Supply      Temperature         PS1 Temperature   OK      34 Degrees Celsius
Power Supply      Temperature         PS2 Temperature   OK      34 Degrees Celsius
Processor         Temperature         P1 Therm Margin   OK      216 Degrees Celsius
Processor         Temperature         P2 Therm Margin   OK      206 Degrees Celsius
Processor         Temperature         P1 Therm Ctrl %   OK      0 Unspecified
Processor         Temperature         P2 Therm Ctrl %   OK      0 Unspecified
Processor         Temperature         P1 DTS Therm Mgn  OK      216 Degrees Celsius
Processor         Temperature         P2 DTS Therm Mgn  OK      206 Degrees Celsius
Processor         Temperature         P1 VRD Hot        OK
Processor         Temperature         P2 VRD Hot        OK
System Board      Temperature         DIMM Thrm Mrgn 1  OK      201 Degrees Celsius
System Board      Temperature         DIMM Thrm Mrgn 2  OK      200 Degrees Celsius
System Board      Temperature         DIMM Thrm Mrgn 3  OK      198 Degrees Celsius
System Board      Temperature         DIMM Thrm Mrgn 4  OK      197 Degrees Celsius
System Board      Temperature         Agg Thrm Mgn 1    OK      233 Degrees Celsius
2. Wykonaj te same czynności dla Gen3 (ale nie zgłaszaj się do Gen2). Więcej szczegółów zostanie zaktualizowanych dla Gen2 w przyszłości. 

Affected Products

ECS Appliance

Products

ECS Appliance
Article Properties
Article Number: 000046763
Article Type: Solution
Last Modified: 30 Apr 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.