ECS: El sistema detectó una alta temperatura en un nodo

Summary: ¿Qué puedo comprobar si recibo una alerta por correo electrónico en la que se me informa que el sistema ha detectado una lectura del sensor de temperatura alta en un nodo?

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

  1. Confirme de qué hardware es el nodo alertado.

    admin@node1:~> sudo xdoctor -x
    Telegraf Version: 3.8.0.2-1549.73c8abc2
    Fabric Version: 3.8.0.2-4347.d30cd09
    Fabric-Zookeeper Version: 3.8.0.2-120.b4a1c5c
    Utilities Version: 3.7.0.4-1166.b78f3fe
    Influxdb Version: 3.8.0.2-1549.73c8abc2
    Grafana Version: 3.8.0.2-1549.73c8abc2
    Syslog Version: 3.8.0.2-4347.d30cd09
    Service Version: 9.0.0.0-22840.479b013c74
    Os Version: 3.8.0.2-2113.3fa664c.3
    Fluxd Version: 3.8.0.2-1549.73c8abc2
    Throttler Version: 3.8.0.2-1549.73c8abc2
    Object Image Version: 3.8.0.2-138636.7343cd5c2c3
    --------------------
    ECS Version: 3.8.0.2
    --------------------
    HW Gen  : 2
    HW Model: U-Series
    HW Code : S2600KP
    -------------------------
    xDoctor Version: 4.8-98.0
    -------------------------
    

    Para los nodos de 1.ª generación, responda al formulario del correo electrónico que indica que se requiere asistencia. Para los nodos de 3.ª generación, siga el resto de este artículo de la base de conocimientos.

  2. Compruebe el estado actual de los sensores de temperatura. A continuación, vemos "CRIT" en dos de los nodos, lo que indica problemas en esos dos nodos. Si todos los nodos se informan como "OK", pero esta alerta se ha recibido varias veces recientemente, podría tratarse de un problema recurrente. Si es así, responda al formulario en el correo electrónico que se requiere asistencia con una alerta de temperatura recurrente.

    admin@node1:~> viprexec -i  cs_hal sensors temp
    
    Output from host : xxx.xxx.xxx.xxx
    Entity            Type                Label             Status  Info
    -----             -----               -----             -----   -----
    Processor         Temperature         Temp              OK      53 Degrees Celsius
    Processor         Temperature         Temp              OK      53 Degrees Celsius
    System Board      Temperature         Inlet Temp        CRIT    40 Degrees Celsius; above critical threshold
    System Board      Temperature         Exhaust Temp      OK      50 Degrees Celsius
    
    NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
    
    Output from host : xxx.xxx.xxx.xxx
    Entity            Type                Label             Status  Info
    -----             -----               -----             -----   -----
    Processor         Temperature         Temp              OK      47 Degrees Celsius
    Processor         Temperature         Temp              OK      49 Degrees Celsius
    System Board      Temperature         Inlet Temp        CRIT    39 Degrees Celsius; above critical threshold
    System Board      Temperature         Exhaust Temp      OK      50 Degrees Celsius
    
    NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
    
    Output from host : xxx.xxx.xxx.xxx
    Entity            Type                Label             Status  Info
    -----             -----               -----             -----   -----
    Processor         Temperature         Temp              OK      46 Degrees Celsius
    Processor         Temperature         Temp              OK      46 Degrees Celsius
    System Board      Temperature         Inlet Temp        OK      35 Degrees Celsius
    System Board      Temperature         Exhaust Temp      OK      47 Degrees Celsius
    
    NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
    
    ...
    ...
    ...

    Si varios nodos se informan como no "OK", es posible que se trate de un problema en el entorno de su centro de datos. Compruebe que no haya problemas en el área en la que se encuentra el ECS que puedan aumentar la temperatura del ECS.

  3. Verifique el estado de los ventiladores ECS.

    admin@ecs:~>cs_hal sensors fan
    
    Output from host : xxx.xxx.xxx.xxx
    Entity            Type                Label             Status  Info
    -----             -----               -----             -----   -----
    System Board      Fan                 Fan1              OK      12600 RPM
    System Board      Fan                 Fan2              OK      12600 RPM
    System Board      Fan                 Fan3              OK      16920 RPM
    System Board      Fan                 Fan4              OK      16800 RPM
    System Board      Fan                 Fan5              OK      17040 RPM
    System Board      Fan                 Fan6              OK      16920 RPM
    System Board      Fan                 Fan Redundancy    OK      fully redundant;
    
    NOTE: on Axum and EX-series, use "sudo -i racadm getsensorinfo" to obtain sensor information.
  4. Responda al formulario en el correo electrónico que se requiere asistencia, incluidas las salidas del sensor de temperatura y las salidas del ventilador.

 

Affected Products

ECS
Article Properties
Article Number: 000227188
Article Type: How To
Last Modified: 30 Jul 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.