Event: El nodo se recuperó de un estado de alarma. La información sobre el estado de alarma se registra en el archivo: var tmp panic

Summary: En este artículo, se explica cómo los usuarios y el soporte técnico deben administrar los eventos o mensajes "El nodo se recuperó de un estado de alarma". Revise todas las partes del artículo antes de actuar. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

EVENTO
Recibió una notificación de evento en la que se indica que uno o más nodos se recuperaron de un estado de alarma. La información sobre el estado de alarma se registra en un archivo ubicado en /var/tmp/ en los nodos afectados.
Ejemplo:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Las causas exactas de una alarma de nodo pueden variar, pero las causas típicas pueden incluir:
  • Falla de hardware
  • Falla de código de software
  • Configuración incorrecta
Se debe realizar un análisis de los registros del clúster con el soporte de PowerScale para conocer la causa exacta de la alarma.

Resolution

Para comenzar a solucionar el problema, primero confirme que el nodo se haya recuperado del evento de alarma y no esté inactivo u offline.

*Para solucionar problemas, abra una conexión SSH al nodo e inicie sesión con la cuenta "raíz".
Ejecute el siguiente comando para confirmar que el nodo se reincorporó al clúster:
# isi status
La variable isi status devuelve un resultado similar al siguiente. Si el nodo se reincorporó correctamente al clúster, en la columna Health no se muestra "D" (inactivo):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Recopile registros mediante la ejecución del siguiente comando y proporcione el conjunto de registros al soporte técnico de Isilon para el análisis del estado de alarma:
# isi_gather_info -f /var/tmp/
 
Nota: /var/tmp/ Los datos de estado de alarma no se recopilan en un conjunto de registros predeterminado; debe usar isi_gather_info -f /var/tmp/ para recopilar la información de alarma adecuada.

Una vez que se reciben los registros, el soporte técnico debe revisar y analizar los detalles de la pila de alarma. Determinan si la pila de estado de alarma corresponde a algún problema conocido o artículo de la base de conocimientos. En caso de que los detalles de la pila de estado de alarma no coincidan con un problema conocido o un artículo de la base de conocimientos existente, el problema se escala para una evaluación adicional. El soporte técnico determina qué acciones se necesitan, como un reemplazo de hardware, una reparación de código, una actualización de firmware u otro tipo de mitigación.

* Si el nodo aún está inactivo, se debe realizar una solución de problemas adicional para volver a poner el nodo en línea. Comuníquese con el soporte técnico de Isilon si necesita ayuda.

Para obtener más información, consulte el artículo 55936: Isilon OneFS: Notificación de eventos: Nodo offline; ID de evento: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Nota:
  • Esta nueva notificación de eventos se habilita como parte de los parches de implementación de marzo de 2021 para OneFS v8.1.2.0, v8.2.2.0 y v9.1.0.5. Los clústeres que ejecutan versiones de OneFS anteriores al parche de implementación (RUP) de marzo de 2021 no publican esta notificación de evento.
  • OneFS 9.2, 9.3, 9.4 y versiones posteriores incluyen esta característica.
  • La actualización desencadena un evento si OneFS detecta un reinicio debido a un estado de alarma de nodo.
  • El evento puede incluir información básica, como encabezados de volcado de memoria, para ayudar a comprender y solucionar el problema.
  • Una SR de devolución resultante puede incluir la información adicional en un formato legible para el triage y el análisis.

Nota: Esta característica puede causar falsas alarmas debido a eventos de alarma anteriores, núcleos o minivolcados que pueden estar en el clúster antes de la instalación del RUP de marzo de 2021. OneFS puede seguir alertando sobre archivos de alarma antiguos hasta que se elimine. Realice los siguientes pasos para evitar falsas alarmas.
  1. Elimine el registro de mensajes mediante la rotación forzada de los registros. Esta función no comprueba la información de alarma en ningún registro rotado dentro de un archivo gz, como messages.0.gz, messages.1.gz, etc. Ejecute el siguiente comando para rotar /var/log/messages cada vez que se detecten estados de alarma:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Compruebe el /var/crash Directorio de cada nodo para cualquier archivo principal o de minivolcado. Elimínelos o haga una copia de seguridad después de obtener la aprobación.
  2. Ejecute el siguiente comando para realizar una limpieza vmcore Archivos ubicados en /var/crash en todos los nodos.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.