Event: Il nodo è stato ripristinato da un errore irreversibile. Le informazioni sull'errore irreversibile sono registrate nel file: var tmp panic

Summary: Questo articolo spiega in che modo gli utenti e il supporto tecnico devono gestire l'evento o i messaggi "Il nodo è stato ripristinato da un errore irreversibile". Rivedere tutte le parti dell'articolo prima di agire. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

EVENTO
È stata ricevuta una notifica di evento indicante il ripristino di uno o più nodi da un errore irreversibile. Le informazioni sull'errore irreversibile vengono registrate in un file situato in /var/tmp/ sui nodi interessati.
Esempio:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Le cause esatte di un errore irreversibile del nodo possono variare, ma le cause tipiche possono includere:
  • Guasto di componenti hardware
  • Errore del codice software
  • Configurazione errata
L'analisi dei registri del cluster deve essere eseguita con il supporto PowerScale per individuare la causa esatta dell'errore irreversibile.

Resolution

Per iniziare a risolvere il problema, verificare innanzitutto che il nodo sia stato ripristinato dall'evento di errore grave e che non sia inattivo o offline. *

Per risolvere i problemi, aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
Eseguire il comando seguente per verificare che il nodo si sia ricongiunto al cluster:
# isi status
La colonna isi status Il comando restituisce un output simile al seguente. Se il nodo è stato ricongiunto correttamente al cluster, la colonna Health non visualizza "D" (inattivo):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Raccogliere i registri eseguendo il comando seguente e fornire il set di registri al supporto tecnico Isilon per l'analisi dell'errore irreversibile:
# isi_gather_info -f /var/tmp/
 
Nota: /var/tmp/ I dati relativi all'errore irreversibile non vengono raccolti in una raccolta di log predefinita, è necessario utilizzare isi_gather_info -f /var/tmp/ per raccogliere informazioni corrette sul panico.

Una volta ricevuti i registri, il supporto tecnico esaminerà e analizzerà i dettagli di Panic Stack. Determinano se lo stack di errore irreversibile corrisponde a un problema noto o a un articolo della Knowledge Base. Nel caso in cui i dettagli di Panic Stack non corrispondano a un problema noto o a un articolo della Knowledge Base esistente, il problema viene sottoposto a escalation per un'ulteriore valutazione. Il supporto tecnico determina le azioni necessarie, ad esempio la sostituzione dell hardware, la correzione del codice, l'aggiornamento del firmware o altre azioni di mitigazione.

* Se il nodo è ancora inattivo, è necessario eseguire ulteriori operazioni di risoluzione dei problemi per riportare online il nodo. Se è necessaria assistenza, contattare il supporto tecnico Isilon.

Per ulteriori informazioni, consultare l'articolo 55936: Isilon OneFS: Notifica di evento: Node Offline - ID evento: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Nota:
  • Questa nuova notifica di evento è abilitata nell'ambito delle patch di roll-up di marzo 2021 per OneFS v8.1.2.0, v8.2.2.0 e v9.1.0.5. I cluster che eseguono versioni di OneFS precedenti alla patch di roll-up (RUP) di marzo 2021 non pubblicano questa notifica di evento.
  • OneFS 9.2, 9.3, 9.4 e versioni successive includono tutti questa funzionalità.
  • L'aggiornamento attiva un evento nel caso in cui OneFS rilevi un riavvio a seguito dell'errore grave di un nodo.
  • L'evento può includere informazioni di base, ad esempio core dump header, per comprendere e risolvere il problema.
  • Una SR dial-home risultante può includere le informazioni aggiuntive in un formato leggibile per la valutazione e l'analisi.

Nota: Questa funzione può causare falsi allarmi a causa di eventi di errore irreversibile precedenti, core o minidump che potrebbero essere nel cluster prima dell'installazione della RUP di marzo 2021. OneFS può continuare a generare avvisi per i vecchi file con errore grave fino a quando non vengono rimossi. Per evitare falsi allarmi, effettuare le seguenti operazioni.
  1. Pulire il registro dei messaggi forzando la rotazione dei registri. Questa funzione non verifica la presenza di informazioni sull'errore grave in eventuali log ruotati all'interno di un archivio gz, ad esempio messages.0.gz, messages.1.gz e così via. Utilizzare il comando seguente per ruotare /var/log/messages ogni volta che viene trovato un errore grave:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Controllare la colonna /var/crash Directory di ogni nodo per qualsiasi file core o minidump. Rimuoverli o eseguirne il backup dopo aver ottenuto l'approvazione.
  2. Eseguire il seguente comando per pulire vmcore File che si trovano in /var/crash su tutti i nodi.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.