Event: Il nodo è stato ripristinato da un errore irreversibile. Le informazioni sull'errore irreversibile sono registrate nel file: var tmp panic
Summary: Questo articolo spiega in che modo gli utenti e il supporto tecnico devono gestire l'evento o i messaggi "Il nodo è stato ripristinato da un errore irreversibile". Rivedere tutte le parti dell'articolo prima di agire. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
EVENTO
È stata ricevuta una notifica di evento indicante il ripristino di uno o più nodi da un errore irreversibile. Le informazioni sull'errore irreversibile vengono registrate in un file situato in
Esempio:
È stata ricevuta una notifica di evento indicante il ripristino di uno o più nodi da un errore irreversibile. Le informazioni sull'errore irreversibile vengono registrate in un file situato in
/var/tmp/ sui nodi interessati.
Esempio:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
Le cause esatte di un errore irreversibile del nodo possono variare, ma le cause tipiche possono includere:
- Guasto di componenti hardware
- Errore del codice software
- Configurazione errata
Resolution
Per iniziare a risolvere il problema, verificare innanzitutto che il nodo sia stato ripristinato dall'evento di errore grave e che non sia inattivo o offline. *
Per risolvere i problemi, aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
Eseguire il comando seguente per verificare che il nodo si sia ricongiunto al cluster:
Una volta ricevuti i registri, il supporto tecnico esaminerà e analizzerà i dettagli di Panic Stack. Determinano se lo stack di errore irreversibile corrisponde a un problema noto o a un articolo della Knowledge Base. Nel caso in cui i dettagli di Panic Stack non corrispondano a un problema noto o a un articolo della Knowledge Base esistente, il problema viene sottoposto a escalation per un'ulteriore valutazione. Il supporto tecnico determina le azioni necessarie, ad esempio la sostituzione dell hardware, la correzione del codice, l'aggiornamento del firmware o altre azioni di mitigazione.
* Se il nodo è ancora inattivo, è necessario eseguire ulteriori operazioni di risoluzione dei problemi per riportare online il nodo. Se è necessaria assistenza, contattare il supporto tecnico Isilon.
Per ulteriori informazioni, consultare l'articolo 55936: Isilon OneFS: Notifica di evento: Node Offline - ID evento: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Per risolvere i problemi, aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
Eseguire il comando seguente per verificare che il nodo si sia ricongiunto al cluster:
# isi statusLa colonna
isi status Il comando restituisce un output simile al seguente. Se il nodo è stato ricongiunto correttamente al cluster, la colonna Health non visualizza "D" (inattivo):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyRaccogliere i registri eseguendo il comando seguente e fornire il set di registri al supporto tecnico Isilon per l'analisi dell'errore irreversibile:
# isi_gather_info -f /var/tmp/
Nota:
/var/tmp/ I dati relativi all'errore irreversibile non vengono raccolti in una raccolta di log predefinita, è necessario utilizzare isi_gather_info -f /var/tmp/ per raccogliere informazioni corrette sul panico.
Una volta ricevuti i registri, il supporto tecnico esaminerà e analizzerà i dettagli di Panic Stack. Determinano se lo stack di errore irreversibile corrisponde a un problema noto o a un articolo della Knowledge Base. Nel caso in cui i dettagli di Panic Stack non corrispondano a un problema noto o a un articolo della Knowledge Base esistente, il problema viene sottoposto a escalation per un'ulteriore valutazione. Il supporto tecnico determina le azioni necessarie, ad esempio la sostituzione dell hardware, la correzione del codice, l'aggiornamento del firmware o altre azioni di mitigazione.
* Se il nodo è ancora inattivo, è necessario eseguire ulteriori operazioni di risoluzione dei problemi per riportare online il nodo. Se è necessaria assistenza, contattare il supporto tecnico Isilon.
Per ulteriori informazioni, consultare l'articolo 55936: Isilon OneFS: Notifica di evento: Node Offline - ID evento: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Additional Information
Nota:
- Questa nuova notifica di evento è abilitata nell'ambito delle patch di roll-up di marzo 2021 per OneFS v8.1.2.0, v8.2.2.0 e v9.1.0.5. I cluster che eseguono versioni di OneFS precedenti alla patch di roll-up (RUP) di marzo 2021 non pubblicano questa notifica di evento.
- OneFS 9.2, 9.3, 9.4 e versioni successive includono tutti questa funzionalità.
- L'aggiornamento attiva un evento nel caso in cui OneFS rilevi un riavvio a seguito dell'errore grave di un nodo.
- L'evento può includere informazioni di base, ad esempio core dump header, per comprendere e risolvere il problema.
- Una SR dial-home risultante può includere le informazioni aggiuntive in un formato leggibile per la valutazione e l'analisi.
Nota: Questa funzione può causare falsi allarmi a causa di eventi di errore irreversibile precedenti, core o minidump che potrebbero essere nel cluster prima dell'installazione della RUP di marzo 2021. OneFS può continuare a generare avvisi per i vecchi file con errore grave fino a quando non vengono rimossi. Per evitare falsi allarmi, effettuare le seguenti operazioni.
- Pulire il registro dei messaggi forzando la rotazione dei registri. Questa funzione non verifica la presenza di informazioni sull'errore grave in eventuali log ruotati all'interno di un archivio gz, ad esempio messages.0.gz, messages.1.gz e così via. Utilizzare il comando seguente per ruotare /var/log/messages ogni volta che viene trovato un errore grave:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Controllare la colonna
/var/crashDirectory di ogni nodo per qualsiasi file core o minidump. Rimuoverli o eseguirne il backup dopo aver ottenuto l'approvazione. - Eseguire il seguente comando per pulire
vmcoreFile che si trovano in/var/crashsu tutti i nodi.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.