Event: Node wurde nach einem Fehler wiederhergestellt. Informationen über einen Fehler werden in der Datei gespeichert: var tmp panic
Zusammenfassung: In diesem Artikel wird erläutert, wie Nutzer und der technische Support mit Ereignissen oder Meldungen des Typs "Node wurde nach einem Fehler wiederhergestellt" umgehen sollten. Lesen Sie alle Teile des Artikels, bevor Sie handeln. ...
Dieser Artikel gilt für
Dieser Artikel gilt nicht für
Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden.
In diesem Artikel werden nicht alle Produktversionen aufgeführt.
Symptome
EREIGNIS
Sie haben eine Ereignisbenachrichtigung erhalten, die darauf hinweist, dass ein oder mehrere Nodes nach einem Fehler wiederhergestellt wurden. Informationen über den Fehler werden in einer Datei aufgezeichnet, die sich befindet unter
Beispiel:
Sie haben eine Ereignisbenachrichtigung erhalten, die darauf hinweist, dass ein oder mehrere Nodes nach einem Fehler wiederhergestellt wurden. Informationen über den Fehler werden in einer Datei aufgezeichnet, die sich befindet unter
/var/tmp/ auf den betroffenen Nodes.
Beispiel:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Ursache
Die genauen Ursachen für einen Node-Fehler können variieren, typische Ursachen können jedoch sein:
- Hardwarefehler
- Softwarecodefehler
- Fehlkonfiguration
Lösung
Um mit der Fehlerbehebung zu beginnen, vergewissern Sie sich zunächst, dass der Node nach dem Fehlerereignis wiederhergestellt wurde und nicht inaktiv oder offline ist. *
Öffnen Sie zur Fehlerbehebung eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass der Node wieder dem Cluster beigetreten ist:
Sobald die Protokolle empfangen wurden, überprüft und analysiert der technische Support die Details des Fehlerstapels. Sie bestimmen, ob der Panic-Stapel einem bekannten Problem oder Wissensdatenbank-Artikel entspricht. Falls die "Panic Stack"-Details nicht mit einem bekannten Problem oder einem vorhandenen KB-Artikel übereinstimmen, wird das Problem zur weiteren Bewertung eskaliert. Der technische Support bestimmt, welche Maßnahmen erforderlich sind, z. B. einen Austausch der Hardware, eine Codekorrektur, ein Firmwareupdate oder andere Abhilfemaßnahmen.
* Wenn der Node immer noch ausgefallen ist, muss ein zusätzliches Troubleshooting durchgeführt werden, um den Node wieder online zu schalten. Wenden Sie sich an den technischen Support von Isilon, wenn Sie Unterstützung benötigen.
Weitere Informationen finden Sie im Artikel 55936: Isilon OneFS: Ereignisbenachrichtigung: Node Offline – Ereignis-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Öffnen Sie zur Fehlerbehebung eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass der Node wieder dem Cluster beigetreten ist:
# isi statusDie Spalte
isi status gibt eine Ausgabe zurück, die der folgenden ähnelt. Wenn der Node erfolgreich wieder dem Cluster beigetreten ist, wird in der Spalte Health kein "D" (down) angezeigt:
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyErfassen Sie Protokolle, indem Sie den folgenden Befehl ausführen, und stellen Sie den Protokollsatz dem technischen Support von Isilon zur Analyse des Fehlers zur Verfügung:
# isi_gather_info -f /var/tmp/
Hinweis:
/var/tmp/ Panikdaten werden nicht in einer Standardprotokollerfassung erfasst, müssen Sie isi_gather_info -f /var/tmp/ , um die richtigen Panikinformationen zu sammeln.
Sobald die Protokolle empfangen wurden, überprüft und analysiert der technische Support die Details des Fehlerstapels. Sie bestimmen, ob der Panic-Stapel einem bekannten Problem oder Wissensdatenbank-Artikel entspricht. Falls die "Panic Stack"-Details nicht mit einem bekannten Problem oder einem vorhandenen KB-Artikel übereinstimmen, wird das Problem zur weiteren Bewertung eskaliert. Der technische Support bestimmt, welche Maßnahmen erforderlich sind, z. B. einen Austausch der Hardware, eine Codekorrektur, ein Firmwareupdate oder andere Abhilfemaßnahmen.
* Wenn der Node immer noch ausgefallen ist, muss ein zusätzliches Troubleshooting durchgeführt werden, um den Node wieder online zu schalten. Wenden Sie sich an den technischen Support von Isilon, wenn Sie Unterstützung benötigen.
Weitere Informationen finden Sie im Artikel 55936: Isilon OneFS: Ereignisbenachrichtigung: Node Offline – Ereignis-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Weitere Informationen
Hinweis:
- Diese neue Ereignisbenachrichtigung wird als Teil der Rollup-Patches vom März 2021 für OneFS v8.1.2.0, v8.2.2.0 und v9.1.0.5 aktiviert. Cluster, auf denen OneFS-Versionen vor dem Rollup-Patch (RUP) vom März 2021 ausgeführt werden, veröffentlichen diese Ereignisbenachrichtigung nicht.
- OneFS 9.2, 9.3, 9.4 und höher enthalten diese Funktion.
- Das Update löst ein Ereignis aus, wenn OneFS einen Neustart aufgrund eines Node-Fehlers erkennt.
- Das Ereignis kann grundlegende Informationen wie Core-Speicherabbild-Header enthalten, die beim Verständnis und der Fehlerbehebung des Problems helfen.
- Eine daraus resultierende Dial-Home-SR kann die zusätzlichen Informationen in einem lesbaren Format für die Selektierung und Analyse enthalten.
Hinweis: Diese Funktion kann zu Fehlalarmen aufgrund früherer Fehlerereignisse, Cores oder Minidumps führen, die sich möglicherweise vor der Installation des RUP vom März 2021 auf dem Cluster befinden. OneFS warnt möglicherweise weiterhin vor alten Fehlerdateien, bis sie entfernt werden. Führen Sie die folgenden Schritte aus, um Fehlalarme zu vermeiden.
- Bereinigen Sie das Meldungsprotokoll, indem Sie erzwingen, dass die Protokolle rotiert werden. Diese Funktion prüft nicht auf Fehlerinformationen in rotierten Protokollen innerhalb eines gz-Archivs, wie z. B. messages.0.gz, messages.1.gz usw. Führen Sie den folgenden Befehl aus, um /var/log/messages zu rotieren, wenn Fehler gefunden wurden:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Überprüfen Sie die Spalte
/var/crashVerzeichnis jedes Nodes für jede Core- oder Minidump-Datei. Entfernen oder sichern Sie sie , nachdem Sie die Genehmigung erhalten haben. - Führen Sie zum Bereinigen den folgenden Befehl aus:
vmcoreDateien, die sich befinden in/var/crashauf allen Nodes.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Betroffene Produkte
PowerScale OneFSProdukte
IsilonArtikeleigenschaften
Artikelnummer: 000184828
Artikeltyp: Solution
Zuletzt geändert: 09 Mai 2026
Version: 16
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.