Event: Node wurde nach einem Fehler wiederhergestellt. Informationen über einen Fehler werden in der Datei gespeichert: var tmp panic
Summary: In diesem Artikel wird erläutert, wie Nutzer und der technische Support mit Ereignissen oder Meldungen des Typs "Node wurde nach einem Fehler wiederhergestellt" umgehen sollten. Lesen Sie alle Teile des Artikels, bevor Sie handeln. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
EREIGNIS
Sie haben eine Ereignisbenachrichtigung erhalten, die darauf hinweist, dass ein oder mehrere Nodes nach einem Fehler wiederhergestellt wurden. Informationen über den Fehler werden in einer Datei aufgezeichnet, die sich befindet unter
Beispiel:
Sie haben eine Ereignisbenachrichtigung erhalten, die darauf hinweist, dass ein oder mehrere Nodes nach einem Fehler wiederhergestellt wurden. Informationen über den Fehler werden in einer Datei aufgezeichnet, die sich befindet unter
/var/tmp/ auf den betroffenen Nodes.
Beispiel:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
Die genauen Ursachen für einen Node-Fehler können variieren, typische Ursachen können jedoch sein:
- Hardwarefehler
- Softwarecodefehler
- Fehlkonfiguration
Resolution
Um mit der Fehlerbehebung zu beginnen, vergewissern Sie sich zunächst, dass der Node nach dem Fehlerereignis wiederhergestellt wurde und nicht inaktiv oder offline ist. *
Öffnen Sie zur Fehlerbehebung eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass der Node wieder dem Cluster beigetreten ist:
Sobald die Protokolle empfangen wurden, überprüft und analysiert der technische Support die Details des Fehlerstapels. Sie bestimmen, ob der Panic-Stapel einem bekannten Problem oder Wissensdatenbank-Artikel entspricht. Falls die "Panic Stack"-Details nicht mit einem bekannten Problem oder einem vorhandenen KB-Artikel übereinstimmen, wird das Problem zur weiteren Bewertung eskaliert. Der technische Support bestimmt, welche Maßnahmen erforderlich sind, z. B. einen Austausch der Hardware, eine Codekorrektur, ein Firmwareupdate oder andere Abhilfemaßnahmen.
* Wenn der Node immer noch ausgefallen ist, muss ein zusätzliches Troubleshooting durchgeführt werden, um den Node wieder online zu schalten. Wenden Sie sich an den technischen Support von Isilon, wenn Sie Unterstützung benötigen.
Weitere Informationen finden Sie im Artikel 55936: Isilon OneFS: Ereignisbenachrichtigung: Node Offline – Ereignis-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Öffnen Sie zur Fehlerbehebung eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass der Node wieder dem Cluster beigetreten ist:
# isi statusDie Spalte
isi status gibt eine Ausgabe zurück, die der folgenden ähnelt. Wenn der Node erfolgreich wieder dem Cluster beigetreten ist, wird in der Spalte Health kein "D" (down) angezeigt:
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyErfassen Sie Protokolle, indem Sie den folgenden Befehl ausführen, und stellen Sie den Protokollsatz dem technischen Support von Isilon zur Analyse des Fehlers zur Verfügung:
# isi_gather_info -f /var/tmp/
Hinweis:
/var/tmp/ Panikdaten werden nicht in einer Standardprotokollerfassung erfasst, müssen Sie isi_gather_info -f /var/tmp/ , um die richtigen Panikinformationen zu sammeln.
Sobald die Protokolle empfangen wurden, überprüft und analysiert der technische Support die Details des Fehlerstapels. Sie bestimmen, ob der Panic-Stapel einem bekannten Problem oder Wissensdatenbank-Artikel entspricht. Falls die "Panic Stack"-Details nicht mit einem bekannten Problem oder einem vorhandenen KB-Artikel übereinstimmen, wird das Problem zur weiteren Bewertung eskaliert. Der technische Support bestimmt, welche Maßnahmen erforderlich sind, z. B. einen Austausch der Hardware, eine Codekorrektur, ein Firmwareupdate oder andere Abhilfemaßnahmen.
* Wenn der Node immer noch ausgefallen ist, muss ein zusätzliches Troubleshooting durchgeführt werden, um den Node wieder online zu schalten. Wenden Sie sich an den technischen Support von Isilon, wenn Sie Unterstützung benötigen.
Weitere Informationen finden Sie im Artikel 55936: Isilon OneFS: Ereignisbenachrichtigung: Node Offline – Ereignis-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Additional Information
Hinweis:
- Diese neue Ereignisbenachrichtigung wird als Teil der Rollup-Patches vom März 2021 für OneFS v8.1.2.0, v8.2.2.0 und v9.1.0.5 aktiviert. Cluster, auf denen OneFS-Versionen vor dem Rollup-Patch (RUP) vom März 2021 ausgeführt werden, veröffentlichen diese Ereignisbenachrichtigung nicht.
- OneFS 9.2, 9.3, 9.4 und höher enthalten diese Funktion.
- Das Update löst ein Ereignis aus, wenn OneFS einen Neustart aufgrund eines Node-Fehlers erkennt.
- Das Ereignis kann grundlegende Informationen wie Core-Speicherabbild-Header enthalten, die beim Verständnis und der Fehlerbehebung des Problems helfen.
- Eine daraus resultierende Dial-Home-SR kann die zusätzlichen Informationen in einem lesbaren Format für die Selektierung und Analyse enthalten.
Hinweis: Diese Funktion kann zu Fehlalarmen aufgrund früherer Fehlerereignisse, Cores oder Minidumps führen, die sich möglicherweise vor der Installation des RUP vom März 2021 auf dem Cluster befinden. OneFS warnt möglicherweise weiterhin vor alten Fehlerdateien, bis sie entfernt werden. Führen Sie die folgenden Schritte aus, um Fehlalarme zu vermeiden.
- Bereinigen Sie das Meldungsprotokoll, indem Sie erzwingen, dass die Protokolle rotiert werden. Diese Funktion prüft nicht auf Fehlerinformationen in rotierten Protokollen innerhalb eines gz-Archivs, wie z. B. messages.0.gz, messages.1.gz usw. Führen Sie den folgenden Befehl aus, um /var/log/messages zu rotieren, wenn Fehler gefunden wurden:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Überprüfen Sie die Spalte
/var/crashVerzeichnis jedes Nodes für jede Core- oder Minidump-Datei. Entfernen oder sichern Sie sie , nachdem Sie die Genehmigung erhalten haben. - Führen Sie zum Bereinigen den folgenden Befehl aus:
vmcoreDateien, die sich befinden in/var/crashauf allen Nodes.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.