Event: Node wurde nach einem Fehler wiederhergestellt. Informationen über einen Fehler werden in der Datei gespeichert: var tmp panic

Summary: In diesem Artikel wird erläutert, wie Nutzer und der technische Support mit Ereignissen oder Meldungen des Typs "Node wurde nach einem Fehler wiederhergestellt" umgehen sollten. Lesen Sie alle Teile des Artikels, bevor Sie handeln. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

EREIGNIS
Sie haben eine Ereignisbenachrichtigung erhalten, die darauf hinweist, dass ein oder mehrere Nodes nach einem Fehler wiederhergestellt wurden. Informationen über den Fehler werden in einer Datei aufgezeichnet, die sich befindet unter /var/tmp/ auf den betroffenen Nodes.
Beispiel:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Die genauen Ursachen für einen Node-Fehler können variieren, typische Ursachen können jedoch sein:
  • Hardwarefehler
  • Softwarecodefehler
  • Fehlkonfiguration
Die Analyse der Clusterprotokolle muss mit dem PowerScale-Support durchgeführt werden, um die genaue Ursache des Fehlers zu ermitteln.

Resolution

Um mit der Fehlerbehebung zu beginnen, vergewissern Sie sich zunächst, dass der Node nach dem Fehlerereignis wiederhergestellt wurde und nicht inaktiv oder offline ist. *

Öffnen Sie zur Fehlerbehebung eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass der Node wieder dem Cluster beigetreten ist:
# isi status
Die Spalte isi status gibt eine Ausgabe zurück, die der folgenden ähnelt. Wenn der Node erfolgreich wieder dem Cluster beigetreten ist, wird in der Spalte Health kein "D" (down) angezeigt:
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Erfassen Sie Protokolle, indem Sie den folgenden Befehl ausführen, und stellen Sie den Protokollsatz dem technischen Support von Isilon zur Analyse des Fehlers zur Verfügung:
# isi_gather_info -f /var/tmp/
 
Hinweis: /var/tmp/ Panikdaten werden nicht in einer Standardprotokollerfassung erfasst, müssen Sie isi_gather_info -f /var/tmp/ , um die richtigen Panikinformationen zu sammeln.

Sobald die Protokolle empfangen wurden, überprüft und analysiert der technische Support die Details des Fehlerstapels. Sie bestimmen, ob der Panic-Stapel einem bekannten Problem oder Wissensdatenbank-Artikel entspricht. Falls die "Panic Stack"-Details nicht mit einem bekannten Problem oder einem vorhandenen KB-Artikel übereinstimmen, wird das Problem zur weiteren Bewertung eskaliert. Der technische Support bestimmt, welche Maßnahmen erforderlich sind, z. B. einen Austausch der Hardware, eine Codekorrektur, ein Firmwareupdate oder andere Abhilfemaßnahmen.

* Wenn der Node immer noch ausgefallen ist, muss ein zusätzliches Troubleshooting durchgeführt werden, um den Node wieder online zu schalten. Wenden Sie sich an den technischen Support von Isilon, wenn Sie Unterstützung benötigen.

Weitere Informationen finden Sie im Artikel 55936: Isilon OneFS: Ereignisbenachrichtigung: Node Offline – Ereignis-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Hinweis:
  • Diese neue Ereignisbenachrichtigung wird als Teil der Rollup-Patches vom März 2021 für OneFS v8.1.2.0, v8.2.2.0 und v9.1.0.5 aktiviert. Cluster, auf denen OneFS-Versionen vor dem Rollup-Patch (RUP) vom März 2021 ausgeführt werden, veröffentlichen diese Ereignisbenachrichtigung nicht.
  • OneFS 9.2, 9.3, 9.4 und höher enthalten diese Funktion.
  • Das Update löst ein Ereignis aus, wenn OneFS einen Neustart aufgrund eines Node-Fehlers erkennt.
  • Das Ereignis kann grundlegende Informationen wie Core-Speicherabbild-Header enthalten, die beim Verständnis und der Fehlerbehebung des Problems helfen.
  • Eine daraus resultierende Dial-Home-SR kann die zusätzlichen Informationen in einem lesbaren Format für die Selektierung und Analyse enthalten.

Hinweis: Diese Funktion kann zu Fehlalarmen aufgrund früherer Fehlerereignisse, Cores oder Minidumps führen, die sich möglicherweise vor der Installation des RUP vom März 2021 auf dem Cluster befinden. OneFS warnt möglicherweise weiterhin vor alten Fehlerdateien, bis sie entfernt werden. Führen Sie die folgenden Schritte aus, um Fehlalarme zu vermeiden.
  1. Bereinigen Sie das Meldungsprotokoll, indem Sie erzwingen, dass die Protokolle rotiert werden. Diese Funktion prüft nicht auf Fehlerinformationen in rotierten Protokollen innerhalb eines gz-Archivs, wie z. B. messages.0.gz, messages.1.gz usw. Führen Sie den folgenden Befehl aus, um /var/log/messages zu rotieren, wenn Fehler gefunden wurden:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Überprüfen Sie die Spalte /var/crash Verzeichnis jedes Nodes für jede Core- oder Minidump-Datei. Entfernen oder sichern Sie sie , nachdem Sie die Genehmigung erhalten haben.
  2. Führen Sie zum Bereinigen den folgenden Befehl aus: vmcore Dateien, die sich befinden in /var/crash auf allen Nodes.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.