Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

ZDARZENIE
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze /var/tmp/ w węzłach, których dotyczy problem.
Przykład:

4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Dokładne przyczyny awarii węzła mogą się różnić, ale typowe przyczyny mogą być następujące:

Awaria sprzętu
Awaria kodu oprogramowania
Nieprawidłowa konfiguracja

Aby poznać dokładną przyczynę awarii, należy przeprowadzić analizę dzienników klastra za pomocą techniczną PowerScale.

Resolution

Aby rozpocząć rozwiązywanie problemu, najpierw upewnij się, że węzeł odzyskał sprawność po zdarzeniu awarii i nie jest wyłączony ani w trybie offline. *

Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:

# isi status

Polecenie isi status zwraca dane wyjściowe podobne do poniższych. Jeśli węzeł został pomyślnie ponownie przyłączony do klastra, kolumna Health nie wyświetla wartości "D" (down):

                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Zbierz dzienniki, uruchamiając następujące polecenie i przekazując zestaw dzienników do działu pomocy technicznej Isilon w celu analizy błędu:

# isi_gather_info -f /var/tmp/

Uwaga: /var/tmp/ Dane o awarii nie są zbierane w domyślnym zbiorze dziennika, należy użyć isi_gather_info -f /var/tmp/ , aby zebrać odpowiednie informacje o błędach.

Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.

* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.

Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Uwaga:

To nowe powiadomienie o zdarzeniu jest włączone w ramach poprawek zbiorczych z marca 2021 r. dla OneFS 8.1.2.0, 8.2.2.0 i 9.1.0.5. Klastry z uruchomionymi wersjami OneFS przed poprawką zbiorczą (RUP) z marca 2021 r. nie publikują tego powiadomienia o zdarzeniu.
OneFS 9.2, 9.3, 9.4 i nowsze mają tę funkcję.
Aktualizacja wyzwala zdarzenie, jeśli system OneFS wykryje ponowny rozruch z powodu awarii węzła.
Zdarzenie może zawierać podstawowe informacje, takie jak nagłówki zrzutów rdzenia, aby pomóc w zrozumieniu i rozwiązaniu problemu.
Wynikowy dial-home SR może zawierać dodatkowe informacje w czytelnym formacie do klasyfikacji i analizy.

Uwaga: Funkcja ta może powodować fałszywe alarmy spowodowane poprzednimi zdarzeniami awarii, rdzeniami lub minizrzutami, które mogą znajdować się w klastrze przed instalacją RUP z marca 2021 r. OneFS może nadal ostrzegać o starych plikach błędów, dopóki nie zostaną usunięte. Wykonaj następujące czynności, aby uniknąć fałszywych alarmów.

Wyczyść dziennik komunikatów, wymuszając obracanie dzienników. Funkcja ta nie sprawdza informacji o awarii w żadnych obróconych dziennikach w archiwum gz, takich jak messages.0.gz, messages.1.gz itd. Uruchom następujące polecenie, aby dokonać rotacji katalogu /var/log/messages po znalezieniu błędu:

isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.

Sprawdź kolumnę /var/crash Katalog każdego węzła dla dowolnego pliku rdzenia lub minizrzutu. Usuń lub utwórz kopię zapasową po uzyskaniu zgody.
Uruchom następujące polecenie, aby wyczyścić vmcore pliki znajdujące się w /var/crash na wszystkich węzłach.

isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon

Article Number: 000184828

Article Type: Solution

Last Modified: 18 Sept 2025

Version: 15

Check if your device is covered by Support Services.

Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Summary: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Summary: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ... View More View Less

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Summary: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...