Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Podsumowanie: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...

Produkty, których dotyczy problem

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Sprawdź inne zasoby

Objawy

ZDARZENIE
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze /var/tmp/ w węzłach, których dotyczy problem.
Przykład:

4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Przyczyna

Dokładne przyczyny awarii węzła mogą się różnić, ale typowe przyczyny mogą być następujące:

Awaria sprzętu
Awaria kodu oprogramowania
Nieprawidłowa konfiguracja

Aby poznać dokładną przyczynę awarii, należy przeprowadzić analizę dzienników klastra za pomocą techniczną PowerScale.

Rozwiązanie

Aby rozpocząć rozwiązywanie problemu, najpierw upewnij się, że węzeł odzyskał sprawność po zdarzeniu awarii i nie jest wyłączony ani w trybie offline. *

Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:

# isi status

Polecenie isi status zwraca dane wyjściowe podobne do poniższych. Jeśli węzeł został pomyślnie ponownie przyłączony do klastra, kolumna Health nie wyświetla wartości "D" (down):

                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Zbierz dzienniki, uruchamiając następujące polecenie i przekazując zestaw dzienników do działu pomocy technicznej Isilon w celu analizy błędu:

# isi_gather_info -f /var/tmp/

Uwaga: /var/tmp/ Dane o awarii nie są zbierane w domyślnym zbiorze dziennika, należy użyć isi_gather_info -f /var/tmp/ , aby zebrać odpowiednie informacje o błędach.

Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.

* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.

Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Dodatkowe informacje

Uwaga:

To nowe powiadomienie o zdarzeniu jest włączone w ramach poprawek zbiorczych z marca 2021 r. dla OneFS 8.1.2.0, 8.2.2.0 i 9.1.0.5. Klastry z uruchomionymi wersjami OneFS przed poprawką zbiorczą (RUP) z marca 2021 r. nie publikują tego powiadomienia o zdarzeniu.
OneFS 9.2, 9.3, 9.4 i nowsze mają tę funkcję.
Aktualizacja wyzwala zdarzenie, jeśli system OneFS wykryje ponowny rozruch z powodu awarii węzła.
Zdarzenie może zawierać podstawowe informacje, takie jak nagłówki zrzutów rdzenia, aby pomóc w zrozumieniu i rozwiązaniu problemu.
Wynikowy dial-home SR może zawierać dodatkowe informacje w czytelnym formacie do klasyfikacji i analizy.

Uwaga: Funkcja ta może powodować fałszywe alarmy spowodowane poprzednimi zdarzeniami awarii, rdzeniami lub minizrzutami, które mogą znajdować się w klastrze przed instalacją RUP z marca 2021 r. OneFS może nadal ostrzegać o starych plikach błędów, dopóki nie zostaną usunięte. Wykonaj następujące czynności, aby uniknąć fałszywych alarmów.

Wyczyść dziennik komunikatów, wymuszając obracanie dzienników. Funkcja ta nie sprawdza informacji o awarii w żadnych obróconych dziennikach w archiwum gz, takich jak messages.0.gz, messages.1.gz itd. Uruchom następujące polecenie, aby dokonać rotacji katalogu /var/log/messages po znalezieniu błędu:

isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.

Sprawdź kolumnę /var/crash Katalog każdego węzła dla dowolnego pliku rdzenia lub minizrzutu. Usuń lub utwórz kopię zapasową po uzyskaniu zgody.
Uruchom następujące polecenie, aby wyczyścić vmcore pliki znajdujące się w /var/crash na wszystkich węzłach.

isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Produkty, których dotyczy problem

PowerScale OneFS

Produkty

Isilon

Numer artykułu: 000184828

Typ artykułu: Solution

Ostatnia modyfikacja: 09 maj 2026

Wersja: 16

Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.

Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Podsumowanie: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...

Objawy

Przyczyna

Rozwiązanie

Informacje dodatkowe

Produkty, których dotyczy problem

Objawy

Przyczyna

Rozwiązanie

Dodatkowe informacje

Produkty, których dotyczy problem

Produkty

Właściwości artykułu

Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell

Usługi pomocy technicznej

Właściwości artykułu

Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell

Usługi pomocy technicznej

Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Szczegółowy artykuł

Objawy

Przyczyna

Rozwiązanie

Informacje dodatkowe

Produkty, których dotyczy problem

Objawy

Przyczyna

Rozwiązanie

Dodatkowe informacje

Produkty, których dotyczy problem

Produkty

Właściwości artykułu

Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell

Usługi pomocy technicznej

Właściwości artykułu

Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell

Usługi pomocy technicznej