Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic

Podsumowanie: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Objawy

ZDARZENIE
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze /var/tmp/ w węzłach, których dotyczy problem.
Przykład:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Przyczyna

Dokładne przyczyny awarii węzła mogą się różnić, ale typowe przyczyny mogą być następujące:
  • Awaria sprzętu
  • Awaria kodu oprogramowania
  • Nieprawidłowa konfiguracja
Aby poznać dokładną przyczynę awarii, należy przeprowadzić analizę dzienników klastra za pomocą techniczną PowerScale.

Rozwiązanie

Aby rozpocząć rozwiązywanie problemu, najpierw upewnij się, że węzeł odzyskał sprawność po zdarzeniu awarii i nie jest wyłączony ani w trybie offline. *

Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:
# isi status
Polecenie isi status zwraca dane wyjściowe podobne do poniższych. Jeśli węzeł został pomyślnie ponownie przyłączony do klastra, kolumna Health nie wyświetla wartości "D" (down):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Zbierz dzienniki, uruchamiając następujące polecenie i przekazując zestaw dzienników do działu pomocy technicznej Isilon w celu analizy błędu:
# isi_gather_info -f /var/tmp/
 
Uwaga: /var/tmp/ Dane o awarii nie są zbierane w domyślnym zbiorze dziennika, należy użyć isi_gather_info -f /var/tmp/ , aby zebrać odpowiednie informacje o błędach.

Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.

* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.

Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Dodatkowe informacje

Uwaga:
  • To nowe powiadomienie o zdarzeniu jest włączone w ramach poprawek zbiorczych z marca 2021 r. dla OneFS 8.1.2.0, 8.2.2.0 i 9.1.0.5. Klastry z uruchomionymi wersjami OneFS przed poprawką zbiorczą (RUP) z marca 2021 r. nie publikują tego powiadomienia o zdarzeniu.
  • OneFS 9.2, 9.3, 9.4 i nowsze mają tę funkcję.
  • Aktualizacja wyzwala zdarzenie, jeśli system OneFS wykryje ponowny rozruch z powodu awarii węzła.
  • Zdarzenie może zawierać podstawowe informacje, takie jak nagłówki zrzutów rdzenia, aby pomóc w zrozumieniu i rozwiązaniu problemu.
  • Wynikowy dial-home SR może zawierać dodatkowe informacje w czytelnym formacie do klasyfikacji i analizy.

Uwaga: Funkcja ta może powodować fałszywe alarmy spowodowane poprzednimi zdarzeniami awarii, rdzeniami lub minizrzutami, które mogą znajdować się w klastrze przed instalacją RUP z marca 2021 r. OneFS może nadal ostrzegać o starych plikach błędów, dopóki nie zostaną usunięte. Wykonaj następujące czynności, aby uniknąć fałszywych alarmów.
  1. Wyczyść dziennik komunikatów, wymuszając obracanie dzienników. Funkcja ta nie sprawdza informacji o awarii w żadnych obróconych dziennikach w archiwum gz, takich jak messages.0.gz, messages.1.gz itd. Uruchom następujące polecenie, aby dokonać rotacji katalogu /var/log/messages po znalezieniu błędu:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Sprawdź kolumnę /var/crash Katalog każdego węzła dla dowolnego pliku rdzenia lub minizrzutu. Usuń lub utwórz kopię zapasową po uzyskaniu zgody.
  2. Uruchom następujące polecenie, aby wyczyścić vmcore pliki znajdujące się w /var/crash na wszystkich węzłach.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Produkty, których dotyczy problem

PowerScale OneFS

Produkty

Isilon
Właściwości artykułu
Numer artykułu: 000184828
Typ artykułu: Solution
Ostatnia modyfikacja: 09 maj 2026
Wersja:  16
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.