Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic
Podsumowanie: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...
Ten artykuł dotyczy
Ten artykuł nie dotyczy
Ten artykuł nie jest powiązany z żadnym konkretnym produktem.
Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.
Objawy
ZDARZENIE
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze
Przykład:
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze
/var/tmp/ w węzłach, których dotyczy problem.
Przykład:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Przyczyna
Dokładne przyczyny awarii węzła mogą się różnić, ale typowe przyczyny mogą być następujące:
- Awaria sprzętu
- Awaria kodu oprogramowania
- Nieprawidłowa konfiguracja
Rozwiązanie
Aby rozpocząć rozwiązywanie problemu, najpierw upewnij się, że węzeł odzyskał sprawność po zdarzeniu awarii i nie jest wyłączony ani w trybie offline. *
Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:
Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.
* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.
Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:
# isi statusPolecenie
isi status zwraca dane wyjściowe podobne do poniższych. Jeśli węzeł został pomyślnie ponownie przyłączony do klastra, kolumna Health nie wyświetla wartości "D" (down):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyZbierz dzienniki, uruchamiając następujące polecenie i przekazując zestaw dzienników do działu pomocy technicznej Isilon w celu analizy błędu:
# isi_gather_info -f /var/tmp/
Uwaga:
/var/tmp/ Dane o awarii nie są zbierane w domyślnym zbiorze dziennika, należy użyć isi_gather_info -f /var/tmp/ , aby zebrać odpowiednie informacje o błędach.
Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.
* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.
Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Dodatkowe informacje
Uwaga:
- To nowe powiadomienie o zdarzeniu jest włączone w ramach poprawek zbiorczych z marca 2021 r. dla OneFS 8.1.2.0, 8.2.2.0 i 9.1.0.5. Klastry z uruchomionymi wersjami OneFS przed poprawką zbiorczą (RUP) z marca 2021 r. nie publikują tego powiadomienia o zdarzeniu.
- OneFS 9.2, 9.3, 9.4 i nowsze mają tę funkcję.
- Aktualizacja wyzwala zdarzenie, jeśli system OneFS wykryje ponowny rozruch z powodu awarii węzła.
- Zdarzenie może zawierać podstawowe informacje, takie jak nagłówki zrzutów rdzenia, aby pomóc w zrozumieniu i rozwiązaniu problemu.
- Wynikowy dial-home SR może zawierać dodatkowe informacje w czytelnym formacie do klasyfikacji i analizy.
Uwaga: Funkcja ta może powodować fałszywe alarmy spowodowane poprzednimi zdarzeniami awarii, rdzeniami lub minizrzutami, które mogą znajdować się w klastrze przed instalacją RUP z marca 2021 r. OneFS może nadal ostrzegać o starych plikach błędów, dopóki nie zostaną usunięte. Wykonaj następujące czynności, aby uniknąć fałszywych alarmów.
- Wyczyść dziennik komunikatów, wymuszając obracanie dzienników. Funkcja ta nie sprawdza informacji o awarii w żadnych obróconych dziennikach w archiwum gz, takich jak messages.0.gz, messages.1.gz itd. Uruchom następujące polecenie, aby dokonać rotacji katalogu /var/log/messages po znalezieniu błędu:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Sprawdź kolumnę
/var/crashKatalog każdego węzła dla dowolnego pliku rdzenia lub minizrzutu. Usuń lub utwórz kopię zapasową po uzyskaniu zgody. - Uruchom następujące polecenie, aby wyczyścić
vmcorepliki znajdujące się w/var/crashna wszystkich węzłach.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Produkty, których dotyczy problem
PowerScale OneFSProdukty
IsilonWłaściwości artykułu
Numer artykułu: 000184828
Typ artykułu: Solution
Ostatnia modyfikacja: 09 maj 2026
Wersja: 16
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.