Event: Węzeł odzyskał sprawność po awarii. Informacja o awarii jest zapisywana w pliku: var tmp panic
Summary: W tym artykule wyjaśniono, w jaki sposób użytkownicy i pomoc techniczna powinni zarządzać zdarzeniami lub komunikatami "Węzeł odzyskał sprawność po awarii". Przed przystąpieniem do działania zapoznaj się ze wszystkimi fragmentami artykułu. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
ZDARZENIE
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze
Przykład:
Otrzymano powiadomienie o zdarzeniu wskazujące co najmniej jeden węzeł odzyskany po awarii. Informacje o awarii są zapisywane w pliku znajdującym się w obszarze
/var/tmp/ w węzłach, których dotyczy problem.
Przykład:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
Dokładne przyczyny awarii węzła mogą się różnić, ale typowe przyczyny mogą być następujące:
- Awaria sprzętu
- Awaria kodu oprogramowania
- Nieprawidłowa konfiguracja
Resolution
Aby rozpocząć rozwiązywanie problemu, najpierw upewnij się, że węzeł odzyskał sprawność po zdarzeniu awarii i nie jest wyłączony ani w trybie offline. *
Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:
Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.
* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.
Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Aby rozwiązać problem, otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
Uruchom następujące polecenie, aby potwierdzić ponowne przyłączenie węzła do klastra:
# isi statusPolecenie
isi status zwraca dane wyjściowe podobne do poniższych. Jeśli węzeł został pomyślnie ponownie przyłączony do klastra, kolumna Health nie wyświetla wartości "D" (down):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyZbierz dzienniki, uruchamiając następujące polecenie i przekazując zestaw dzienników do działu pomocy technicznej Isilon w celu analizy błędu:
# isi_gather_info -f /var/tmp/
Uwaga:
/var/tmp/ Dane o awarii nie są zbierane w domyślnym zbiorze dziennika, należy użyć isi_gather_info -f /var/tmp/ , aby zebrać odpowiednie informacje o błędach.
Po otrzymaniu dzienników dział pomocy technicznej przegląda i analizuje szczegóły stosu błędów. Określają, czy stos błędów odpowiada jakiemuś znanemu problemowi lub artykułowi bazy wiedzy. W przypadku, gdy szczegóły stosu błędu nie pasują do znanego problemu lub istniejącego artykułu bazy wiedzy, problem jest eskalowany w celu dalszej oceny. Pomoc techniczna określa, jakie działania należy podjąć, takie jak wymiana sprzętu, poprawka kodu, aktualizacja oprogramowania wewnętrznego lub inne środki zaradcze.
* Jeśli węzeł nadal nie działa, należy wykonać dodatkowe czynności rozwiązywania problemów, aby przywrócić węzeł do trybu online. Jeśli potrzebna jest pomoc, skontaktuj się z działem pomocy technicznej Isilon.
Aby uzyskać więcej informacji, zobacz artykuł 55936: Isilon OneFS: Powiadomienie o zdarzeniu: Node Offline - Identyfikator zdarzenia: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Additional Information
Uwaga:
- To nowe powiadomienie o zdarzeniu jest włączone w ramach poprawek zbiorczych z marca 2021 r. dla OneFS 8.1.2.0, 8.2.2.0 i 9.1.0.5. Klastry z uruchomionymi wersjami OneFS przed poprawką zbiorczą (RUP) z marca 2021 r. nie publikują tego powiadomienia o zdarzeniu.
- OneFS 9.2, 9.3, 9.4 i nowsze mają tę funkcję.
- Aktualizacja wyzwala zdarzenie, jeśli system OneFS wykryje ponowny rozruch z powodu awarii węzła.
- Zdarzenie może zawierać podstawowe informacje, takie jak nagłówki zrzutów rdzenia, aby pomóc w zrozumieniu i rozwiązaniu problemu.
- Wynikowy dial-home SR może zawierać dodatkowe informacje w czytelnym formacie do klasyfikacji i analizy.
Uwaga: Funkcja ta może powodować fałszywe alarmy spowodowane poprzednimi zdarzeniami awarii, rdzeniami lub minizrzutami, które mogą znajdować się w klastrze przed instalacją RUP z marca 2021 r. OneFS może nadal ostrzegać o starych plikach błędów, dopóki nie zostaną usunięte. Wykonaj następujące czynności, aby uniknąć fałszywych alarmów.
- Wyczyść dziennik komunikatów, wymuszając obracanie dzienników. Funkcja ta nie sprawdza informacji o awarii w żadnych obróconych dziennikach w archiwum gz, takich jak messages.0.gz, messages.1.gz itd. Uruchom następujące polecenie, aby dokonać rotacji katalogu /var/log/messages po znalezieniu błędu:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Sprawdź kolumnę
/var/crashKatalog każdego węzła dla dowolnego pliku rdzenia lub minizrzutu. Usuń lub utwórz kopię zapasową po uzyskaniu zgody. - Uruchom następujące polecenie, aby wyczyścić
vmcorepliki znajdujące się w/var/crashna wszystkich węzłach.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.