Event: Uzel se zotavil z paniky. Informace o panice se zaznamenávají do souboru: var tmp panic

Summary: Tento článek vysvětluje, jak by měli uživatelé a technická podpora spravovat událost nebo zprávy "Node se zotavil z paniky". Než začnete jednat, přečtěte si všechny části článku.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

UDÁLOST
Obdrželi jste oznámení o události oznamující, že jeden nebo více uzlů bylo obnoveno po panice. Informace o panice se zaznamenávají do souboru umístěného v části /var/tmp/ na dotčených uzlech.
Příklad:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Přesné příčiny paniky uzlu se mohou lišit, ale typické příčiny mohou zahrnovat:
  • Selhání hardwaru
  • Selhání softwarového kódu
  • Špatně nakonfigurovat
Pro přesnou příčinu paniky je nutné provést analýzu protokolů clusteru pomocí podpory PowerScale.

Resolution

Chcete-li začít s odstraňováním problému, nejprve ověřte, že se uzel zotavil z události paniky a není mimo provoz nebo offline. *

Chcete-li vyřešit potíže, otevřete připojení SSH k uzlu a přihlaste se pomocí účtu "root".
Spuštěním následujícího příkazu potvrďte, že se uzel znovu připojil ke clusteru:
# isi status
Skript isi status Příkaz vrátí výstup podobný následujícímu. Pokud se uzel úspěšně znovu připojí ke clusteru, ve sloupci Stav se nezobrazí písmeno "D" (dole):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Shromážděte protokoly spuštěním následujícího příkazu a poskytněte sadu protokolů technické podpoře Isilon pro analýzu paniky:
# isi_gather_info -f /var/tmp/
 
Poznámka: /var/tmp/ Data paniky se neshromažďují ve výchozím shromažďování protokolů, musíte použít isi_gather_info -f /var/tmp/ ke shromáždění správných informací o panice.

Po přijetí protokolů technická podpora zkontroluje a analyzuje podrobnosti o zásobníku paniky. Ty určí, zda zásobník paniky odpovídá nějakému známému problému nebo článku znalostní databáze. V případě, že podrobnosti o zásobníku paniky neodpovídají známému problému nebo existujícímu článku znalostní databáze, je problém eskalován k dalšímu posouzení. Technická podpora určuje, jaké akce jsou zapotřebí, jako je výměna hardwaru, oprava kódu, aktualizace firmwaru nebo jiné zmírnění rizik.

* Pokud je uzel stále mimo provoz, je nutné provést další odstraňování problémů, aby se uzel vrátil zpět do režimu online. Pokud potřebujete pomoc, obraťte se na technickou podporu Isilon.

Další informace najdete v článku 55936: Isilon OneFS: Oznámení události: Node Offline - ID události: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Poznámka:
  • Toto nové oznámení o událostech je povoleno v rámci kumulativních oprav z března 2021 pro systém OneFS v8.1.2.0, v8.2.2.0 a v9.1.0.5. Clustery s verzemi OneFS před aktualizací Roll Up Patch (RUP) z března 2021 toto oznámení o události nezveřejňují.
  • OneFS 9.2, 9.3, 9.4 a vyšší mají tuto funkci obsaženou.
  • Pokud systém OneFS zjistí restartování z důvodu paniky uzlu, aktualizace aktivuje událost.
  • Událost může obsahovat základní informace, jako jsou hlavičky výpisu jádra, které vám pomohou problém pochopit a vyřešit.
  • Výsledný požadavek požadavku Dial-Home může obsahovat další informace v čitelném formátu pro posouzení a analýzu.

Poznámka: Tato funkce může způsobit falešné poplachy kvůli předchozím událostem paniky, jádrům nebo minimálním výpisům, které mohou být v clusteru před instalací RUP z března 2021. Systém OneFS může i nadále upozorňovat na staré soubory paniky, dokud je neodstraní. Proveďte následující kroky, abyste se vyhnuli falešným poplachům.
  1. Vyčistěte protokol zpráv vynucenou rotací protokolů. Tato funkce nekontroluje informace o panice v žádných rotovaných protokolech v archivu gz, jako jsou messages.0.gz, messages.1.gz atd. Spuštěním následujícího příkazu můžete otočit /var/log/messages vždy, když jsou nalezeny nějaké paniky:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Zkontrolujte sloupec /var/crash každého uzlu pro libovolný soubor jádra nebo minidumps. Po získání schválení je odeberte nebo zálohujte.
  2. Spuštěním následujícího příkazu proveďte čištění vmcore Soubory umístěné v /var/crash na všech uzlech.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sep 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.