Begivenhet: Node har kommet seg etter panikk. Informasjon om panikk registreres i Fil: var tmp panic

Summary: Denne artikkelen forklarer hvordan brukere og teknisk støtte bør administrere hendelsen eller meldingene "Noden er gjenopprettet etter panikk". Gå gjennom alle deler av artikkelen før du handler. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

HENDELSE:
Du har mottatt et hendelsesvarsel som indikerer at én eller flere noder er gjenopprettet fra en panikk. Informasjon om panikken registreres i en fil som ligger under /var/tmp/ på de berørte noder.
Eksempel:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

De eksakte årsakene til en nodepanikk kan variere, men typiske årsaker kan omfatte:
  • maskinvarefeil
  • Feil på programvarekode
  • Feilkonfigurasjon
Analysen av klyngeloggene må utføres med PowerScale-støtte for å finne den nøyaktige årsaken til feilen.

Resolution

Hvis du vil begynne å feilsøke problemet, må du først bekrefte at noden har gjenopprettet fra panikkhendelsen og ikke er nede eller frakoblet.

*For å feilsøke, åpne en SSH-tilkobling til noden og logg på med "root" -kontoen.
Kjør følgende kommando for å bekrefte at noden ble med i klyngen igjen:
# isi status
Informasjonen i isi status Kommandoen returnerer utdata som ligner på følgende. Hvis noden ble med i klyngen igjen, viser ikke Tilstand-kolonnen "D" (ned):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
Samle inn logger ved å kjøre følgende kommando og oppgi loggsettet til Isilons tekniske støtte for analyse av panikken:
# isi_gather_info -f /var/tmp/
 
Merk: /var/tmp/ Panikkdata samles ikke inn i en standard loggsamling, du må bruke isi_gather_info -f /var/tmp/ for å samle riktig panikkinformasjon.

Når loggene er mottatt, skal teknisk støtte gjennomgå og analysere panikkstakkdetaljene. De avgjør om panikkstakken samsvarer med kjente problemer eller kunnskapsbaseartikler. Hvis panikkstakkdetaljene ikke samsvarer med et kjent problem eller eksisterende KB-artikkel, eskaleres problemet for videre vurdering. Teknisk støtte avgjør hvilke handlinger som kreves, for eksempel utskifting av maskinvare, kodereparasjon, fastvareoppdatering eller andre begrensninger.

* Hvis noden fortsatt er nede, må du utføre ytterligere feilsøking for å koble noden til igjen. Kontakt Isilons tekniske støtte hvis du trenger hjelp.

For mer informasjon, se artikkel 55936: Isilon OneFS: Hendelsesvarsling: Node Offline – Hendelses-ID: 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Merk:
  • Dette nye hendelsesvarselet er aktivert som en del av oppdateringene for OneFS v8.1.2.0, v8.2.2.0 og v9.1.0.5 for mars 2021. Klynger som kjører OneFS-versjoner før Roll Up Patch (RUP) i mars 2021, publiserer ikke dette hendelsesvarselet.
  • OneFS 9.2, 9.3, 9.4 og nyere har alle denne funksjonen inkludert.
  • Oppdateringen utløser en hendelse hvis OneFS oppdager en omstart på grunn av nodepanikk.
  • Hendelsen kan inneholde grunnleggende informasjon, for eksempel kjernedumphoder for å hjelpe deg med å forstå og feilsøke problemet.
  • En resulterende SR for oppringing hjem kan inkludere tilleggsinformasjonen i et lesbart format for sortering og analyse.

Merk: Denne funksjonen kan forårsake falske alarmer på grunn av tidligere panikkhendelser, kjerner eller minidumper som kan være på klyngen før installasjonen av RUP i mars 2021. OneFS kan fortsette å varsle om gamle panikkfiler til de fjernes. Gjør følgende trinn for å unngå falske alarmer.
  1. Rydd opp i meldingsloggen med makt, roter loggene. Denne funksjonen ser ikke etter panikkinformasjon i roterte logger i et gz-arkiv, for eksempel messages.0.gz, messages.1.gz og så videre. Kjør følgende kommando for å rotere /var/log/messages når det oppdages problemer:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. Sjekk ikonet /var/crash Katalog over hver node for alle kjerne- eller minidumpfiler. Enten fjerne eller sikkerhetskopiere dem etter å ha fått godkjenning.
  2. Kjør følgende kommando for å rydde opp vmcore Filer som du finner i /var/crash på alle noder.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.