Hva skal jeg gjøre når en node rapporterer som nede eller frakoblet

Summary: Hvordan finne ut om en node er nede og hvordan du kobler til noden i ned-tilstand.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Når en node har problemer med å kommunisere med de andre nodene i klyngen, rapporteres den som frakoblet. Det er mange grunner til at en node eller noder kan rapporteres i denne tilstanden, fra maskinvare til operativsystem. Den vanligste indikatoren på at en node er nede, er i hendelsesmeldingene. Hvis en node mister tilkoblingen til de gjenværende nodene i klyngen, rapporteres en "node offline"-hendelse:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Hvis du ser en hendelse som ligner på denne, må du finne ut om noden er gjenopprettet eller om den fortsatt er frakoblet. Hvis du vil fastslå dette, bruker du utdataene fra isi-status.

Hvis isi-statusutdata rapporterer alle noder som OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

I dette eksemplet rapporteres alle noder som OK. Dette indikerer at alle noder er tilkoblet og en del av klyngen. Finn ut om noen startet noden på nytt, eller om vedlikehold ble utført. Hvis du er usikker på årsaken til omstarten, vil du samle inn logger og åpne en serviceforespørsel.

Hvis isi-status rapporterer en node på Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

ISI-statusutdataene på noden viser den ved Attention -A--, dette utløses av en kritisk hendelse på klyngen. En node i oppmerksomhetstilstand er tilkoblet og en del av klyngen, men rapporterer et problem. Du kan bruke isi-hendelseslisten til å se hvilke kritiske hendelser som rapporteres for noden på Attention. I dette tilfellet skyldtes det en FlexProtectLin-jobb som kjørte mot stasjonsbrønn 1. Som med OK-tilstanden, vil du finne ut hvorfor noden startet på nytt, hvis du kan. Hvis ikke, bør du samle inn logger og åpne en serviceforespørsel.

Hvis ISI-statusen rapporterer en node som Nede:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

ISI-statusutgangen viser noden som Ned D---, dette indikerer at noden ikke kan kommunisere med klyngen. Hvis noden av en kjent årsak ikke er nede (maskinvarevedlikehold utføres, oppgraderes klynge-OS osv.), kan du se om du kan opprette forbindelse til noden og åpne en serviceforespørsel umiddelbart.

Etablere tilkobling til en nednode eksternt

Hvis noden er nede, betyr det at den ikke kan kommunisere med klyngen. Det er imidlertid mulig at du fortsatt kan koble til noden. Du kan fortsatt logge på eksternt eller via seriell tilkobling.

Fra en annen node i klyngen kan du forsøke å koble til nednoden ved hjelp av det interne nettverket. Prøv å pinge clustername-node-nummeret? Bruk node 3 fra utdataene ovenfor:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 I dette eksemplet kunne vi pinge clustername-nodenummeret, selv om noden rapporterer som nede. Vi ville prøve å ssh til noden og se om vi kan koble til.

Hvis noden har en statisk tilordnet IP-adresse på det offentlige nettverket, kan du kanskje koble til den. Hvis du vil finne ut om du har en statisk tilordnet adresse fra klyngen, bruker du kommandoen isi-nettverk:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 I dette eksemplet har node 3 i klyngen en statisk tilordnet adresse på 192.168.1.150. Fra en annen node i klyngen eller en arbeidsstasjon som har tilgang til det nettverket, prøver vi å pinge adressen. Hvis vi kan pinge adressen, vil vi da forsøke å ssh inn i noden.

Etablere tilkobling til en nednode lokalt

Hvis noen er på stedet og de har en datamaskin med en seriell port eller usb til seriell adapter og en null modemkabel eller seriell kabel med null modemadapter. De kan koble direkte til noden for feilsøkingsformål. Du finner informasjon om hvordan du kobler til den serielle porten på noden i PowerScale: Trinn for kunder å koble til seriell port når ekstern tilkobling ikke er mulig

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.