Hva skal jeg gjøre når en node rapporterer som nede eller frakoblet
Summary: Hvordan finne ut om en node er nede og hvordan du kobler til noden i ned-tilstand.
Instructions
Når en node har problemer med å kommunisere med de andre nodene i klyngen, rapporteres den som frakoblet. Det er mange grunner til at en node eller noder kan rapporteres i denne tilstanden, fra maskinvare til operativsystem. Den vanligste indikatoren på at en node er nede, er i hendelsesmeldingene. Hvis en node mister tilkoblingen til de gjenværende nodene i klyngen, rapporteres en "node offline"-hendelse:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Hvis du ser en hendelse som ligner på denne, må du finne ut om noden er gjenopprettet eller om den fortsatt er frakoblet. Hvis du vil fastslå dette, bruker du utdataene fra isi-status.
Hvis isi-statusutdata rapporterer alle noder som OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
I dette eksemplet rapporteres alle noder som OK. Dette indikerer at alle noder er tilkoblet og en del av klyngen. Finn ut om noen startet noden på nytt, eller om vedlikehold ble utført. Hvis du er usikker på årsaken til omstarten, vil du samle inn logger og åpne en serviceforespørsel.
Hvis isi-status rapporterer en node på Attention:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
ISI-statusutdataene på noden viser den ved Attention -A--, dette utløses av en kritisk hendelse på klyngen. En node i oppmerksomhetstilstand er tilkoblet og en del av klyngen, men rapporterer et problem. Du kan bruke isi-hendelseslisten til å se hvilke kritiske hendelser som rapporteres for noden på Attention. I dette tilfellet skyldtes det en FlexProtectLin-jobb som kjørte mot stasjonsbrønn 1. Som med OK-tilstanden, vil du finne ut hvorfor noden startet på nytt, hvis du kan. Hvis ikke, bør du samle inn logger og åpne en serviceforespørsel.
Hvis ISI-statusen rapporterer en node som Nede:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
ISI-statusutgangen viser noden som Ned D---, dette indikerer at noden ikke kan kommunisere med klyngen. Hvis noden av en kjent årsak ikke er nede (maskinvarevedlikehold utføres, oppgraderes klynge-OS osv.), kan du se om du kan opprette forbindelse til noden og åpne en serviceforespørsel umiddelbart.
Etablere tilkobling til en nednode eksternt
Hvis noden er nede, betyr det at den ikke kan kommunisere med klyngen. Det er imidlertid mulig at du fortsatt kan koble til noden. Du kan fortsatt logge på eksternt eller via seriell tilkobling.
Fra en annen node i klyngen kan du forsøke å koble til nednoden ved hjelp av det interne nettverket. Prøv å pinge clustername-node-nummeret? Bruk node 3 fra utdataene ovenfor:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
I dette eksemplet kunne vi pinge clustername-nodenummeret, selv om noden rapporterer som nede. Vi ville prøve å ssh til noden og se om vi kan koble til.
Hvis noden har en statisk tilordnet IP-adresse på det offentlige nettverket, kan du kanskje koble til den. Hvis du vil finne ut om du har en statisk tilordnet adresse fra klyngen, bruker du kommandoen isi-nettverk:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
I dette eksemplet har node 3 i klyngen en statisk tilordnet adresse på 192.168.1.150. Fra en annen node i klyngen eller en arbeidsstasjon som har tilgang til det nettverket, prøver vi å pinge adressen. Hvis vi kan pinge adressen, vil vi da forsøke å ssh inn i noden.
Etablere tilkobling til en nednode lokalt
Hvis noen er på stedet og de har en datamaskin med en seriell port eller usb til seriell adapter og en null modemkabel eller seriell kabel med null modemadapter. De kan koble direkte til noden for feilsøkingsformål. Du finner informasjon om hvordan du kobler til den serielle porten på noden i PowerScale: Trinn for kunder å koble til seriell port når ekstern tilkobling ikke er mulig