Vad du ska göra när en nod rapporterar som nere eller offline
Summary: Så här avgör du om en nod är nere och sätt att ansluta till noden i ett avstängt tillstånd.
Instructions
När en nod har problem med att kommunicera med de andra noderna i klustret rapporteras den som offline. Det finns många orsaker till att en nod eller noder kan rapporteras i det här tillståndet, från maskinvara till operativsystem. Den vanligaste indikatorn på att en nod är nere är i händelsemeddelandena. Om en nod förlorar anslutningen till de återstående noderna i klustret rapporteras en "node offline"-händelse:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Om du ser en händelse som liknar denna kontrollerar du om noden har återställts eller om den fortfarande är offline. För att avgöra detta använder du utdata från isi status.
Om isi-statusutdata rapporterar alla noder som OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
I det här exemplet rapporteras alla noder som OK. Detta indikerar att alla noder är online och ingår i klustret. Ta reda på om någon har startat om noden eller om underhåll utfördes. Om du är osäker på orsaken till omstarten bör du samla in loggar och öppna en tjänstebegäran.
Om isi-status rapporterar en nod i Varning:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
ISI-statusutdata på noden visar den i Attention -A--, detta utlöses av en kritisk händelse i klustret. En nod i uppmärksamhetstillstånd är online och en del av klustret men rapporterar ett problem. Du kan använda isi event list för att se vilka kritiska händelser som rapporteras för noden vid Attention. I det här fallet berodde det på ett FlexProtectLin-jobb som kördes mot enhetsfack 1. Precis som med OK-tillståndet vill du ta reda på varför noden startades om, om du kan. Om inte, vill du samla in loggar och öppna en tjänstbegäran.
Om isi-status rapporterar en nod som nere:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
ISI-statusutdata visar noden som Down D---, detta indikerar att noden inte kan kommunicera med klustret. Om noden inte är nere av någon känd orsak (maskinvaruunderhåll utförs, klusteroperativsystemet uppgraderas osv.) kontrollerar du om du kan upprätta en anslutning till noden och öppna en tjänstebegäran direkt.
Upprätta anslutning till en nednod på distans
Om noden är nere innebär det att den inte kan kommunicera med klustret. Det är dock möjligt att du fortfarande kan ansluta till noden. Du kanske fortfarande kan logga in på distans eller via seriell anslutning.
Från en annan nod i klustret kan du försöka ansluta till den neda noden med hjälp av det interna nätverket. Försök att pinga clustername-node-numret? Med nod 3 från utdata ovan:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
I det här exemplet kunde vi pinga clustername-node-numret, även om noden rapporterar som nere. Vi skulle försöka ssh till noden och se om vi kan ansluta.
Om noden har en statiskt tilldelad IP-adress i ditt offentliga nätverk kanske du kan ansluta till den. Om du vill ta reda på om du har en statiskt tilldelad adress från klustret använder du kommandot isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
I det här exemplet har nod 3 i klustret en statiskt tilldelad adress på 192.168.1.150. Vi försöker pinga adressen från en annan nod i klustret eller från en arbetsstation som har åtkomst till det nätverket. Om vi lyckas pinga adressen försöker vi sedan ssh till noden.
Upprätta anslutning till en nednod lokalt
Om någon är på plats och de har en dator med en seriell port eller usb till seriell adapter och en nollmodemkabel eller seriell kabel med nollmodemadapter. De kan ansluta direkt till noden i felsökningssyfte. Information om hur du ansluter till den seriella porten på noden finns i PowerScale: Steg för kunder att ansluta till seriell port när fjärranslutning inte är möjlig