Vorgehensweise, wenn ein Node als "Down" oder "Offline" gemeldet wird
Zusammenfassung: So stellen Sie fest, ob ein Node ausgefallen ist und wie Sie eine Verbindung zu dem Node herstellen, wenn dieser inaktiv ist.
Weisungen
Wann immer ein Node ein Problem bei der Kommunikation mit den anderen Nodes im Cluster hat, wird er als offline gemeldet. Es gibt viele Gründe, warum ein Node oder Nodes in diesem Status gemeldet werden können, von der Hardware bis zum Betriebssystem. Der häufigste Hinweis darauf, dass ein Node ausgefallen ist, sind die Ereignismeldungen. Wenn ein Node die Verbindung zu den verbleibenden Nodes im Cluster verliert, wird das Ereignis "Node offline" gemeldet:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Wenn ein ähnliches Ereignis angezeigt wird, ermitteln Sie, ob der Node wiederhergestellt wurde oder ob er noch offline ist. Um dies zu bestimmen, verwenden Sie die Ausgabe von isi status.
Wenn die isi-Statusausgabe alle Nodes als OK meldet:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
In diesem Beispiel werden alle Nodes als OK gemeldet. Dies weist darauf hin, dass alle Nodes online und Teil des Clusters sind. Stellen Sie fest, ob jemand den Node neu gestartet hat oder ob Wartungsarbeiten durchgeführt wurden. Wenn Sie sich nicht sicher sind, was der Grund für den Neustart ist, sollten Sie Protokolle sammeln und einen Service-Request öffnen.
Wenn isi status einen Node bei Attention:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
Die Ausgabe des isi-Status auf dem Node zeigt Attention -A--, dies weist auf ein kritisches Ereignis auf dem Cluster hin. Ein Node mit Aufmerksamkeitsstatus ist online und Teil des Clusters, meldet aber ein Problem. Sie können die isi-Ereignisliste verwenden, um zu sehen, welche kritischen Ereignisse für den Node unter Aufmerksamkeit gemeldet werden. In diesem Fall lag dies an einem FlexProtectLin-Job, der auf Laufwerksschacht 1 ausgeführt wurde. Wie beim Status "OK" sollten Sie gegebenenfalls ermitteln, warum der Node neu gestartet wurde. Ist dies nicht der Fall, sollten Sie Protokolle erfassen und einen Service-Request öffnen.
Wenn isi status einen Node als Down meldet:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
In der Ausgabe des isi-Status wird der Node als Down D angezeigt---, dies weist darauf hin, dass der Node nicht mit dem Cluster kommunizieren kann. Wenn der Node nicht aus einem bekannten Grund ausgefallen ist, prüfen Sie, ob Sie eine Verbindung zum Node herstellen und sofort einen Service-Request öffnen können.
Remoteverbindung zu einem ausgefallenen Node wird hergestellt
Wenn der Node ausgefallen ist, bedeutet dies, dass er nicht mit dem Cluster kommunizieren kann. Es ist jedoch möglich, dass Sie weiterhin eine Verbindung mit dem Node herstellen können. Sie können sich möglicherweise weiterhin remote oder über eine serielle Verbindung anmelden.
Von einem anderen Node im Cluster aus können Sie versuchen, über das interne Netzwerk eine Verbindung zum Down-Node herzustellen. Versuchen Sie, die Node-Nummer "clustername-node" zu pingen. Verwenden von Node 3 aus der obigen Ausgabe:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
In diesem Beispiel könnten wir die Node-Nummer clustername-node pingen, obwohl der Node als ausgefallen gemeldet wird. Wir versuchen, eine SSH-Verbindung zum Node herzustellen, um zu sehen, ob eine Verbindung hergestellt werden kann.
Wenn der Node über eine statisch zugewiesene IP-Adresse in Ihrem öffentlichen Netzwerk verfügt, können Sie möglicherweise eine Verbindung zu dieser herstellen. Stellen Sie fest, ob Sie über eine statisch zugewiesene Adresse aus dem Cluster verfügen. Verwenden Sie den Befehl isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
In diesem Beispiel hat Node 3 im Cluster eine statisch zugewiesene Adresse namens 192.168.1.150. Von einem anderen Node im Cluster oder einer Workstation, die Zugriff auf dieses Netzwerk hat, würden wir versuchen, die Adresse anzupingen. Wenn wir die Adresse erfolgreich anpingen können, versuchen wir, eine SSH-Verbindung zum Node herzustellen.
Lokales Herstellen einer Verbindung zu einem ausgefallenen Node
Wenn jemand vor Ort ist und:
- Sie haben einen Computer mit einem seriellen Anschluss oder USB-zu-Seriell-Adapter
- Nullmodemkabel oder serielles Kabel mit Nullmodemadapter.