Cosa fare quando un nodo segnala che è inattivo o offline

Zusammenfassung: Come determinare se un nodo è inattivo e come connettersi al nodo in stato inattivo.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Ogni volta che un nodo presenta un problema di comunicazione con gli altri nodi del cluster, viene segnalato come offline. Sono molti i motivi per cui uno o più nodi possono essere segnalati in questo stato, dall'hardware al sistema operativo. L'indicatore più comune di un nodo inattivo è rappresentato dai messaggi di evento. Se un nodo perde la connettività ai nodi rimanenti del cluster, viene segnalato un evento "node offline":

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Se viene visualizzato un evento simile a questo, determinare se il nodo è stato ripristinato o se è ancora offline. Per determinarlo, utilizzare l'output di isi status.

Se l'output isi status indica tutti i nodi come OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

In questo esempio, tutti i nodi vengono segnalati come OK. Ciò indica che tutti i nodi sono online e fanno parte del cluster. Determinare se qualcuno ha riavviato il nodo o se è stata eseguita la manutenzione. Se non si è sicuri del motivo del riavvio, è opportuno raccogliere i registri e aprire una Service Request.

Se lo stato isi segnala un nodo su Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

L'output isi status sul nodo lo mostra in Attention -A--, indica un evento critico nel cluster. Un nodo in stato Attention è online e fa parte del cluster, ma segnala un problema. È possibile utilizzare isi event list per visualizzare quali eventi critici vengono segnalati per il nodo in Attention. In questo caso, era dovuto a un job FlexProtectLin in esecuzione sul drive bay 1. Come per lo stato OK, è necessario determinare il motivo del riavvio del nodo, se possibile. In caso contrario, è necessario raccogliere i registri e aprire una Service Request.

Se lo stato isi segnala un nodo come Down:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

L'output isi status mostra il nodo come Down D---, indica che il nodo non è in grado di comunicare con il cluster. Se il nodo non è inattivo per un motivo noto, verificare se è possibile stabilire la connettività al nodo e aprire immediatamente una Service Request.

Stabilire la connettività a un nodo inattivo in remoto

Se il nodo è inattivo, significa che non è in grado di comunicare con il cluster. Tuttavia, è possibile che sia comunque possibile connettersi al nodo. Potrebbe comunque essere possibile effettuare l'accesso da remoto o tramite connessione seriale.

Da un altro nodo del cluster, è possibile tentare di connettersi al nodo inattivo utilizzando la rete interna. Provare a eseguire il ping del clustername-node number? Utilizzando il nodo 3 dell'output precedente:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 In questo esempio, è possibile eseguire il ping del numero clustername-node, anche se il nodo segnala che è inattivo. Proviamo a connetterci tramite SSH al nodo e vediamo se riusciamo a connetterci.

Se il nodo ha un indirizzo IP assegnato in modo statico sulla rete pubblica, potresti essere in grado di connetterti a quello. Per determinare se si dispone di un indirizzo assegnato in modo statico dal cluster, utilizzare il comando isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 In questo esempio, il nodo 3 nel cluster ha un indirizzo assegnato staticamente a 192.168.1.150. Tentare di eseguire il ping dell'indirizzo da un altro nodo del cluster o da una workstation con accesso a tale rete. Se è possibile eseguire correttamente il ping dell'indirizzo, si tenterà di accedere tramite SSH al nodo.

Stabilire la connettività a un nodo inattivo localmente

Se qualcuno è sul posto e:

  • Hanno un computer con una porta seriale o un adattatore da USB a seriale
  • Cavo null modem o cavo seriale con adattatore null modem.
Possono connettersi direttamente al nodo per la risoluzione dei problemi. Le informazioni su come connettersi alla porta seriale sul nodo sono disponibili in PowerScale: Procedura per la connessione dei clienti alla porta seriale quando non è possibile effettuare la connessione remota

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Artikeleigenschaften
Artikelnummer: 000290053
Artikeltyp: How To
Zuletzt geändert: 06 Feb. 2026
Version:  2
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.