O que fazer quando um nó é reportado como Inativo ou Off-line

Zusammenfassung: Como determinar se um nó está inativo e maneiras de se conectar a ele em um estado inativo.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Sempre que um nó tem um problema de comunicação com os outros nós do cluster, ele é relatado como off-line. Há muitos motivos pelos quais um nó ou nós podem ser relatados nesse estado, do hardware ao sistema operacional. O indicador mais comum de um nó estar inativo está nas mensagens de evento. Se um nó perder a conectividade com os nós restantes do cluster, um evento "node offline" será relatado:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Se você vir um evento parecido com este, determine se o nó foi recuperado ou se ainda está off-line. Para determinar isso, use a saída de isi status.

Se o resultado de isi status relatar todos os nós como OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

Neste exemplo, todos os nós são reportados como OK. Isso indica que todos os nós estão on-line e fazem parte do cluster. Determine se alguém reinicializou o nó ou se a manutenção estava sendo realizada. Se você não tiver certeza do motivo da reinicialização, convém reunir registros e abrir um chamado.

Se isi status reportar um nó em Atenção:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

O resultado de isi status no nó mostra Attention -A--, isso indica um evento crítico no cluster. Um nó no estado Attention está on-line e faz parte do cluster, mas está relatando um problema. Você pode usar isi event list para ver quais eventos críticos estão sendo relatados para o nó em Attention. Nesse caso, foi devido a um trabalho FlexProtectLin em execução no compartimento de unidade 1. Assim como no estado OK, convém determinar por que o nó foi reinicializado, se possível. Caso contrário, convém coletar logs e abrir um chamado.

Se isi status relatar um nó como Inativo:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

O resultado do isi status mostra o nó como Down D---, isso indica que o nó não consegue se comunicar com o cluster. Se o nó não estiver inativo por um motivo conhecido, veja se você pode estabelecer conectividade com o nó e abrir um chamado imediatamente.

Estabelecendo conectividade com um nó inativo remotamente

Se o nó estiver inativo, isso significa que ele não poderá se comunicar com o cluster. No entanto, é possível que você ainda possa se conectar ao nó. Talvez você ainda consiga fazer login remotamente ou via conexão serial.

A partir de outro nó no cluster, você pode tentar se conectar ao nó inativo usando a rede interna. Tentar executar ping no número do clustername-node? Usando o nó 3 do resultado acima:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 Neste exemplo, podemos fazer ping do número do clustername-node, mesmo que o nó reporte como inativo. Tentávamos acessar o SSH com o nó e ver se conseguimos nos conectar.

Se o nó tiver um endereço IP atribuído estaticamente em sua rede pública, você poderá se conectar a ele. Determine se você tem um endereço atribuído estaticamente do cluster usando o comando isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 Neste exemplo, o nó 3 do cluster tem um endereço atribuído estaticamente em 192.168.1.150. A partir de outro nó no cluster ou de uma estação de trabalho com acesso a essa rede, tentaríamos fazer ping no endereço. Se conseguirmos fazer ping com sucesso no endereço, tentaremos fazer ssh no nó.

Estabelecendo conectividade com um nó inoperante localmente

Se alguém estiver no local e:

  • Eles têm um computador com uma porta serial ou adaptador USB para serial
  • Cabo de modem nulo ou cabo serial com adaptador de modem nulo.
Eles podem se conectar diretamente ao nó para fins de solução de problemas. As informações sobre como se conectar à porta serial do nó podem ser encontradas no PowerScale: Etapas para os clientes se conectarem à porta serial quando a conexão remota não for possível

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Artikeleigenschaften
Artikelnummer: 000290053
Artikeltyp: How To
Zuletzt geändert: 06 Feb. 2026
Version:  2
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.