O que fazer quando um nó é reportado como Inativo ou Off-line

Summary: Como determinar se um nó está inativo e maneiras de se conectar a ele em um estado inativo.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Sempre que um nó tem um problema de comunicação com os outros nós do cluster, ele é relatado como off-line. Há muitos motivos pelos quais um nó ou nós podem ser relatados nesse estado, do hardware ao sistema operacional. O indicador mais comum de um nó estar inativo está nas mensagens de evento. Se um nó perder a conectividade com os nós restantes do cluster, um evento "node offline" será relatado:

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Se você vir um evento parecido com este, determine se o nó foi recuperado ou se ainda está off-line. Para determinar isso, use a saída de isi status.

Se o resultado de isi status relatar todos os nós como OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

Neste exemplo, todos os nós são reportados como OK. Isso indica que todos os nós estão on-line e fazem parte do cluster. Determine se alguém reinicializou o nó ou se a manutenção estava sendo realizada. Se você não tiver certeza do motivo da reinicialização, convém reunir registros e abrir um chamado.

Se isi status reportar um nó em Atenção:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

O resultado de isi status no nó mostra isso em Attention -A--, isso é acionado por um evento crítico no cluster. Um nó no estado Attention está on-line e faz parte do cluster, mas está relatando um problema. Você pode usar isi event list para ver quais eventos críticos estão sendo relatados para o nó em Attention. Nesse caso, foi devido a um trabalho FlexProtectLin em execução no compartimento de unidade 1. Assim como no estado OK, convém determinar por que o nó foi reinicializado, se possível. Caso contrário, convém coletar logs e abrir um chamado.

Se isi status relatar um nó como Inativo:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

O resultado do isi status mostra o nó como Down D---, isso indica que o nó não consegue se comunicar com o cluster. Se o nó não estiver inativo por um motivo conhecido (manutenção de hardware em andamento, upgrade do sistema operacional do cluster etc.), veja se você consegue estabelecer conectividade com o nó e abrir um chamado imediatamente.

Estabelecendo conectividade com um nó inativo remotamente

Se o nó estiver inativo, isso significa que ele não poderá se comunicar com o cluster. No entanto, é possível que você ainda possa se conectar ao nó. Talvez você ainda consiga fazer login remotamente ou via conexão serial.

A partir de outro nó no cluster, você pode tentar se conectar ao nó inativo usando a rede interna. Tentar executar ping no número do clustername-node? Usando o nó 3 do resultado acima:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 Neste exemplo, conseguimos fazer ping no número clustername-node, mesmo que o nó reporte como inativo. Tentávamos acessar o SSH com o nó e ver se conseguimos nos conectar.

Se o nó tiver um endereço IP atribuído estaticamente em sua rede pública, você poderá se conectar a ele. Para determinar se você tem um endereço atribuído estaticamente do cluster, use o comando isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 Neste exemplo, o nó 3 do cluster tem um endereço atribuído estaticamente em 192.168.1.150. A partir de outro nó no cluster ou de uma estação de trabalho com acesso a essa rede, tentaríamos fazer ping no endereço. Se conseguirmos fazer ping com sucesso no endereço, tentaremos fazer ssh no nó.

Estabelecendo conectividade com um nó inoperante localmente

Se alguém estiver no local e tiver um computador com uma porta serial ou adaptador USB para serial e um cabo de modem nulo ou cabo serial com adaptador de modem nulo. Eles podem se conectar diretamente ao nó para fins de solução de problemas. As informações sobre como se conectar à porta serial do nó podem ser encontradas no PowerScale: Etapas para os clientes se conectarem à porta serial quando a conexão remota não for possível

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.