O que fazer quando um nó é reportado como Inativo ou Off-line
Summary: Como determinar se um nó está inativo e maneiras de se conectar a ele em um estado inativo.
Instructions
Sempre que um nó tem um problema de comunicação com os outros nós do cluster, ele é relatado como off-line. Há muitos motivos pelos quais um nó ou nós podem ser relatados nesse estado, do hardware ao sistema operacional. O indicador mais comum de um nó estar inativo está nas mensagens de evento. Se um nó perder a conectividade com os nós restantes do cluster, um evento "node offline" será relatado:
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Se você vir um evento parecido com este, determine se o nó foi recuperado ou se ainda está off-line. Para determinar isso, use a saída de isi status.
Se o resultado de isi status relatar todos os nós como OK:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
Neste exemplo, todos os nós são reportados como OK. Isso indica que todos os nós estão on-line e fazem parte do cluster. Determine se alguém reinicializou o nó ou se a manutenção estava sendo realizada. Se você não tiver certeza do motivo da reinicialização, convém reunir registros e abrir um chamado.
Se isi status reportar um nó em Atenção:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
O resultado de isi status no nó mostra isso em Attention -A--, isso é acionado por um evento crítico no cluster. Um nó no estado Attention está on-line e faz parte do cluster, mas está relatando um problema. Você pode usar isi event list para ver quais eventos críticos estão sendo relatados para o nó em Attention. Nesse caso, foi devido a um trabalho FlexProtectLin em execução no compartimento de unidade 1. Assim como no estado OK, convém determinar por que o nó foi reinicializado, se possível. Caso contrário, convém coletar logs e abrir um chamado.
Se isi status relatar um nó como Inativo:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
O resultado do isi status mostra o nó como Down D---, isso indica que o nó não consegue se comunicar com o cluster. Se o nó não estiver inativo por um motivo conhecido (manutenção de hardware em andamento, upgrade do sistema operacional do cluster etc.), veja se você consegue estabelecer conectividade com o nó e abrir um chamado imediatamente.
Estabelecendo conectividade com um nó inativo remotamente
Se o nó estiver inativo, isso significa que ele não poderá se comunicar com o cluster. No entanto, é possível que você ainda possa se conectar ao nó. Talvez você ainda consiga fazer login remotamente ou via conexão serial.
A partir de outro nó no cluster, você pode tentar se conectar ao nó inativo usando a rede interna. Tentar executar ping no número do clustername-node? Usando o nó 3 do resultado acima:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
Neste exemplo, conseguimos fazer ping no número clustername-node, mesmo que o nó reporte como inativo. Tentávamos acessar o SSH com o nó e ver se conseguimos nos conectar.
Se o nó tiver um endereço IP atribuído estaticamente em sua rede pública, você poderá se conectar a ele. Para determinar se você tem um endereço atribuído estaticamente do cluster, use o comando isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
Neste exemplo, o nó 3 do cluster tem um endereço atribuído estaticamente em 192.168.1.150. A partir de outro nó no cluster ou de uma estação de trabalho com acesso a essa rede, tentaríamos fazer ping no endereço. Se conseguirmos fazer ping com sucesso no endereço, tentaremos fazer ssh no nó.
Estabelecendo conectividade com um nó inoperante localmente
Se alguém estiver no local e tiver um computador com uma porta serial ou adaptador USB para serial e um cabo de modem nulo ou cabo serial com adaptador de modem nulo. Eles podem se conectar diretamente ao nó para fins de solução de problemas. As informações sobre como se conectar à porta serial do nó podem ser encontradas no PowerScale: Etapas para os clientes se conectarem à porta serial quando a conexão remota não for possível