Qué hacer cuando un nodo se informa como Inactivo u Offline
Summary: Cómo determinar si un nodo está inactivo y formas de conectarse al nodo en un estado inactivo.
Instructions
Cada vez que un nodo tiene problemas para comunicarse con los otros nodos del clúster, se informa como offline. Hay muchas razones por las que se pueden informar uno o varios nodos en este estado, desde el hardware hasta el sistema operativo. El indicador más común de que un nodo está inactivo se encuentra en los mensajes de eventos. Si un nodo pierde conectividad con los demás nodos del clúster, se informa un evento de "nodo offline":
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
Si ve un evento similar a este, determine si el nodo se ha recuperado o si aún está offline. Para determinar esto, utilice el resultado de isi status.
Si la salida isi status informa que todos los nodos están en buen estado:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
En este ejemplo, todos los nodos se informan como correctos. Esto indica que todos los nodos están en línea y forman parte del clúster. Determine si alguien reinició el nodo o si se estaba realizando mantenimiento. Si no está seguro del motivo del reinicio, le recomendamos recopilar registros y abrir una solicitud de servicio.
Si isi status informa que un nodo está en Atención:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
La salida de estado isi en el nodo lo muestra en Atención -A--, esto se desencadena por un evento crítico en el clúster. Un nodo en estado Atención está en línea y forma parte del clúster, pero informa un problema. Puede utilizar isi event list para ver qué eventos críticos se informan para el nodo en Atención. En este caso, se debió a un trabajo de FlexProtectLin que se ejecutaba en la bahía de unidad 1. Al igual que con el estado OK, querrá determinar por qué se reinició el nodo, si es posible. Si no es así, debería recopilar registros y abrir una solicitud de servicio.
Si isi status informa que un nodo está inactivo:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
La salida de estado isi muestra el nodo como Down D---, esto indica que el nodo no se puede comunicar con el clúster. Si el nodo no está inactivo por un motivo conocido (se está realizando mantenimiento de hardware, se está actualizando el SO del clúster, etc.), vea si puede establecer la conectividad con el nodo y abra una solicitud de servicio inmediatamente.
Establecimiento de la conectividad con un nodo inactivo de manera remota
Si el nodo está inactivo, significa que no puede comunicarse con el clúster. Sin embargo, es posible que aún pueda conectarse al nodo. Es posible que aún pueda iniciar sesión de forma remota o a través de una conexión en serie.
Desde otro nodo del clúster, puede intentar conectarse al nodo inactivo mediante la red interna. ¿Intenta hacer ping al clustername-node number? Mediante el nodo 3 del resultado anterior:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
En este ejemplo, pudimos hacer ping al clustername-node number, a pesar de que se informa que el nodo está inactivo. Intentaríamos usar el protocolo SSH en el nodo y ver si podemos conectarnos.
Si el nodo tiene una dirección IP asignada estáticamente en la red pública, es posible que pueda conectarse a ella. Para determinar si tiene una dirección asignada estáticamente desde el clúster, utilice el comando isi network:
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
En este ejemplo, el nodo 3 del clúster tiene una dirección asignada estáticamente en 192.168.1.150. Desde otro nodo del clúster o una estación de trabajo que tenga acceso a esa red, intentaríamos hacer ping a la dirección. Si podemos hacer ping a la dirección correctamente, intentaremos usar el protocolo SSH en el nodo.
Establecimiento de conectividad local con un nodo inactivo
Si alguien está en el sitio y tiene una computadora con un puerto serial o un adaptador USB a serial y un cable de módem nulo o un cable serial con adaptador de módem nulo. Pueden conectarse directamente al nodo para fines de solución de problemas. Puede encontrar información sobre cómo conectarse al puerto serial en el nodo en PowerScale: Pasos para que los clientes se conecten al puerto serial cuando la conexión remota no sea posible