Procédure à suivre lorsqu’un nœud est signalé comme étant en panne ou hors ligne

Summary: Comment déterminer si un nœud est en panne et comment se connecter au nœud en état d’arrêt.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Chaque fois qu’un nœud rencontre un problème de communication avec les autres nœuds du cluster, il est signalé comme étant hors ligne. Il existe de nombreuses raisons pour lesquelles un ou plusieurs nœuds peuvent être signalés dans cet état, du matériel au système d’exploitation. Les messages d’événement sont l’indicateur le plus courant de l’arrêt d’un nœud. Si un nœud perd la connectivité avec les autres nœuds du cluster, un événement « nœud hors ligne » est signalé :

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

Si vous voyez un événement similaire à celui-ci, déterminez si le nœud a récupéré ou s’il est toujours hors ligne. Pour le déterminer, utilisez la sortie de l’état isi.

Si la sortie de l’état isi signale tous les nœuds comme OK :

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Dans cet exemple, tous les nœuds sont signalés comme OK. Cela indique que tous les nœuds sont en ligne et font partie du cluster. Déterminez si quelqu’un a redémarré le nœud ou si une maintenance était en cours. Si vous n’êtes pas sûr de la raison du redémarrage, vous devez rassembler les journaux et ouvrir une demande de service.

Si l’état isi signale un nœud à Attention :

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

La sortie d’état isi sur le nœud l’affiche à Attention -A--, cela est déclenché par un événement critique sur le cluster. Un nœud à l’état Attention est en ligne et fait partie du cluster, mais signale un problème. Vous pouvez utiliser la liste d’événements isi pour voir quels événements critiques sont signalés pour le nœud au niveau d’attention. Dans ce cas, cela était dû à une tâche FlexProtectLin exécutée sur la baie de disques 1. Comme pour l’état OK, vous devez déterminer la raison pour laquelle le nœud a redémarré, si possible. Si ce n’est pas le cas, vous devez rassembler les journaux et ouvrir une demande de service.

Si l’état isi signale qu’un nœud est en panne :

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

La sortie d’état isi indique que le nœud est Down D---, cela indique que le nœud ne parvient pas à communiquer avec le cluster. Si le nœud n’est pas arrêté pour une raison connue (maintenance matérielle en cours, mise à niveau du système d’exploitation du cluster, etc.), voyez si vous pouvez établir une connectivité au nœud et ouvrez une demande de service immédiatement.

Établissement à distance de la connectivité à un nœud en panne

Si le nœud est arrêté, cela signifie qu’il ne peut pas communiquer avec le cluster. Toutefois, il est possible que vous puissiez toujours vous connecter au nœud. Vous pourrez peut-être toujours vous connecter à distance ou via une connexion série.

À partir d’un autre nœud du cluster, vous pouvez tenter de vous connecter au nœud en panne à l’aide du réseau interne. Essayer d’envoyer un ping au numéro clustername-node ? À l’aide du nœud 3 de la sortie ci-dessus :

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

Dans cet exemple, nous avons pu envoyer un ping au numéro clustername-node, même si le nœud est signalé comme étant en panne. Nous allons essayer d’utiliser une connexion SSH sur le nœud pour voir si nous pouvons nous connecter.

Si le nœud dispose d’une adresse IP attribuée de manière statique sur votre réseau public, vous pourrez peut-être vous y connecter. Pour déterminer si vous disposez d’une adresse attribuée statiquement à partir du cluster, utilisez la commande réseau isi :

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

Dans cet exemple, le nœud 3 du cluster a une adresse attribuée statiquement à 192.168.1.150. À partir d’un autre nœud du cluster ou d’une station de travail ayant accès à ce réseau, nous tentons d’envoyer un ping à l’adresse. Si nous réussissons à envoyer une commande ping à l’adresse, nous tenterons d’utiliser une session ssh dans le nœud.

Établissement local de la connectivité à un nœud en panne

Si quelqu’un se trouve sur site et dispose d’un ordinateur équipé d’un port série ou d’un adaptateur USB-série et d’un câble null modem ou d’un câble série avec adaptateur null modem. Ils peuvent se connecter directement au nœud à des fins de dépannage. Vous trouverez des informations sur la connexion au port série sur le nœud dans PowerScale : Étapes à suivre pour se connecter au port série lorsque la connexion à distance n’est pas possible

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series

Article Number: 000290053

Article Type: How To

Last Modified: 02 Jul 2025

Version: 1

Check if your device is covered by Support Services.

Procédure à suivre lorsqu’un nœud est signalé comme étant en panne ou hors ligne

Summary: Comment déterminer si un nœud est en panne et comment se connecter au nœud en état d’arrêt.

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Procédure à suivre lorsqu’un nœud est signalé comme étant en panne ou hors ligne

Summary: Comment déterminer si un nœud est en panne et comment se connecter au nœud en état d’arrêt.

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services