ノードがダウンまたはオフラインとして報告された場合の対処

Summary: ノードがダウンしているかどうかを確認する方法と、ダウン状態のノードに接続する方法について説明します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

ノードとクラスター内の他のノードとの通信に問題がある場合は常に、オフラインとして報告されます。ハードウェアからOSまで、1つのノードがこの状態で報告される理由はさまざまです。ノードがダウンしていることを示す最も一般的なインジケーターは、イベント メッセージにあります。ノードがクラスター内の残りのノードへの接続を失うと、「ノード オフライン」イベントが報告されます。

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

このようなイベントが発生した場合は、ノードがリカバリーされたか、またはまだオフラインであるかを確認します。これを確認するには、「isi status」の出力を使用します。

isi statusの出力ですべてのノードがOKと報告された場合は、次の手順を実行します。

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

この例では、すべてのノードがOKと報告されています。これは、すべてのノードがオンラインであり、クラスターの一部であることを示します。誰かがノードを再起動したかどうか、またはメンテナンスが実行されていたかどうかを判断します。再起動の理由が不明な場合は、ログを収集してサービス リクエストを開きます。

isi statusが「Attention」でノードを報告した場合:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

ノード上のisi statusの出力では、「Attention -A」と表示され--,これはクラスター上の重大イベントによってトリガーされます。アテンション状態のノードはオンラインで、クラスターの一部ですが、問題をレポートしています。isi event listを使用して、Attentionのノードに対して報告された重要なイベントを確認できます。この例では、ドライブ ベイ1に対して実行されているFlexProtectLinジョブが原因でした。OK状態と同様に、可能であれば、ノードが再起動された理由を特定する必要があります。そうでない場合は、ログを収集してサービス リクエストを開きます。

isi statusでノードがダウンと報告された場合:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

isi statusの出力では、ノードがDown Dと表示されます。これは---,ノードがクラスターと通信できないことを示しています。既知の理由(ハードウェア メンテナンスの実行中、クラスターOSのアップグレード中など)でノードがダウンしていない場合は、ノードへの接続を確立し、サービス リクエストをすぐにオープンできるかどうかを確認します。

ダウン中のノードへのリモート接続の確立

ノードがダウンしている場合は、クラスターと通信できないことを意味します。ただし、引き続きノードに接続できる可能性があります。リモートで、またはシリアル接続を介してログインできる場合があります。

クラスター内の別のノードから、内部ネットワークを使用してダウン中のノードへの接続を試みることができます。clustername-node番号にpingを実行しますか? 上記の出力のノード3を使用します。

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 この例では、ノードがダウンと報告されている場合でも、clustername-node番号にpingを実行できました。ノードにSSHで接続して、接続できるかどうかを確認します。

ノードにパブリック ネットワーク上で静的に割り当てられたIPアドレスがある場合は、そのIPアドレスに接続できる場合があります。クラスターから静的に割り当てられたアドレスがあるかどうかを確認するには、isi networkコマンドを使用します。
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 この例では、クラスタ内のノード 3 に静的に割り当てられたアドレス 192.168.1.150 があります。クラスター内の別のノード、またはそのネットワークにアクセスできるワークステーションから、アドレスへのpingを試みます。アドレスに正常にpingを実行できる場合は、ノードにSSHで接続しようとします。

ダウン中のノードへのローカルでの接続の確立

誰かがオンサイトで、シリアル ポートまたはUSB-シリアル アダプターを備えたコンピューターと、Nullモデム ケーブルまたはNullモデム アダプター付きシリアル ケーブルを持っている場合。トラブルシューティングの目的でノードに直接接続できます。ノードのシリアル ポートに接続する方法については、「 PowerScale: リモート接続ができない場合にお客様がシリアル ポートに接続するための手順

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.