Co dělat, když se uzel hlásí jako nefunkční nebo offline

Summary: Jak zjistit, zda je uzel mimo provoz, a způsoby, jak se připojit k uzlu ve stavu vypnutí.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Kdykoli má uzel potíže s komunikací s ostatními uzly v clusteru, je hlášen jako offline. Existuje mnoho důvodů, proč může být uzel nebo uzly hlášeny v tomto stavu, od hardwaru až po operační systém. Nejběžnějším indikátorem toho, že je uzel mimo provoz, jsou zprávy událostí. Pokud uzel ztratí připojení ke zbývajícím uzlům v clusteru, zobrazí se událost "uzel je offline":

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Pokud se zobrazí podobná událost, zjistěte, zda se uzel obnovil nebo zda je stále offline. Chcete-li to zjistit, použijte výstup ze stavu ISI.

Pokud výstup stavu isi hlásí všechny uzly jako OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

V tomto příkladu jsou všechny uzly hlášeny jako OK. To znamená, že všechny uzly jsou online a jsou součástí clusteru. Zjistěte, zda někdo uzel restartoval nebo zda byla prováděna údržba. Pokud si nejste jisti důvodem restartování, budete chtít shromáždit protokoly a otevřít servisní požadavek.

Pokud stav isi hlásí uzel v části Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Výstup stavu isi na uzlu se zobrazuje v části Attention -A--, je vyvolána kritickou událostí v clusteru. Uzel ve stavu Pozornost je online a je součástí clusteru, ale hlásí problém. Pomocí seznamu událostí isi můžete zjistit, jaké kritické události se hlásí pro uzel v části Pozor. V tomto případě to bylo způsobeno úlohou FlexProtectLin spuštěnou v pozici disku 1. Stejně jako u stavu OK byste chtěli určit, proč se uzel restartoval, pokud je to možné. Pokud ne, je nutné shromáždit protokoly a otevřít servisní požadavek.

Pokud stav isi hlásí, že je uzel mimo provoz:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

Výstup stavu isi zobrazuje uzel jako Down D---, což znamená, že uzel nemůže komunikovat s clusterem. Pokud uzel není ze známého důvodu mimo provoz (provádí se údržba hardwaru, upgraduje se operační systém clusteru atd.), zjistěte, zda můžete navázat připojení k uzlu, a okamžitě otevřete servisní požadavek.

Vzdálené navázání připojení k uzlu mimo provoz

Pokud je uzel mimo provoz, znamená to, že nemůže komunikovat s clusterem. Je však možné, že se k uzlu stále můžete připojit. Stále se můžete přihlásit vzdáleně nebo prostřednictvím sériového připojení.

Z jiného uzlu v clusteru se můžete pokusit připojit k uzlu mimo provoz pomocí interní sítě. Pokusíte se odeslat příkaz ping na číslo uzlu clustername? Pomocí uzlu 3 z výše uvedeného výstupu:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 V tomto příkladu jsme byli schopni odeslat příkaz ping na číslo uzlu název_clusteru, i když uzel hlásí stav jako neaktivní. Zkusíme se připojit k uzlu přes SSH a uvidíme, jestli se můžeme připojit.

Pokud má uzel staticky přiřazenou IP adresu ve vaší veřejné síti, můžete se k ní připojit. Chcete-li zjistit, zda máte staticky přiřazenou adresu z clusteru, použijte příkaz isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 V tomto příkladu má uzel 3 v clusteru staticky přiřazenou adresu 192.168.1.150. Z jiného uzlu v clusteru nebo pracovní stanice, která má přístup k této síti, se pokusíme odeslat příkaz ping na adresu. Pokud se nám podaří úspěšně odeslat příkaz ping na adresu, pokusíme se připojit k uzlu pomocí SSH.

Místní navázání připojení k uzlu mimo provoz

Pokud je někdo na pracovišti a má počítač se sériovým portem nebo adaptérem USB na sériový port a kabel nulového modemu nebo sériový kabel s adaptérem nulového modemu. Mohou se připojit přímo k uzlu pro účely řešení potíží. Informace o tom, jak se připojit k sériovému portu na uzlu, naleznete v článku PowerScale: Postup pro připojení zákazníků k sériovému portu, když není možné vzdálené připojení

Affected Products

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Article Properties
Article Number: 000290053
Article Type: How To
Last Modified: 02 Jul 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.