Co dělat, když se uzel hlásí jako nefunkční nebo offline

Zusammenfassung: Jak zjistit, zda je uzel mimo provoz, a způsoby, jak se připojit k uzlu ve stavu vypnutí.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Weisungen

Kdykoli má uzel potíže s komunikací s ostatními uzly v clusteru, je hlášen jako offline. Existuje mnoho důvodů, proč může být uzel nebo uzly hlášeny v tomto stavu, od hardwaru až po operační systém. Nejběžnějším indikátorem toho, že je uzel mimo provoz, jsou zprávy událostí. Pokud uzel ztratí připojení ke zbývajícím uzlům v clusteru, zobrazí se událost "uzel je offline":

2.21767  02/27 05:14 C    3    173520         Node 3 is offline

 

Pokud se zobrazí podobná událost, zjistěte, zda se uzel obnovil nebo zda je stále offline. Chcete-li to zjistit, použijte výstup ze stavu ISI.

Pokud výstup stavu isi hlásí všechny uzly jako OK:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [  OK ]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           16.7T (20.3T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             22.0G (< 1%)
Avail:            0 (n/a)             16.7T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%)
  3|xxx.xxx.xxx.150 | OK  | C |    0|    0|    0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
 

V tomto příkladu jsou všechny uzly hlášeny jako OK. To znamená, že všechny uzly jsou online a jsou součástí clusteru. Zjistěte, zda někdo uzel restartoval nebo zda byla prováděna údržba. Pokud si nejste jisti důvodem restartování, budete chtít shromáždit protokoly a otevřít servisní požadavek.

Pokud stav isi hlásí uzel v části Attention:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           15.0T (18.6T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             21.2G (< 1%)
Avail:            0 (n/a)             15.0T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
  3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------


Cluster Job Status:

Running jobs:
Job                        Impact Pri Policy     Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520]        Medium 1   MEDIUM     4/4   0:00:34
        Job Description: Working on nodes: None   and drives: node3:bay1

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded

Výstup stavu isi na uzlu se zobrazuje v části Attention -A--, označuje kritickou událost v clusteru. Uzel ve stavu Pozornost je online a je součástí clusteru, ale hlásí problém. Pomocí seznamu událostí isi můžete zjistit, jaké kritické události se hlásí pro uzel v části Pozor. V tomto případě to bylo způsobeno úlohou FlexProtectLin spuštěnou v pozici disku 1. Stejně jako u stavu OK byste chtěli určit, proč se uzel restartoval, pokud je to možné. Pokud ne, je nutné shromáždit protokoly a otevřít servisní požadavek.

Pokud stav isi hlásí, že je uzel mimo provoz:

testcluster-1# isi status
Cluster Name: testcluster
Cluster Health:     [ ATTN]
Data Reduction:     1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage:  HDD                 SSD Storage
Size:             0 (0 Raw)           9.9T (13.5T Raw)
VHS Size:         3.6T
Used:             0 (n/a)             12.7G (< 1%)
Avail:            0 (n/a)             9.9T (> 99%)

                   Health Ext  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |C/N|  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
  1|xxx.xxx.xxx.148 | OK  | C |    0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  2|xxx.xxx.xxx.149 | OK  | C |    0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
  3|xxx.xxx.xxx.150 |D--- | N |  n/a|  n/a|  n/a|  n/a/  n/a( n/a)|  n/a/  n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals:              |  n/a|  n/a|  n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
           External Network Fields: C = Connected, N = Not Connected

Critical Events:
Time            LNN  Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20  3    Node 3 offline


Cluster Job Status:

No running jobs.

No paused or waiting jobs.

No failed jobs.

Recent job results:
Time            Job                        Event
--------------- -------------------------- ------------------------------
02/27 04:00:38  ShadowStoreProtect[518]    Succeeded
02/27 02:00:14  WormQueue[517]             Succeeded
02/27 00:00:21  ShadowStoreDelete[516]     Succeeded

Výstup stavu isi zobrazuje uzel jako Down D---, což znamená, že uzel nemůže komunikovat s clusterem. Pokud uzel není ze známého důvodu mimo provoz, zjistěte, zda můžete navázat připojení k uzlu, a okamžitě otevřete žádost o službu.

Vzdálené navázání připojení k uzlu mimo provoz

Pokud je uzel mimo provoz, znamená to, že nemůže komunikovat s clusterem. Je však možné, že se k uzlu stále můžete připojit. Stále se můžete přihlásit vzdáleně nebo prostřednictvím sériového připojení.

Z jiného uzlu v clusteru se můžete pokusit připojit k uzlu mimo provoz pomocí interní sítě. Pokusíte se odeslat příkaz ping na číslo uzlu clustername? Pomocí uzlu 3 z výše uvedeného výstupu:

testcluster-1# ping testcluster-3
PING testcluster-3 (128.221.254.3): 56 data bytes
64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms
64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms
^C
--- testcluster-3 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss

 V tomto příkladu můžeme pomocí příkazu ping odeslat příkaz cluster s číslem uzlu, i když je uzel hlášen jako neaktivní. Zkusíme se připojit k uzlu přes SSH a uvidíme, jestli se můžeme připojit.

Pokud má uzel staticky přiřazenou IP adresu ve vaší veřejné síti, můžete se k ní připojit. Chcete-li zjistit, zda máte staticky přiřazenou adresu z clusteru, použijte příkaz isi network:
 

testcluster-1# isi network interfaces list | grep Static
1    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.148
2    25gige-1     Up         -        groupnet0.subnet0.pool0 Static      192.168.1.149
3    25gige-1     Unknown    -        groupnet0.subnet0.pool0 Static      192.168.1.150

 V tomto příkladu má uzel 3 v clusteru staticky přiřazenou adresu 192.168.1.150. Z jiného uzlu v clusteru nebo pracovní stanice, která má přístup k této síti, se pokusíme odeslat příkaz ping na adresu. Pokud se nám podaří úspěšně odeslat příkaz ping na adresu, pokusíme se připojit k uzlu pomocí SSH.

Místní navázání připojení k uzlu mimo provoz

Pokud je někdo na pracovišti a:

  • Mají počítač se sériovým portem nebo adaptérem USB na sériový port
  • Kabel nulového modemu nebo sériový kabel s adaptérem nulového modemu.
Mohou se připojit přímo k uzlu pro účely řešení potíží. Informace o tom, jak se připojit k sériovému portu na uzlu, naleznete v článku PowerScale: Postup pro připojení zákazníků k sériovému portu, když není možné vzdálené připojení

Betroffene Produkte

PowerScale, Isilon Gen6.5, Isilon Gen6, Isilon NL-Series, PowerScale OneFS, Isilon S-Series, Isilon Scale-out NAS, Isilon X-Series
Artikeleigenschaften
Artikelnummer: 000290053
Artikeltyp: How To
Zuletzt geändert: 06 Feb. 2026
Version:  2
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.