노드가 Down 또는 Offline으로 보고되는 경우 수행할 작업
Summary: 노드가 다운되었는지 확인하는 방법 및 다운 상태의 노드에 연결하는 방법
Instructions
노드가 클러스터의 다른 노드와 통신하는 데 문제가 있을 때마다 오프라인 상태로 보고됩니다. 하드웨어에서 OS에 이르기까지 이 상태에서 노드를 보고할 수 있는 이유는 여러 가지가 있습니다. 노드 중단을 나타내는 가장 일반적인 지표는 이벤트 메시지에 있습니다. 노드와 클러스터의 나머지 노드 간의 연결이 끊어지면 "노드 오프라인" 이벤트가 보고됩니다.
2.21767 02/27 05:14 C 3 173520 Node 3 is offline
이와 유사한 이벤트가 표시되면 노드가 복구되었는지 또는 여전히 오프라인 상태인지 확인합니다. 이를 확인하려면 isi status의 출력을 사용합니다.
isi 상태 출력에서 모든 노드를 OK로 보고하는 경우:
testcluster-1# isi status Cluster Name: testcluster Cluster Health: [ OK ] Data Reduction: 1.33 : 1 Storage Efficiency: 0.72 : 1 Cluster Storage: HDD SSD Storage Size: 0 (0 Raw) 16.7T (20.3T Raw) VHS Size: 3.6T Used: 0 (n/a) 22.0G (< 1%) Avail: 0 (n/a) 16.7T (> 99%) Health Ext Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- 1|xxx.xxx.xxx.148 | OK | C | 0| 524k| 524k|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 2|xxx.xxx.xxx.149 | OK | C |962.0|23.1M|23.1M|(No Storage HDDs)| 6.4G/ 5.6T(< 1%) 3|xxx.xxx.xxx.150 | OK | C | 0| 0| 0|(No Storage HDDs)| 9.2G/ 5.6T(< 1%) ---+----------------+-----+---+-----+-----+-----+-----------------+----------------- Cluster Totals: |962.0|23.7M|23.7M|(No Storage HDDs)|22.0G/16.7T(< 1%) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only External Network Fields: C = Connected, N = Not Connected Critical Events: Time LNN Event --------------- ---- ------------------------------------------------------- Cluster Job Status: No running jobs. No paused or waiting jobs. No failed jobs. Recent job results: Time Job Event --------------- -------------------------- ------------------------------ 02/27 04:00:38 ShadowStoreProtect[518] Succeeded 02/27 02:00:14 WormQueue[517] Succeeded
이 예에서는 모든 노드가 OK로 보고됩니다. 이는 모든 노드가 온라인 상태이고 클러스터의 일부임을 나타냅니다. 누군가 노드를 재부팅했는지 또는 유지 보수가 수행 중인지 확인합니다. 재부팅 이유가 확실하지 않은 경우 로그를 수집하고 서비스 요청을 여는 것이 좋습니다.
isi status가 다음 주의 노드에 대해 보고하는 경우:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 15.0T (18.6T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 21.2G (< 1%)
Avail: 0 (n/a) 15.0T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 2.1k|16.9k|19.0k|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 1.8M|10.0M|11.9M|(No Storage HDDs)| 6.4G/ 5.5T(< 1%)
3|xxx.xxx.xxx.150 |-A-- | C | 4.0k|480.0| 4.5k|(No Storage HDDs)|10.7G/ 5.5T(< 1%)
---+----------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 1.8M|10.0M|11.9M|(No Storage HDDs)|21.2G/15.0T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
Cluster Job Status:
Running jobs:
Job Impact Pri Policy Phase Run Time
-------------------------- ------ --- ---------- ----- ----------
FlexProtectLin[520] Medium 1 MEDIUM 4/4 0:00:34
Job Description: Working on nodes: None and drives: node3:bay1
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
노드의 isi 상태 출력은 Attention -A에 표시됩니다--, 이는 클러스터의 심각한 이벤트에 의해 트리거됩니다. 주의 상태의 노드가 온라인 상태이고 클러스터의 일부이지만 문제를 보고하고 있습니다. isi event list를 사용하여 Attention에서 노드에 대해 보고되는 중요한 이벤트를 확인할 수 있습니다. 여기서는 FlexProtectLin 작업이 드라이브 베이 1에 대해 실행되었기 때문입니다. OK 상태와 마찬가지로 가능한 경우 노드가 재부팅된 이유를 확인할 수 있습니다. 그렇지 않은 경우 로그를 수집하고 서비스 요청을 열 수 있습니다.
isi status가 노드를 Down으로 보고하는 경우:
testcluster-1# isi status
Cluster Name: testcluster
Cluster Health: [ ATTN]
Data Reduction: 1.33 : 1
Storage Efficiency: 0.72 : 1
Cluster Storage: HDD SSD Storage
Size: 0 (0 Raw) 9.9T (13.5T Raw)
VHS Size: 3.6T
Used: 0 (n/a) 12.7G (< 1%)
Avail: 0 (n/a) 9.9T (> 99%)
Health Ext Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR |C/N| In Out Total| Used / Size |Used / Size
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
1|xxx.xxx.xxx.148 | OK | C | 0|73.9k|73.9k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
2|xxx.xxx.xxx.149 | OK | C | 0|11.3k|11.3k|(No Storage HDDs)| 6.4G/ 5.0T(< 1%)
3|xxx.xxx.xxx.150 |D--- | N | n/a| n/a| n/a| n/a/ n/a( n/a)| n/a/ n/a( n/a)
---+---------------+-----+---+-----+-----+-----+-----------------+-----------------
Cluster Totals: | n/a| n/a| n/a|(No Storage HDDs)|12.7G/ 9.9T(< 1%)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
External Network Fields: C = Connected, N = Not Connected
Critical Events:
Time LNN Event
--------------- ---- -------------------------------------------------------
02/27 05:14:20 3 Node 3 offline
Cluster Job Status:
No running jobs.
No paused or waiting jobs.
No failed jobs.
Recent job results:
Time Job Event
--------------- -------------------------- ------------------------------
02/27 04:00:38 ShadowStoreProtect[518] Succeeded
02/27 02:00:14 WormQueue[517] Succeeded
02/27 00:00:21 ShadowStoreDelete[516] Succeeded
isi 상태 출력에서 노드가 Down D로 표시됩니다---, 이는 노드가 클러스터와 통신할 수 없음을 나타냅니다. 알려진 이유(하드웨어 유지 보수 수행 중, 클러스터 OS 업그레이드 중)로 인해 노드가 다운되지 않은 경우 노드에 대한 연결을 설정하고 즉시 서비스 요청을 열 수 있는지 확인하십시오.
다운된 노드에 원격으로 연결 설정
노드가 다운되면 클러스터와 통신할 수 없음을 의미합니다. 하지만 노드에 계속 연결할 수 있습니다. 여전히 원격 또는 직렬 연결을 통해 로그인할 수 있습니다.
클러스터의 다른 노드에서 내부 네트워크를 사용하여 다운된 노드에 연결을 시도할 수 있습니다. 클러스터 이름 노드 번호를 ping해 보겠습니까? 위 출력의 노드 3 사용:
testcluster-1# ping testcluster-3 PING testcluster-3 (128.221.254.3): 56 data bytes 64 bytes from 128.221.254.3: icmp_seq=0 ttl=64 time=0.048 ms 64 bytes from 128.221.254.3: icmp_seq=1 ttl=64 time=0.042 ms 64 bytes from 128.221.254.3: icmp_seq=2 ttl=64 time=0.043 ms ^C --- testcluster-3 ping statistics --- 3 packets transmitted, 3 packets received, 0.0% packet loss
이 예에서는 노드가 다운된 것으로 보고되더라도 클러스터 이름 노드 번호에 대해 ping을 수행할 수 있었습니다. 노드에 ssh를 시도하고 연결할 수 있는지 확인합니다.
노드의 공용 네트워크에 정적으로 할당된 IP 주소가 있는 경우 해당 노드에 연결할 수 있습니다. 클러스터에서 정적으로 할당된 주소가 있는지 확인하려면 isi network 명령을 사용합니다.
testcluster-1# isi network interfaces list | grep Static 1 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.148 2 25gige-1 Up - groupnet0.subnet0.pool0 Static 192.168.1.149 3 25gige-1 Unknown - groupnet0.subnet0.pool0 Static 192.168.1.150
이 예에서 클러스터의 노드 3은 192.168.1.150에 정적으로 할당된 주소를 가지고 있습니다. 클러스터의 다른 노드 또는 해당 네트워크에 액세스할 수 있는 워크스테이션에서 주소에 대한 Ping을 시도합니다. 주소를 성공적으로 ping할 수 있으면 노드에 ssh를 시도합니다.
다운된 노드에 로컬로 연결 설정
누군가 현장에 있고 직렬 포트 또는 USB-직렬 어댑터가 있는 컴퓨터와 널 모뎀 케이블 또는 널 모뎀 어댑터가 있는 직렬 케이블을 사용하는 경우. 문제 해결을 위해 노드에 직접 연결할 수 있습니다. 노드의 직렬 포트에 연결하는 방법에 대한 자세한 내용은 PowerScale에서 확인할 수 있습니다. 원격 연결이 불가능한 경우 고객이 직렬 포트에 연결하는 단계