DDHA(Data Domain HA) 어플라이언스에 대한 상태 점검
Summary: 이 문서에서는 서비스 이벤트 후 기본적인 HA 시스템 상태 점검을 수행하기 위한 지침을 제공합니다. DDHA(Data Domain Highly Available) 구성은 사용되는 Data Domain 모델에 따라 다릅니다.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
DDHA(Data Domain Highly Available) 시스템은 노드 간에 페일오버를 실행하도록 설계되었습니다. 활성 노드만 운영 상태이고, 대기 노드는 활성 노드를 대신할 장애 이벤트(ACTIVE - PASSIVE)를 기다리고 있습니다.
두 DDHA 노드가 모두 정상적으로 작동하는지 확인하고 장애가 발생한 경우 페일오버를 완료해야 합니다.
이 문서에 자세히 설명된 CLI 명령은 성공적인 페일오버를 방해할 수 있는 문제를 찾는 데 도움이 됩니다.
이 가이드는 확인해야 할 주요 영역으로 구분되어 있습니다.
# net show settings
네트워크 포트 설정은 #net show settings 명령이 실행되는 노드에 따라 다릅니다. DDHA 시스템에서 구성된 포트에는 "부동" 또는 "고정" 유형이 있습니다. 두 노드에서 다음을 실행하고
활성 노드:
네트워크 연결을 확인합니다.
각 노드에 나열된 IP를 검토하고 활성 노드 및 대기 노드에 구성된 각 IP 주소가 구성된 게이트웨이를 Ping할 수 있는지 확인하십시오.
참고: 일부 고객은 해당 환경에 Ping(ICMP)이 비활성화되어 있습니다. 이 경우 고객에게 연락하여 연결을 확인하십시오.
(active:1)# net route show gateway detailed
구성된 각 ethxx로 게이트웨이 IP 주소를 Ping합니다.
# net troubleshooting duplicate-ip
두 노드에서 중복 IP 여부를 확인합니다.
파이버 채널 테스트
이러한 기능에 라이선스가 부여되었는지 확인한 다음 해당 기능을 테스트하여 완벽하게 작동하는지 확인합니다(예: VTL에 대한 테스트 백업 작업 실행).
활성 및 대기 모두에서 자동 지원 및 알림 테스트
ConnectEMC(Secure Remote Services)를 사용하여 ASUPS를 Data Domain에 전달하는 경우 다음 명령을 사용하여 두 노드에서 연결을 확인합니다.
타임스탬프는 마지막 연결이 설정된 시간을 나타냅니다.
HA 파일 시스템 문제 해결
# filesys status
FS가 활성화되어 있고 실행 중인지 확인합니다. 정리 상태도 표시될 수 있습니다.
(active:1) # (standby:0)# system upgrade status
두 노드에서 모든 업그레이드가 완료되었는지 확인합니다.
(active:1)# (standby:0)#Date
두 노드에서 시간과 날짜가 10초 이내로 일치하는지 확인합니다.
활성 노드에서 DD 복제(구성된 경우)가 예상대로 작동하는지 고객에게 확인합니다.
두 DDHA 노드가 모두 정상적으로 작동하는지 확인하고 장애가 발생한 경우 페일오버를 완료해야 합니다.
이 문서에 자세히 설명된 CLI 명령은 성공적인 페일오버를 방해할 수 있는 문제를 찾는 데 도움이 됩니다.
이 가이드는 확인해야 할 주요 영역으로 구분되어 있습니다.
- HA 하드웨어 및 구성
- 네트워크
- 파일 시스템
# net show settings
네트워크 포트 설정은 #net show settings 명령이 실행되는 노드에 따라 다릅니다. DDHA 시스템에서 구성된 포트에는 "부동" 또는 "고정" 유형이 있습니다. 두 노드에서 다음을 실행하고
"net show settings"출력을 비교하십시오.
- "부동" 인터페이스: 활성 노드에 enabled 및 running 상태로 표시되는 구성된 네트워크 카드(NIC) 포트, 별칭 또는 veth가 대기 노드에서 동일한 enabled 및 running 상태인지 확인합니다. 부동 유형으로 설정된 NIC 포트, 별칭 또는 veth는 활성 노드에 IP 주소가 표시되고 대기 노드에 해당 N/A가 표시되어야 합니다.
- "고정" 인터페이스: "고정"으로 태그가 지정되어 있는 구성된 NIC 포트, 별칭 또는 veth에 "enabled 및 running 상태"가 표시되는지 확인합니다. "고정" 인터페이스에는 노드 간에 동일한 구성이 없습니다.
- HA 상호 연결(veth99)이 표시되고 필요한 모든 포트가 활성화되고 실행 중인지 확인합니다. 참고: HA 상호 연결(veth99)에 필요한 포트 연결 수와 슬롯 위치는 DD 모델에 따라 다릅니다.
활성 노드:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------대기 노드:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
네트워크 연결을 확인합니다.
각 노드에 나열된 IP를 검토하고 활성 노드 및 대기 노드에 구성된 각 IP 주소가 구성된 게이트웨이를 Ping할 수 있는지 확인하십시오.
참고: 일부 고객은 해당 환경에 Ping(ICMP)이 비활성화되어 있습니다. 이 경우 고객에게 연락하여 연결을 확인하십시오.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
구성된 각 ethxx로 게이트웨이 IP 주소를 Ping합니다.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
두 노드에서 중복 IP 여부를 확인합니다.
No duplicate IP addresses detected
파이버 채널 테스트
이러한 기능에 라이선스가 부여되었는지 확인한 다음 해당 기능을 테스트하여 완벽하게 작동하는지 확인합니다(예: VTL에 대한 테스트 백업 작업 실행).
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
활성 및 대기 모두에서 자동 지원 및 알림 테스트
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
ConnectEMC(Secure Remote Services)를 사용하여 ASUPS를 Data Domain에 전달하는 경우 다음 명령을 사용하여 두 노드에서 연결을 확인합니다.
타임스탬프는 마지막 연결이 설정된 시간을 나타냅니다.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
HA 파일 시스템 문제 해결
# filesys status
FS가 활성화되어 있고 실행 중인지 확인합니다. 정리 상태도 표시될 수 있습니다.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1) # (standby:0)# system upgrade status
두 노드에서 모든 업그레이드가 완료되었는지 확인합니다.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
두 노드에서 시간과 날짜가 10초 이내로 일치하는지 확인합니다.
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
활성 노드에서 DD 복제(구성된 경우)가 예상대로 작동하는지 고객에게 확인합니다.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA 하드웨어 및 구성
활성 노드와 대기 노드 모두에서 잠재적 문제를 지적하는 활성 알림이 있는지 확인합니다. 알림이 노드 간에 항상 공유되는 것은 아니므로 두 노드를 모두 확인합니다. 예기치 않은 문제가 발생하면 지원 케이스를 제출합니다. 항상 두 노드 모두에서 지원 번들을 생성합니다.
참고: 대부분의 알림은 노드 중 하나에서만 표시됩니다. 모든 알림이 노드 간에 공유되는 것은 아닙니다.
상태가 'highly available'이면 페일오버가 활성화된 것입니다.
상태가 'degraded'이거나 노드 중 하나에 "online" 상태가 표시되지 않으면 노드 간 페일오버가 비활성화된 것입니다.
# ha status detailed
활성 노드의 #ha status detailed 명령은 HA 상태에 대한 자세한 정보를 확인하기 위해서만 사용할 수 있습니다.
Mirroring Status 섹션에 'not ok'가 표시되는 아래의 모든 출력은 작동하지 않는 구성 요소를 나타내며 HA 시스템 상태는 'degraded'로 표시됩니다.
성능 저하 상태에서는 노드 간 페일오버가 방지됩니다.
참고: 대기 노드에서는 이 명령을 사용할 수 없습니다.
# enclosure show IO-card
두 노드에 지원되는 구성이 동일한지 확인합니다.
# enclosure show misconfiguration
활성 노드 및 대기 노드에서 구성 오류 테스트를 수행하여 하드웨어 구성에 문제가 있는지 확인합니다.
KB https://www.dell.com/support/kbdoc/en-us/463399 참조
예:
# enclosure show topology
양쪽 노드의 토폴로지를 확인합니다.
연결 지점 사이에 오류가 있는지 확인하고 모든 셸프 번호가 올바른지 확인합니다.
# enclosure test topology all duration 1
활성 및 대기 노드 모두에서 외장형 스토리지가 연결된 모든 SAS HBA 포트에 대해 1분 진단 테스트를 수행합니다.
두 노드에서 동시에 토폴로지 테스트를 수행하지 마십시오.
예상되는 결과는 스토리지가 연결된 각 포트에 대해 오류가 감지되지 않는 것입니다.
문제가 발견되면 테스트가 중지되고 결함이 있는 SAS 연결을 나타내는 실패 메시지가 표시되거나 오류(?, ! )가 특정 연결에 표시될 수 있습니다.
참고: 토폴로지 테스트 중 개별 포트에 상태를 나타내는 별도의 출력이 있습니다. 오류(?, ! )를 찾아 문제를 일으키는 연결을 찾아내십시오. 각 포트 테스트가 완료될 때까지 CLI 출력은 표시되지 않습니다.
# system show nvram
활성 및 대기 노드에서 Nvram 배터리가 충전되었거나 충전 중인지 그리고 모든 nvram 오류 카운터에서 값이 0으로 표시되는지 확인합니다.
# alerts show current
활성 노드와 대기 노드 모두에서 잠재적 문제를 지적하는 활성 알림이 있는지 확인합니다. 알림이 노드 간에 항상 공유되는 것은 아니므로 두 노드를 모두 확인합니다. 예기치 않은 문제가 발생하면 지원 케이스를 제출합니다. 항상 두 노드 모두에서 지원 번들을 생성합니다.
참고: 대부분의 알림은 노드 중 하나에서만 표시됩니다. 모든 알림이 노드 간에 공유되는 것은 아닙니다.
알림 예:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
활성 노드 및 대기 노드의 #ha state 명령을 사용하여 현재 HA 상태를 확인할 수 있습니다.상태가 'highly available'이면 페일오버가 활성화된 것입니다.
상태가 'degraded'이거나 노드 중 하나에 "online" 상태가 표시되지 않으면 노드 간 페일오버가 비활성화된 것입니다.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
활성 노드의 #ha status detailed 명령은 HA 상태에 대한 자세한 정보를 확인하기 위해서만 사용할 수 있습니다.
Mirroring Status 섹션에 'not ok'가 표시되는 아래의 모든 출력은 작동하지 않는 구성 요소를 나타내며 HA 시스템 상태는 'degraded'로 표시됩니다.
성능 저하 상태에서는 노드 간 페일오버가 방지됩니다.
참고: 대기 노드에서는 이 명령을 사용할 수 없습니다.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show IO-card
두 노드에 지원되는 구성이 동일한지 확인합니다.
# enclosure show misconfiguration
활성 노드 및 대기 노드에서 구성 오류 테스트를 수행하여 하드웨어 구성에 문제가 있는지 확인합니다.
KB https://www.dell.com/support/kbdoc/en-us/463399 참조
예:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
양쪽 노드의 토폴로지를 확인합니다.
연결 지점 사이에 오류가 있는지 확인하고 모든 셸프 번호가 올바른지 확인합니다.
- 오류 및 결함은 '?', '!’ 또는 '!!'로 기호화됩니다.
참고: 각 노드의 토폴로지 출력은 서로 반전(대칭 이미지)되어야 합니다.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
활성 및 대기 노드 모두에서 외장형 스토리지가 연결된 모든 SAS HBA 포트에 대해 1분 진단 테스트를 수행합니다.
두 노드에서 동시에 토폴로지 테스트를 수행하지 마십시오.
예상되는 결과는 스토리지가 연결된 각 포트에 대해 오류가 감지되지 않는 것입니다.
문제가 발견되면 테스트가 중지되고 결함이 있는 SAS 연결을 나타내는 실패 메시지가 표시되거나 오류(?, ! )가 특정 연결에 표시될 수 있습니다.
참고: 토폴로지 테스트 중 개별 포트에 상태를 나타내는 별도의 출력이 있습니다. 오류(?, ! )를 찾아 문제를 일으키는 연결을 찾아내십시오. 각 포트 테스트가 완료될 때까지 CLI 출력은 표시되지 않습니다.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
활성 및 대기 노드에서 Nvram 배터리가 충전되었거나 충전 중인지 그리고 모든 nvram 오류 카운터에서 값이 0으로 표시되는지 확인합니다.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
추가 지원이 필요한 경우 계약된 서비스 공급업체에 문의하십시오.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.