Data Domain HA (DDHA) 设备的运行状况检查
Summary: 本文旨在提供有关在发生服务事件后执行基本 HA 系统运行状况检查的指导。Data Domain 高可用性 (DDHA) 配置因所使用的 Data Domain 型号而异。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain 高可用性系统 (DDHA) 设计为在节点之间进行故障切换。 只有活动节点处于生产状态,备用节点等待在发生故障事件时取代活动节点(主动 - 被动)。
必须检查两个 DDHA 节点是否都处于工作状态,并在发生故障时完成故障切换。
本文中详述的 CLI 命令可帮助发现可能阻止成功故障切换的问题。
本指南按照应检查的关键领域进行划分。
# net show settings
根据运行 #net show settings 命令的节点,网络端口设置会有所不同。DDHA 系统上配置的端口的类型为“floating”或“fixed”。 在两个节点上运行
活动节点:
验证网络连接。
查看每个节点上列出的 IP,并确保活动节点和备用节点上配置的每个 IP 地址都可以 ping 通其配置的网关。
提醒:某些客户在其环境中禁用了 ping (ICMP)。 在这种情况下,请与客户联系以确认连接。
(active:1)# net route show gateway detailed
使用每个配置的 ethxx 对网关 IP 地址执行 ping 操作。
# net troubleshooting duplicate-ip
从两个节点检查是否存在重复的 IP
光纤通道测试
验证这些功能是否已获得许可,然后测试这些功能以验证它们是否可以完全正常工作(例如:运行到 VTL 的测试备份操作)
活动和备用节点的自动支持和警报测试
如果使用 CONNECTEMC (Secure Remote Services) 将 ASUPS 转发到 Data Domain,请使用以下命令验证两个节点上的连接。
时间戳指示上次建立连接的时间。
HA 文件系统故障处理
# filesys status
验证 FS 是否已启用并正在运行。此外,还会显示清理状态。
(active:1)# (standby:0)# system upgrade status
在两个节点上,验证所有升级都已完成。
(active:1)# (standby:0)#Date
确保两个节点上的时间和日期在 10 秒内匹配
从活动节点中,向客户验证 DD 复制(如果已配置)是否按预期运行。
必须检查两个 DDHA 节点是否都处于工作状态,并在发生故障时完成故障切换。
本文中详述的 CLI 命令可帮助发现可能阻止成功故障切换的问题。
本指南按照应检查的关键领域进行划分。
- HA 硬件和配置
- 网络
- 文件系统
# net show settings
根据运行 #net show settings 命令的节点,网络端口设置会有所不同。DDHA 系统上配置的端口的类型为“floating”或“fixed”。 在两个节点上运行
"net show settings"并比较输出。
- “floating”端口: 验证在活动节点上显示已启用并正在运行状态的任何已配置网卡 (NIC) 端口、别名或 veth,在备用节点上具有相同的已启用并正在运行状态。 任何设置为浮动类型的已配置 NIC 端口、别名或 veth 都应该在活动节点上显示 IP 地址,并在备用节点上显示相应的 N/A。
- “fixed”端口:验证任何标记为“fixed”的已配置 NIC 端口、别名或网络是否显示已启用并正在运行状态。“fixed”接口在节点之间配置不相同
- 验证是否显示 HA 互连 (veth99),以及所有必需的端口都已启用并正在运行提醒: HA 互连 (veth99) 所需的端口连接数和插槽位置特定于 DD 型号
活动节点:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------备用节点:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
验证网络连接。
查看每个节点上列出的 IP,并确保活动节点和备用节点上配置的每个 IP 地址都可以 ping 通其配置的网关。
提醒:某些客户在其环境中禁用了 ping (ICMP)。 在这种情况下,请与客户联系以确认连接。
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
使用每个配置的 ethxx 对网关 IP 地址执行 ping 操作。
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
从两个节点检查是否存在重复的 IP
No duplicate IP addresses detected
光纤通道测试
验证这些功能是否已获得许可,然后测试这些功能以验证它们是否可以完全正常工作(例如:运行到 VTL 的测试备份操作)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
活动和备用节点的自动支持和警报测试
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
如果使用 CONNECTEMC (Secure Remote Services) 将 ASUPS 转发到 Data Domain,请使用以下命令验证两个节点上的连接。
时间戳指示上次建立连接的时间。
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
HA 文件系统故障处理
# filesys status
验证 FS 是否已启用并正在运行。此外,还会显示清理状态。
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
在两个节点上,验证所有升级都已完成。
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
确保两个节点上的时间和日期在 10 秒内匹配
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
从活动节点中,向客户验证 DD 复制(如果已配置)是否按预期运行。
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA 硬件和配置
在活动节点和备用节点上,检查是否存在指向潜在问题的活动警报。警报并不总是在节点之间共享,因此请检查两个节点。 如果遇到意外问题,请提交支持案例。始终从两个节点生成支持包。
提醒。 大多数警报仅在其中一个节点上显示。并非每个警报都在节点之间共享。
如果状态为“highly available”,则表示已启用故障切换。
如果状态为“degraded”,或者其中一个节点未显示“online”状态,则表示节点之间的故障切换被禁用。
# ha status detailed
仅在活动节点上的命令 #ha status detailed 可用于显示有关 HA 状态的更详细信息。
任何在 Mirroring Status 部分下显示“not ok”的以下输出指示功能不正常的组件,并且 HA 系统状态显示为“degraded”。
任何降级状态都会阻止节点之间的故障切换。
提醒:此命令在备用节点上不可用。
# enclosure show io-cards
验证两个节点具有一致的受支持配置。
# enclosure show misconfiguration
从活动节点和备用节点执行错误配置测试,以检查硬件配置是否存在任何问题。
请参考知识库文章 https://www.dell.com/support/kbdoc/en-us/463399
示例:
# enclosure show topology
检查两个节点的拓扑。
查找连接点之间是否有任何错误,并确保所有盘架编号正确无误。
# enclosure test topology all duration 1
在活动节点和备用节点上,对连接了外部存储的所有 SAS HBA 端口执行 1 分钟的诊断测试。
请勿同时在两个节点上执行拓扑测试。
预期结果是连接存储的每个端口上均未检测到错误。
如果发现问题,测试可能会停止,并显示一条失败消息,指示 SAS 连接出现故障,或者可能在特定的连接上显示错误(? 、! )。
提醒:在拓扑测试期间,各个端口具有单独的输出,指示状态。查找错误(? 、! )以找到问题连接。 在每个端口测试完成之前,不会显示 CLI 输出。
# system show nvram
在活动节点和备用节点上,确保 Nvram 电池已充电或正在充电;并且所有 nvram 错误计数器都显示值为零。
# alerts show current
在活动节点和备用节点上,检查是否存在指向潜在问题的活动警报。警报并不总是在节点之间共享,因此请检查两个节点。 如果遇到意外问题,请提交支持案例。始终从两个节点生成支持包。
提醒。 大多数警报仅在其中一个节点上显示。并非每个警报都在节点之间共享。
警报示例:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
活动节点和备用节点上的命令 #ha status 可用于确定当前的 HA 状态。如果状态为“highly available”,则表示已启用故障切换。
如果状态为“degraded”,或者其中一个节点未显示“online”状态,则表示节点之间的故障切换被禁用。
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
仅在活动节点上的命令 #ha status detailed 可用于显示有关 HA 状态的更详细信息。
任何在 Mirroring Status 部分下显示“not ok”的以下输出指示功能不正常的组件,并且 HA 系统状态显示为“degraded”。
任何降级状态都会阻止节点之间的故障切换。
提醒:此命令在备用节点上不可用。
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
验证两个节点具有一致的受支持配置。
# enclosure show misconfiguration
从活动节点和备用节点执行错误配置测试,以检查硬件配置是否存在任何问题。
请参考知识库文章 https://www.dell.com/support/kbdoc/en-us/463399
示例:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
检查两个节点的拓扑。
查找连接点之间是否有任何错误,并确保所有盘架编号正确无误。
- 错误和故障通常以“?”“!”或“!!”表示
提醒:每个节点的拓扑输出应相互反转(镜像图像)。
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
在活动节点和备用节点上,对连接了外部存储的所有 SAS HBA 端口执行 1 分钟的诊断测试。
请勿同时在两个节点上执行拓扑测试。
预期结果是连接存储的每个端口上均未检测到错误。
如果发现问题,测试可能会停止,并显示一条失败消息,指示 SAS 连接出现故障,或者可能在特定的连接上显示错误(? 、! )。
提醒:在拓扑测试期间,各个端口具有单独的输出,指示状态。查找错误(? 、! )以找到问题连接。 在每个端口测试完成之前,不会显示 CLI 输出。
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
在活动节点和备用节点上,确保 Nvram 电池已充电或正在充电;并且所有 nvram 错误计数器都显示值为零。
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
如果需要进一步的帮助,请联系您的签约服务提供商。
Additional Information
。
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.