Data Domain:高可用性 (HA) 系统的操作系统升级指南
摘要: Data Domain“高可用性”(DDHA) 设备上的 Data Domain 操作系统 (DDOS) 升级过程概述。
说明
HA 系统计划内维护
为了减少计划内维护停机时间,HA 体系结构中引入了系统滚动升级功能。滚动升级可以先升级备用节点,然后使用预期的 HA 故障切换将服务从 活动节点移至备用节点。最终,先前的活动节点将进行升级,然后作为备用节点重新加入 HA 群集。所有过程都在一个命令中完成。
一种替代的手动升级方法是“本地升级”。先手动升级备用节点,然后手动升级活动节点。 备用节点最终将重新加入 HA 群集。对于常规升级或修复问题,可以执行本地升级。
活动节点上需要数据转换的所有系统升级作在两个系统都升级到相同级别且 HA 状态完全还原之前可能不会开始。
在继续执行此过程之前,应检查此 KB:
PowerProtect Data Domain:DDHA 升级预检查
DDOS 5.7 及更高版本支持两种 HA 系统的升级方法:
-
滚动升级—使用一个命令自动升级两个 HA 节点。升级后,服务将移至另一个节点。
-
本地升级—逐个手动升级 HA 节点。升级后,服务保留在同一节点中。
准备系统以进行升级:
-
请确保 HA 系统的状态为“高可用性”。
登录 GUI -> 主页 -> 仪表板
- DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
登录 GUI -> 主页 -> 仪表板
- 将 RPM 文件上传到活动节点
上传后,将列出 RPM 文件。
- 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
在开始升级(步骤 #6)之前,还请关闭文件清理、数据移动和复制,以便这些作业不会导致升级期间 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载 不会影响客户端备份/还原操作。
根据需要,可以在升级完成后使用相应的启用命令恢复这些服务 。有关更多详细信息,请参阅管理指南。
管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被 建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。
- 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将重新启动活动节点。
首先,通过关闭清理、数据移动和复制为故障切换做好准备。请参阅管理指南通过 GUI 了解如何执行此操作。客户端备份/还原工作负载不会受到这些影响。然后,继续执行“ha failover”。

(当 HA 系统状态再次变为“高度可用”时,请执行第二个“高可用性故障切换”并等待两个节点都联机)
在 HA 故障切换之后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。
- 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
- 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
上述命令期间的 DDF 可用性:
-
将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。在此期间,DDFS 服务会在活动节点上启动并运行,而不会出现任何性能降级
-
在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。
-
一个重要因素是磁盘存储模块 (DAE) 固件升级。停机时间可能会增加 ~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。
-
有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。
-
请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。
故障切换后,将升级以前的活动节点。 升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。在此过程中,DDFS 服务不会受到影响,因为它已在上面恢复。
验证:
- 滚动升级完成后,需要通过预备节点(在本例中为节点 1)的 IP 地址登录 GUI。
- 检查是否有任何意外警报。
- 此时,滚动升级已成功完成。
通过 CLI 滚动升级:
准备系统以进行升级:
- 请确保 HA 系统的状态为“高可用性”。
#ha status
HA System name: HA-system
HA System status: highly available <-
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- 将 RPM 文件上传到活动节点
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
You might need the -O option to get scp to work
Active-node # system package list
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载不会影响客户端备份/还原操作。根据需要,可以在升级完成后使用相应的启用命令恢复这些服务。有关更多详细信息,请参阅管理指南。 Active-node # filesys clean stop Active-node # cloud clean stop Active-node # replication disable all
请注意,有几个“watch”命令可用于检查上述操作是否已完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。
- 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将重新启动活动节点。
首先,禁用 GC、数据移动和复制,以便为故障切换做好准备。客户端备份/还原工作负载不会受到这些影响。然后运行“ha failover”。
执行此操作的命令如下所示:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # replication disable all
请注意,有几个“watch”命令可用于检查上述操作是否已完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
然后运行故障切换命令:
Active-node # ha failover此操作将从此节点启动故障切换。本地节点将重新启动。
Do you want to proceed? (yes|no) [no]: yes
Failover operation initiated.请运行 'ha status' 命令来监控状态
(当 HA 系统状态再次变为“高度可用”时,请执行第二次 'ha failover' 命令,并等待两个节点都上线)。
在 HA 故障切换之后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。
- 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
Active-node # system upgrade start <rpm file> “system upgrade”命令可升级 Data Domain OS。 文件访问
在升级期间中断。
升级后,系统会自动重新启动。
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
上述命令期间的 DDF 可用性:
-
将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。
-
在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。
-
一个重要因素是磁盘存储模块 (DAE) 固件升级。停机时间可能会增加 ~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。
-
有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。
-
-
故障切换后,将升级以前的活动节点。 升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。在此过程中,DDFS 服务不会受到影响,因为它已在上面恢复。
- 备用节点 (node1) 重新启动并可访问后,可以登录到备用节点以监视升级状态/进度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 请检查 HA 状态,两个节点均处于联机状态,HA 系统状态为“高可用性”。
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
验证:
- 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
- 此时,滚动升级已成功完成。
提醒:如果您在升级过程中遇到任何问题,请联系 Data Domain 支持以获取进一步的说明和支持。
DDHA 对的本地升级:
本地升级的功能大致如下:
准备系统以进行升级:
- 检查 HA 系统状态。即使处于降级状态,本地升级在这种情况下仍然有效。
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPM 文件应放置在两个节点上,并且升级应从备用节点开始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- 将 RPM 文件上传到两个节点。
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
You might need the -O option to get scp to work
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- 如果 HA 状态为“高可用性”,请在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
If HA status is "degraded", need do precheck on both nodes.
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- 使备用节点离线。
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(提醒:如果离线作失败或 HA 状态已降级,请继续本地升级,因为后续步骤可能会处理故障。)
- 确保备用节点状态为离线。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在备用节点上执行升级。此操作将调用备用节点重新启动。
The 'system upgrade' command upgrades the Data Domain OS. 文件访问
在升级期间中断。
升级后,系统会自动重新启动。
Are you sure? (yes|no) [no]: yes
ok, proceeding.
“Local”标记会对 HA 系统造成高度干扰,应仅用作 修复操作。
Are you sure? (yes|no) [no]: yes
ok, proceeding.
正在升级:
1 号节点:第 3/4 阶段(重启 0%)
升级已开始。 系统将重新启动。
- 备用节点将重新启动到新版本的 DDOS,但保持离线状态。
- 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 请检查 HA 系统状态,备用节点(本例中为节点 1)已离线,HA 状态为“降级”。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在活动节点上执行本地升级。此操作将重新启动活动节点。
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 活动节点升级完成后,HA 系统状态仍处于降级状态。执行以下命令以使备用节点上线,它将重新启动备用节点。
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(提醒:在之前的步骤中未运行“ha offline”,请忽略此 步骤)
- 备用节点将重新启动并重新加入群集。之后,HA 状态将再次变为“高度可用”。
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
验证:
- 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
- 此时,滚动升级已成功完成。
其他信息
滚动升级:
-
请注意,在升级过程中仅执行一次故障转移,因此角色将互换。
-
infra.log 中将继续保留升级信息,但 ha.log 中可能会提供其他信息
-
通过系统升级监视器,您可以实时监控升级进度。
本地节点升级:
-
本地节点升级不会执行 HA 故障切换
-
因此,在活动节点升级、重新启动或执行重新启动后的升级活动期间,将会有一段较长的停机时间,这很可能会导致备份/还原超时并失败。需要为本地升级分配维护时间窗口。
-
甚至当 HA 系统状态为“降级”时,也可以继续进行本地升级。
-
由于某些原因,滚动升级可能会意外失败。本地升级可视为这种情况下的修复方法。