Data Domain:高可用性 (HA) 系统的操作系统升级指南
摘要: Data Domain“高可用性”(DDHA) 设备上的 Data Domain 操作系统 (DDOS) 升级过程概述。
说明
为了减少计划内维护停机时间,HA 体系结构中引入了系统滚动升级功能。滚动升级可以先升级备用节点,然后使用预期的 HA 故障切换将服务从 活动节点移至备用节点。最终,先前的活动节点将进行升级,然后作为备用节点重新加入 HA 群集。所有过程都在一个命令中完成。
一种替代的手动升级方法是“本地升级”。先手动升级备用节点,然后手动升级活动节点。 备用节点最终将重新加入 HA 群集。定期升级或修复问题都可以执行本地升级。
活动节点上的所有系统升级操作都需要数据转换,除非两个 系统都升级到相同级别并且 HA 状态完全恢复,否则可能无法启动。
DDOS 5.7 及更高版本支持两种 HA 系统的升级方法:
-
滚动升级—使用一个命令自动升级两个 HA 节点。升级后,服务将移至另一个节点。
-
本地升级—逐个手动升级 HA 节点。升级后,服务保留在同一节点中。
准备系统以进行升级:
-
请确保 HA 系统的状态为“高可用性”。
登录 GUI à Home à Dashboard
- DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
登录 GUI à Home à Dashboard
- 将 RPM 文件上传到活动节点
上传后,将列出 RPM 文件。
- 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载 不会影响客户端备份/还原操作。
依据需求,这些服务可以在升级完成后, 通过 相应的 启用 命令恢复。有关更多详细信息,请参阅管理指南。
管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被 建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。
- 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将使活动节点重新启动。
首先,关闭 GC、数据移动和复制,以便为故障切换做好准备。请参阅管理指南通过 GUI 了解如何执行此操作。客户端备份/还原工作负载不会受到这些影响。然后,继续执行“ha failover”。

(当 HA 系统状态变为“高度可用”时,请执行第二个“ha failover”,然后等待两个节点变为在线状态)
HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。
- 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
- 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
上述命令期间的 DDF 可用性:
-
将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。
-
在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。
-
DAE 固件升级是一个重要因素。停机时间可能会增加~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。
-
有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。
-
请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。
故障切换后,将升级以前的活动节点。 升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。
验证:
- 滚动升级完成后,需要通过预备用节点的 IP 地址登录 GUI。在本例中,它是 node1。
- 检查是否有任何意外警报。
- 此时,滚动升级已成功完成。
通过 CLI 滚动升级:
准备系统以进行升级:
- 请确保 HA 系统的状态为“高可用性”。
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- 将 RPM 文件上传到活动节点
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载不会影响客户端备份/还原操作。依据需求,升级完成后,可使用相应的启用命令恢复这些服务。有关更多详细信息,请参阅管理指南。
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
请注意,有几个“watch”命令可用于检查上述操作是否已完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。
- 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将重新启动活动节点。
首先,禁用 GC、数据移动和复制,以便为故障切换做好准备。客户端备份/还原工作负载不会受到这些影响。然后运行“ha failover”。
执行此操作的命令如下所示:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
请注意,有几个“watch”命令可用于检查上述操作是否已完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
之后运行故障转移命令:
Active-node # ha failover此操作将从此节点启动故障切换。本地节点将重新启动。
Do you want to proceed? (yes|no) [no]: yes
Failover operation initiated. 请运行 'ha status' 命令来监控状态
(当 HA 系统状态再次变为“高度可用”时,请执行第二次 'ha failover' 命令,并等待两个节点都上线)。
HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。
- 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
Active-node # system upgrade start <rpm file> “system upgrade”命令可升级 Data Domain OS。 文件访问
在升级期间中断。
升级后,系统会自动重新启动。
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
上述命令期间的 DDF 可用性:
-
将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。
-
在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。
-
DAE 固件升级是一个重要因素。停机时间可能会增加 ~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。
-
有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。
-
-
故障切换后,将升级以前的活动节点。 升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。
- 待机节点 (node1) 重新启动并变为可访问后,可以登录备用节点以监视升级状态/进度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 请检查 HA 状态,两个节点均处于联机状态,HA 系统状态为“高可用性”。
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
验证:
- 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
- 此时,滚动升级已成功完成。
提醒:如果您遇到了任何与升级相关的问题,请联系 Data Domain 支持人员以获取进一步说明和支持。
DDHA 对的本地升级:
本地升级的功能大致如下:
准备系统以进行升级:
- 检查 HA 系统状态。即使处于降级状态,本地升级在这种情况下仍然有效。
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPM 文件应放置在两个节点上,并且升级应从备用节点开始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- 将 RPM 文件上传到两个节点。
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- 如果 HA 状态为“高可用性”,请在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
HA 状态为“降级”,则需要在两个节点上进行预先检查。
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- 使备用节点离线。
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(提醒:脱机操作失败或 ha 状态已降级,请继续本地升级 后续步骤可能会处理故障。)
- 确保备用节点状态为离线。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在备用节点上执行升级。此操作将调用备用节点重新启动。
The 'system upgrade' command upgrades the Data Domain OS. 文件访问
在升级期间中断。
升级后,系统会自动重新启动。
Are you sure? (yes|no) [no]: yes
ok, proceeding.
“Local”标记会对 HA 系统造成高度干扰,应仅用作 修复操作。
Are you sure? (yes|no) [no]: yes
ok, proceeding.
正在升级:
1 号节点:第 3/4 阶段(重启 0%)
升级已开始。 系统将重新启动。
- 备用节点将重新启动到新版本的 DDOS,但保持离线状态。
- 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 请检查 HA 系统状态,备用节点(本例中为节点 1)已离线,HA 状态为“降级”。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在活动节点上执行本地升级。此操作将重新启动活动节点。
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 活动节点升级完成后,HA 系统状态仍处于降级状态。执行以下命令以使备用节点上线,它将重新启动备用节点。
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(提醒:在之前的步骤中未运行“ha offline”,请忽略此 步骤)
- 备用节点将重新启动并重新加入群集。之后,HA 状态将再次变为“高度可用”。
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
验证:
- 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
- 该滚动升级在此时已经成功完成。
其他信息
滚动升级:
-
请注意,在升级过程中仅执行一次故障转移,因此角色将互换。
-
infra.log 中将继续保留升级信息,但 ha.log 中可能会提供其他信息
-
通过系统升级监视器,您可以实时监控升级进度。
本地节点升级:
-
本地节点升级不会执行 HA 故障切换
-
因此,在活动节点升级、重新启动或执行重新启动后的升级活动期间,将会有一段较长的停机时间,这很可能会导致备份/还原超时并失败。需要为本地升级分配维护时间窗口。
-
甚至当 HA 系统状态为“降级”时,也可以继续进行本地升级。
-
由于某些原因,滚动升级可能会意外失败。本地升级可视为这种情况下的修复方法。