Data Domain:高可用性 (HA) 系统的操作系统升级指南

摘要: Data Domain“高可用性”(DDHA) 设备上的 Data Domain 操作系统 (DDOS) 升级过程概述。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

HA 系统计划内维护

为了减少计划内维护停机时间,HA 体系结构中引入了系统滚动升级功能。滚动升级可以先升级备用节点,然后使用预期的 HA 故障切换将服务从 活动节点移至备用节点。最终,先前的活动节点将进行升级,然后作为备用节点重新加入 HA 群集。所有过程都在一个命令中完成。
一种替代的手动升级方法是“本地升级”。先手动升级备用节点,然后手动升级活动节点。  备用节点最终将重新加入 HA 群集。定期升级或修复问题都可以执行本地升级。
活动节点上的所有系统升级操作都需要数据转换,除非两个 系统都升级到相同级别并且 HA 状态完全恢复,否则可能无法启动。


DDOS 5.7 及更高版本支持两种 HA 系统的升级方法:
  • 滚动升级—使用一个命令自动升级两个 HA 节点。升级后,服务将移至另一个节点。

  • 本地升级—逐个手动升级 HA 节点。升级后,服务保留在同一节点中。

 

通过 GUI 滚动升级:

准备系统以进行升级:

  1. 请确保 HA 系统的状态为“高可用性”。

 登录 GUI à Home à Dashboard

控制面板页面
  1. DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
— 如何查找活动节点:
  登录 GUI à Home à Dashboard

控制面板页面               
 
  1. 将 RPM 文件上传到活动节点
登录 GUI à Maintenance à System à 单击“UPLOAD UPGRADE PACKAGE”按钮

 维护页面 
上传后,将列出 RPM 文件。
 
  1. 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
登录 GUI à Maintenance à System à 单击该升级 RPM 文件 à 单击“UPGRADE PRECHECK”

 系统页面 
 

         此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载 不会影响客户端备份/还原操作。

         依据需求,这些服务可以在升级完成后, 通过  相应的 启用 命令恢复。有关更多详细信息,请参阅管理指南。

         管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被 建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。

  1. 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将使活动节点重新启动。

   
              首先,关闭 GC、数据移动和复制,以便为故障切换做好准备。请参阅管理指南通过 GUI 了解如何执行此操作。客户端备份/还原工作负载不会受到这些影响。然后,继续执行“ha failover”。
 

登录 GUI à Health à High Availability à 单击“Failover to XXX”


(当 HA 系统状态变为“高度可用”时,请执行第二个“ha failover”,然后等待两个节点变为在线状态)

 

HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。

上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。

 

      升级分步过程
  1. 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
登录 GUI à Maintenance à System à 单击该升级 RPM 文件 à 单击“PERFORM SYSTEM UPGRADE”
 
 系统页面
  1. 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。

上述命令期间的 DDF 可用性:

  1. 将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。

  2. 在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。

    1. DAE 固件升级是一个重要因素。停机时间可能会增加~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。

    2. 有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。 

请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。

故障切换后,将升级以前的活动节点。  升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。


     验证:
  1. 滚动升级完成后,需要通过预备用节点的 IP 地址登录 GUI。在本例中,它是 node1。
登录 GUI à Maintenance à System à 检查升级历史记录
 系统页面
  1. 检查是否有任何意外警报。
登录 GUI à Dashboard à Alerts
  1. 此时,滚动升级已成功完成。

通过 CLI 滚动升级:
      准备系统以进行升级:
  1. 请确保 HA 系统的状态为“高可用性”。
#ha status
     
     HA System name:       HA-system   

     HA System status:     highly available         ç
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------
  1. DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
— 如何查找活动节点:
 
#ha status

 
      HA System name:       HA-system   
      HA System status:     highly available
      Node Name                       Node id   Role      HA State
      -----------------------------   -------   -------   --------
      Node0   0         active    online    ß Node0 is active node
      Node1   1         standby   online
      -----------------------------   -------   -------   --------
  1. 将 RPM 文件上传到活动节点
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
            在命令“scp”完成后,检查系统软件包信息
     Active-node # system package list

     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----  -------         
  1. 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>

     Upgrade precheck in progress:
     Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
     Upgrade precheck found no issues.

     此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载不会影响客户端备份/还原操作。依据需求,升级完成后,可使用相应的启用命令恢复这些服务。有关更多详细信息,请参阅管理指南。
      
Active-node # filesys clean stop
   Active-node # cloud clean stop
   Active-node # data-movement suspend
   Active-node # data-movement stop to-tier active
   Active-node # replication disable all

       

     请注意,有几个“watch”命令可用于检查上述操作是否已完成。
      Active-node # filesys clean watch 
   Active-node # cloud clean watch
   Active-node # data-movement watch


      管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。

  1. 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将重新启动活动节点。

        首先,禁用 GC、数据移动和复制,以便为故障切换做好准备。客户端备份/还原工作负载不会受到这些影响。然后运行“ha failover”。

       执行此操作的命令如下所示:
          
Active-node # filesys clean stop
     Active-node # cloud clean stop
     Active-node # data-movement suspend
     Active-node # data-movement stop to-tier active
     Active-node # replication disable all

        请注意,有几个“watch”命令可用于检查上述操作是否已完成。
          
Active-node # filesys clean watch 
     Active-node # cloud clean watch
     Active-node # data-movement watch

        之后运行故障转移命令:

Active-node # ha failover
          此操作将从此节点启动故障切换。本地节点将重新启动。
      Do you want to proceed? (yes|no) [no]: yes
    Failover operation initiated. 请运行 'ha status' 命令来监控状态

(当 HA 系统状态再次变为“高度可用”时,请执行第二次 'ha failover' 命令,并等待两个节点都上线)。

HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。 

  

      升级分步过程      
  1. 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
             Active-node # system upgrade start <rpm file>

      “system upgrade”命令可升级 Data Domain OS。  文件访问
   在升级期间中断。 
   升级后,系统会自动重新启动。
              Are you sure? (yes|no) [no]: yes
      ok, proceeding.
      Upgrade in progress:
      Node   Severity   Issue                           Solution
      ----   --------   ------------------------------  --------
      0      WARNING    1 component precheck
         script(s) failed to complete
      0      INFO       Upgrade time est: 60 mins
      1      WARNING    1 component precheck
          script(s) failed to complete
      1      INFO       Upgrade time est: 80 mins
      ----   --------   ------------------------------  --------
      Node 0: phase 2/4 (Install    0%) , Node 1: phase 1/4 (Precheck 100%)
      Upgrade phase status legend:
      DU : Data Upgrade
      FO : Failover
      ..               
      PC : Peer Confirmation
      VA : Volume Assembly

      Node 0: phase 3/4 (Reboot     0%) , Node 1: phase 4/4 (Finalize   5%) FO
      Upgrade has started.  System will reboot.   

        

       上述命令期间的 DDF 可用性:

  1. 将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。

  2. 在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。

    1. DAE 固件升级是一个重要因素。停机时间可能会增加 ~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。

    2. 有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。 

  1. 故障切换后,将升级以前的活动节点。  升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。

请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。
  1. 待机节点 (node1) 重新启动并变为可访问后,可以登录备用节点以监视升级状态/进度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot     0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
  1. 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
  1. 请检查 HA 状态,两个节点均处于联机状态,HA 系统状态为“高可用性”。
Node1 # ha status detailed
HA System name:               HA-system
HA System Status:             highly available
Interconnect Status:          ok
Primary Heartbeat Status:      ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check:       ok
Node  Node1:
      Role:          active
      HA State:      online
      Node Health: ok
Node Node0:
      Role:          standby
      HA State:      online
      Node Health: ok
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------
            

     验证:
  1. 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version                  
Data Domain OS x.x.x.x-12345
  1. 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
  1. 此时,滚动升级已成功完成。 

提醒:如果您遇到了任何与升级相关的问题,请联系 Data Domain 支持人员以获取进一步说明和支持。


DDHA 对的本地升级:
本地升级的功能大致如下:

      准备系统以进行升级:

  1. 检查 HA 系统状态。即使处于降级状态,本地升级在这种情况下仍然有效。

     #ha status
     HA System name:       HA-system   
     HA System status:     highly available   <-      
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------

  1. DDOS RPM 文件应放置在两个节点上,并且升级应从备用节点开始。
- 如何查找备用节点:
#ha status
HA System name:       HA-system   
HA System status:     highly available
Node Name                       Node id   Role      HA State
-----------------------------   -------   -------   --------
Node0   0         active    online   
Node1   1         standby   online   <- Node1 is standby node
-----------------------------   -------   -------   --------
  1. 将 RPM 文件上传到两个节点。
       Client-server # scp <rpm file> sysadmin@HA-  system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
 
            命令“scp”完成后,检查系统软件包信息
     Active-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ---------- -----   ------       
     Standby-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----   ------
  1. 如果 HA 状态为“高可用性”,请在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
            Active-node # system upgrade precheck <rpm file>

      Upgrade precheck in progress:
      Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

            HA 状态为“降级”,则需要在两个节点上进行预先检查。

            Active-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 0: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

      Standby-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.    
      
     升级分步过程   
     
  1. 使备用节点离线。
            Standby-node # ha offline
      This operation will cause the ha system to no longer be highly  available.
      Do you want to proceed? (yes|no) [no]: yes
      Standby node is now offline.

           (提醒:脱机操作失败或 ha 状态已降级,请继续本地升级         后续步骤可能会处理故障。)
  1. 确保备用节点状态为离线。
       Standby-node # ha status
    HA System name:       HA-system
    HA System status:     degraded
    Node Name                       Node id   Role      HA State
    -----------------------------   -------   -------   --------
    Node1   1         standby   offline
    Node0   0         active    degraded
    -----------------------------   -------   -------   --------
    1. 在备用节点上执行升级。此操作将调用备用节点重新启动。
             Standby-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  文件访问
      在升级期间中断。 
      升级后,系统会自动重新启动。
                Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        “Local”标记会对 HA 系统造成高度干扰,应仅用作 修复操作。
    Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        正在升级:
        1 号节点:第 3/4 阶段(重启    0%)
      升级已开始。 系统将重新启动。
    1. 备用节点将重新启动到新版本的 DDOS,但保持离线状态。
    2. 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
                 Standby-node # system upgrade status
          Current Upgrade Status: DD OS upgrade Succeeded
          End time: 20xx.xx.xx:xx:xx
    1. 请检查 HA 系统状态,备用节点(本例中为节点 1)已离线,HA 状态为“降级”。
                 Standby-node # ha status
          HA System name:       HA-system
          HA System status:     degraded
          Node Name                       Node id   Role      HA State
          -----------------------------   -------   -------   --------
          Node1   1         standby   offline
          Node0   0         active    degraded
          -----------------------------   -------   -------   --------
    1. 在活动节点上执行本地升级。此操作将重新启动活动节点。
            Active-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  File access
        is interrupted during the upgrade.  The system reboots automatically
        after the upgrade.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        The 'local' flag is highly disruptive to HA systems and should be used        only as a repair operation.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        Upgrade in progress:
        Node   Severity   Issue                           Solution
        ----   --------   ------------------------------  --------
        0      WARNING    1 component precheck
                 script(s) failed to complete
        0      INFO       Upgrade time est: 60 mins
        ----   --------   ------------------------------  --------
        Node 0: phase 3/4 (Reboot     0%)
        Upgrade has started.  System will reboot.
    1. 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
             Active-node # system upgrade status
        Current Upgrade Status: DD OS upgrade Succeeded
        End time: 20xx.xx.xx:xx:xx
    1. 活动节点升级完成后,HA 系统状态仍处于降级状态。执行以下命令以使备用节点上线,它将重新启动备用节点。
             Standby-node # ha online
        The operation will reboot this node.
            Do you want to proceed? (yes|no) [no]: yes
        Broadcast message from root (Wed Oct 14 22:38:53 2020):
        The system is going down for reboot NOW!
        **** Error communicating with management service.
        (提醒:在之前的步骤中未运行“ha offline”,请忽略此    步骤)
    1. 备用节点将重新启动并重新加入群集。之后,HA 状态将再次变为“高度可用”。
              Active-node # ha status detailed
         HA System name:               Ha-system
         HA System Status:             highly available
         Interconnect Status:          ok
         Primary Heartbeat Status:      ok
         External LAN Heartbeat Status: ok
         Hardware compatibility check: ok
         Software Version Check:       ok
         Node node0:
                   Role:          active
                   HA State:      online
                   Node Health: ok
         Node node1:
                   Role:          standby
                   HA State:      online
                   Node Health: ok
         Mirroring Status:
         Component Name   Status
         --------------   ------
         nvram            ok
         registry         ok
         sms              ok
         ddboost          ok
         cifs             ok
         --------------   ------

    验证:
    1. 请检查两个节点是否具有相同的 DDOS 版本。
           Node1 # system show version
       Data Domain OS x.x.x.x-12345
       Node0 # system show version                  
       Data Domain OS x.x.x.x-12345
    1. 检查是否有任何意外警报。
           Node1 # alert show current
       Node0 # alert show current
    1. 该滚动升级在此时已经成功完成。
               
    提醒:升级时,如果您遇到任何问题,请联系 Data Domain 支持以获取进一步说明和支持。

    其他信息

    滚动升级:

    • 请注意,在升级过程中仅执行一次故障转移,因此角色将互换。

    • infra.log 中将继续保留升级信息,但 ha.log 中可能会提供其他信息

    • 通过系统升级监视器,您可以实时监控升级进度。 

    本地节点升级:

    • 本地节点升级不会执行 HA 故障切换

    • 因此,在活动节点升级、重新启动或执行重新启动后的升级活动期间,将会有一段较长的停机时间,这很可能会导致备份/还原超时并失败。需要为本地升级分配维护时间窗口。

    • 甚至当 HA 系统状态为“降级”时,也可以继续进行本地升级。

    • 由于某些原因,滚动升级可能会意外失败。本地升级可视为这种情况下的修复方法。

       

    受影响的产品

    Data Domain

    产品

    Data Domain, DD OS
    文章属性
    文章编号: 000009653
    文章类型: How To
    上次修改时间: 07 10月 2025
    版本:  8
    从其他戴尔用户那里查找问题的答案
    支持服务
    检查您的设备是否在支持服务涵盖的范围内。