Data Domain:高可用性 (HA) 系统的操作系统升级指南

요약: Data Domain“高可用性”(DDHA) 设备上的 Data Domain 操作系统 (DDOS) 升级过程概述。

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

HA 系统计划内维护

为了减少计划内维护停机时间,HA 体系结构中引入了系统滚动升级功能。滚动升级可以先升级备用节点,然后使用预期的 HA 故障切换将服务从 活动节点移至备用节点。最终,先前的活动节点将进行升级,然后作为备用节点重新加入 HA 群集。所有过程都在一个命令中完成。
一种替代的手动升级方法是“本地升级”。先手动升级备用节点,然后手动升级活动节点。  备用节点最终将重新加入 HA 群集。定期升级或修复问题都可以执行本地升级。
活动节点上的所有系统升级操作都需要数据转换,除非两个 系统都升级到相同级别并且 HA 状态完全恢复,否则可能无法启动。


DDOS 5.7 及更高版本支持两种 HA 系统的升级方法:
  • 滚动升级—使用一个命令自动升级两个 HA 节点。升级后,服务将移至另一个节点。

  • 本地升级—逐个手动升级 HA 节点。升级后,服务保留在同一节点中。

 

通过 GUI 滚动升级:

准备系统以进行升级:

  1. 请确保 HA 系统的状态为“高可用性”。

 登录 GUI à Home à Dashboard

控制面板页面
  1. DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
— 如何查找活动节点:
  登录 GUI à Home à Dashboard

控制面板页面               
 
  1. 将 RPM 文件上传到活动节点
登录 GUI à Maintenance à System à 单击“UPLOAD UPGRADE PACKAGE”按钮

 维护页面 
上传后,将列出 RPM 文件。
 
  1. 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
登录 GUI à Maintenance à System à 单击该升级 RPM 文件 à 单击“UPGRADE PRECHECK”

 系统页面 
 

         此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载 不会影响客户端备份/还原操作。

         依据需求,这些服务可以在升级完成后, 通过  相应的 启用 命令恢复。有关更多详细信息,请参阅管理指南。

         管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被 建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。

  1. 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将使活动节点重新启动。

   
              首先,关闭 GC、数据移动和复制,以便为故障切换做好准备。请参阅管理指南通过 GUI 了解如何执行此操作。客户端备份/还原工作负载不会受到这些影响。然后,继续执行“ha failover”。
 

登录 GUI à Health à High Availability à 单击“Failover to XXX”


(当 HA 系统状态变为“高度可用”时,请执行第二个“ha failover”,然后等待两个节点变为在线状态)

 

HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。

上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。

 

      升级分步过程
  1. 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
登录 GUI à Maintenance à System à 单击该升级 RPM 文件 à 单击“PERFORM SYSTEM UPGRADE”
 
 系统页面
  1. 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。

上述命令期间的 DDF 可用性:

  1. 将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。

  2. 在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。

    1. DAE 固件升级是一个重要因素。停机时间可能会增加~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。

    2. 有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。 

请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。

故障切换后,将升级以前的活动节点。  升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。


     验证:
  1. 滚动升级完成后,需要通过预备用节点的 IP 地址登录 GUI。在本例中,它是 node1。
登录 GUI à Maintenance à System à 检查升级历史记录
 系统页面
  1. 检查是否有任何意外警报。
登录 GUI à Dashboard à Alerts
  1. 此时,滚动升级已成功完成。

通过 CLI 滚动升级:
      准备系统以进行升级:
  1. 请确保 HA 系统的状态为“高可用性”。
#ha status
     
     HA System name:       HA-system   

     HA System status:     highly available         ç
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------
  1. DDOS RPM 文件应放置在活动节点上,并且升级应从此节点开始。
— 如何查找活动节点:
 
#ha status

 
      HA System name:       HA-system   
      HA System status:     highly available
      Node Name                       Node id   Role      HA State
      -----------------------------   -------   -------   --------
      Node0   0         active    online    ß Node0 is active node
      Node1   1         standby   online
      -----------------------------   -------   -------   --------
  1. 将 RPM 文件上传到活动节点
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
            在命令“scp”完成后,检查系统软件包信息
     Active-node # system package list

     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----  -------         
  1. 在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
Active-node # system upgrade precheck <rpm file>

     Upgrade precheck in progress:
     Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
     Upgrade precheck found no issues.

     此外,在开始升级(步骤 6)之前,请关闭 GC、数据移动和复制,以免这些作业在升级期间导致 DDFS 关闭时间延长。缩短 DDFS 关机时间有助于更大限度地减少对客户端的影响。这些工作负载不会影响客户端备份/还原操作。依据需求,升级完成后,可使用相应的启用命令恢复这些服务。有关更多详细信息,请参阅管理指南。
      
Active-node # filesys clean stop
   Active-node # cloud clean stop
   Active-node # data-movement suspend
   Active-node # data-movement stop to-tier active
   Active-node # replication disable all

       

     请注意,有几个“watch”命令可用于检查上述操作是否已完成。
      Active-node # filesys clean watch 
   Active-node # cloud clean watch
   Active-node # data-movement watch


      管理指南中介绍了一些其他手动检查和命令,但它们对于 HA 系统并不是绝对必要的。重新启动前的测试目前被建议用于单节点系统。对于 HA 系统,无需执行此操作,因为下文中的第 5 步“ha failover”本身已包含故障切换过程中的自动重新启动操作。

  1. 可选。在运行滚动升级之前,建议在活动节点上手动执行两次 HA 故障切换。这样做的目的是测试故障切换功能。请注意该操作将重新启动活动节点。

        首先,禁用 GC、数据移动和复制,以便为故障切换做好准备。客户端备份/还原工作负载不会受到这些影响。然后运行“ha failover”。

       执行此操作的命令如下所示:
          
Active-node # filesys clean stop
     Active-node # cloud clean stop
     Active-node # data-movement suspend
     Active-node # data-movement stop to-tier active
     Active-node # replication disable all

        请注意,有几个“watch”命令可用于检查上述操作是否已完成。
          
Active-node # filesys clean watch 
     Active-node # cloud clean watch
     Active-node # data-movement watch

        之后运行故障转移命令:

Active-node # ha failover
          此操作将从此节点启动故障切换。本地节点将重新启动。
      Do you want to proceed? (yes|no) [no]: yes
    Failover operation initiated. 请运行 'ha status' 命令来监控状态

(当 HA 系统状态再次变为“高度可用”时,请执行第二次 'ha failover' 命令,并等待两个节点都上线)。

HA 故障切换后,可以使用相应的启用命令恢复已停止的服务。有关更多详细信息,请参阅管理指南。
上述故障切换测试是可选操作,不必在即将进行升级前执行。故障切换测试可以在升级前提前进行(例如,提前两周),以缩短后续升级所需的维护窗口。每个故障切换的 DDFS 服务停机时间大约为 10 分钟(更短或更长,具体取决于 DDOS 版本和一些其他因素)。得益于持续的 DDOS 软件改进,DDOS 7.4 及更高版本的停机时间将随着每次新版本的发布而减少。 

  

      升级分步过程      
  1. 预检查完成后没有出现任何问题,请在活动节点上继续滚动升级。
             Active-node # system upgrade start <rpm file>

      “system upgrade”命令可升级 Data Domain OS。  文件访问
   在升级期间中断。 
   升级后,系统会自动重新启动。
              Are you sure? (yes|no) [no]: yes
      ok, proceeding.
      Upgrade in progress:
      Node   Severity   Issue                           Solution
      ----   --------   ------------------------------  --------
      0      WARNING    1 component precheck
         script(s) failed to complete
      0      INFO       Upgrade time est: 60 mins
      1      WARNING    1 component precheck
          script(s) failed to complete
      1      INFO       Upgrade time est: 80 mins
      ----   --------   ------------------------------  --------
      Node 0: phase 2/4 (Install    0%) , Node 1: phase 1/4 (Precheck 100%)
      Upgrade phase status legend:
      DU : Data Upgrade
      FO : Failover
      ..               
      PC : Peer Confirmation
      VA : Volume Assembly

      Node 0: phase 3/4 (Reboot     0%) , Node 1: phase 4/4 (Finalize   5%) FO
      Upgrade has started.  System will reboot.   

        

       上述命令期间的 DDF 可用性:

  1. 将先升级备用节点,然后将其重新启动到新版本。大约需要 20 分钟到 30 分钟,具体取决于各种因素。DDFS 服务已启动并在此期间在活动节点上运行,性能不会下降。

  2. 在应用新的 DDOS 后,系统会将 DDFS 服务故障切换到升级后的备用节点。大约需要 10 分钟(更短或更长时间,具体取决于各种因素)。

    1. DAE 固件升级是一个重要因素。停机时间可能会增加 ~20 分钟,具体取决于配置的 DAE 数量。请参阅知识库文章“Data Domain:HA 滚动升级可能会因外部机柜固件升级而失败”,以确定是否需要升级 DAE 固件。请注意,从 DDOS 7.5 开始,系统新增了一项增强功能,支持对 DAE 固件进行在线升级,从而消除了此问题。

    2. 有关升级时间可能受到哪些因素影响的问题,可以联系戴尔支持人员进行咨询。由于客户端操作系统、应用程序和客户端与 HA 系统之间的协议不同,用户可能需要在故障切换后手动恢复客户端工作负载。例如,如果在使用 DDBoost 客户端的情况下,故障切换时间超过 10 分钟,则客户端会超时,并且用户需要手动恢复工作负载。但是,客户端通常会提供相应的可调参数,用于设置超时值和重试次数。 

  1. 故障切换后,将升级以前的活动节点。  升级后,它将重新启动到新版本,然后重新加入 HA 群集作为备用节点。DDFS 服务在此过程中不受影响,因为它已在上面的第 II 步中恢复。

请注意,在故障切换期间,DDFS 服务将不可用。通过观察升级节点上“filesys status”命令的输出,用户可以知道 DDFS 服务是否已恢复。由于 DDOS 代码的增强,7.4 及更高版本的 DDOS 停机时间预计会越来越少。
  1. 待机节点 (node1) 重新启动并变为可访问后,可以登录备用节点以监视升级状态/进度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot     0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
  1. 请等待滚动升级完成。请勿在该操作前触发任何 HA 故障切换操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
  1. 请检查 HA 状态,两个节点均处于联机状态,HA 系统状态为“高可用性”。
Node1 # ha status detailed
HA System name:               HA-system
HA System Status:             highly available
Interconnect Status:          ok
Primary Heartbeat Status:      ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check:       ok
Node  Node1:
      Role:          active
      HA State:      online
      Node Health: ok
Node Node0:
      Role:          standby
      HA State:      online
      Node Health: ok
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------
            

     验证:
  1. 请检查两个节点是否具有相同的 DDOS 版本。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version                  
Data Domain OS x.x.x.x-12345
  1. 检查是否有任何意外警报。
Node1 # alert show current
Node0 # alert show current
  1. 此时,滚动升级已成功完成。 

提醒:如果您遇到了任何与升级相关的问题,请联系 Data Domain 支持人员以获取进一步说明和支持。


DDHA 对的本地升级:
本地升级的功能大致如下:

      准备系统以进行升级:

  1. 检查 HA 系统状态。即使处于降级状态,本地升级在这种情况下仍然有效。

     #ha status
     HA System name:       HA-system   
     HA System status:     highly available   <-      
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------

  1. DDOS RPM 文件应放置在两个节点上,并且升级应从备用节点开始。
- 如何查找备用节点:
#ha status
HA System name:       HA-system   
HA System status:     highly available
Node Name                       Node id   Role      HA State
-----------------------------   -------   -------   --------
Node0   0         active    online   
Node1   1         standby   online   <- Node1 is standby node
-----------------------------   -------   -------   --------
  1. 将 RPM 文件上传到两个节点。
       Client-server # scp <rpm file> sysadmin@HA-  system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
 
            命令“scp”完成后,检查系统软件包信息
     Active-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ---------- -----   ------       
     Standby-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----   ------
  1. 如果 HA 状态为“高可用性”,请在活动节点上运行预检查。升级如果遇到任何错误,则应中止升级。
            Active-node # system upgrade precheck <rpm file>

      Upgrade precheck in progress:
      Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

            HA 状态为“降级”,则需要在两个节点上进行预先检查。

            Active-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 0: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

      Standby-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.    
      
     升级分步过程   
     
  1. 使备用节点离线。
            Standby-node # ha offline
      This operation will cause the ha system to no longer be highly  available.
      Do you want to proceed? (yes|no) [no]: yes
      Standby node is now offline.

           (提醒:脱机操作失败或 ha 状态已降级,请继续本地升级         后续步骤可能会处理故障。)
  1. 确保备用节点状态为离线。
       Standby-node # ha status
    HA System name:       HA-system
    HA System status:     degraded
    Node Name                       Node id   Role      HA State
    -----------------------------   -------   -------   --------
    Node1   1         standby   offline
    Node0   0         active    degraded
    -----------------------------   -------   -------   --------
    1. 在备用节点上执行升级。此操作将调用备用节点重新启动。
             Standby-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  文件访问
      在升级期间中断。 
      升级后,系统会自动重新启动。
                Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        “Local”标记会对 HA 系统造成高度干扰,应仅用作 修复操作。
    Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        正在升级:
        1 号节点:第 3/4 阶段(重启    0%)
      升级已开始。 系统将重新启动。
    1. 备用节点将重新启动到新版本的 DDOS,但保持离线状态。
    2. 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
                 Standby-node # system upgrade status
          Current Upgrade Status: DD OS upgrade Succeeded
          End time: 20xx.xx.xx:xx:xx
    1. 请检查 HA 系统状态,备用节点(本例中为节点 1)已离线,HA 状态为“降级”。
                 Standby-node # ha status
          HA System name:       HA-system
          HA System status:     degraded
          Node Name                       Node id   Role      HA State
          -----------------------------   -------   -------   --------
          Node1   1         standby   offline
          Node0   0         active    degraded
          -----------------------------   -------   -------   --------
    1. 在活动节点上执行本地升级。此操作将重新启动活动节点。
            Active-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  File access
        is interrupted during the upgrade.  The system reboots automatically
        after the upgrade.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        The 'local' flag is highly disruptive to HA systems and should be used        only as a repair operation.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        Upgrade in progress:
        Node   Severity   Issue                           Solution
        ----   --------   ------------------------------  --------
        0      WARNING    1 component precheck
                 script(s) failed to complete
        0      INFO       Upgrade time est: 60 mins
        ----   --------   ------------------------------  --------
        Node 0: phase 3/4 (Reboot     0%)
        Upgrade has started.  System will reboot.
    1. 请检查系统升级状态,完成操作系统升级可能需要超过 30 分钟。
             Active-node # system upgrade status
        Current Upgrade Status: DD OS upgrade Succeeded
        End time: 20xx.xx.xx:xx:xx
    1. 活动节点升级完成后,HA 系统状态仍处于降级状态。执行以下命令以使备用节点上线,它将重新启动备用节点。
             Standby-node # ha online
        The operation will reboot this node.
            Do you want to proceed? (yes|no) [no]: yes
        Broadcast message from root (Wed Oct 14 22:38:53 2020):
        The system is going down for reboot NOW!
        **** Error communicating with management service.
        (提醒:在之前的步骤中未运行“ha offline”,请忽略此    步骤)
    1. 备用节点将重新启动并重新加入群集。之后,HA 状态将再次变为“高度可用”。
              Active-node # ha status detailed
         HA System name:               Ha-system
         HA System Status:             highly available
         Interconnect Status:          ok
         Primary Heartbeat Status:      ok
         External LAN Heartbeat Status: ok
         Hardware compatibility check: ok
         Software Version Check:       ok
         Node node0:
                   Role:          active
                   HA State:      online
                   Node Health: ok
         Node node1:
                   Role:          standby
                   HA State:      online
                   Node Health: ok
         Mirroring Status:
         Component Name   Status
         --------------   ------
         nvram            ok
         registry         ok
         sms              ok
         ddboost          ok
         cifs             ok
         --------------   ------

    验证:
    1. 请检查两个节点是否具有相同的 DDOS 版本。
           Node1 # system show version
       Data Domain OS x.x.x.x-12345
       Node0 # system show version                  
       Data Domain OS x.x.x.x-12345
    1. 检查是否有任何意外警报。
           Node1 # alert show current
       Node0 # alert show current
    1. 该滚动升级在此时已经成功完成。
               
    提醒:升级时,如果您遇到任何问题,请联系 Data Domain 支持以获取进一步说明和支持。

    추가 정보

    滚动升级:

    • 请注意,在升级过程中仅执行一次故障转移,因此角色将互换。

    • infra.log 中将继续保留升级信息,但 ha.log 中可能会提供其他信息

    • 通过系统升级监视器,您可以实时监控升级进度。 

    本地节点升级:

    • 本地节点升级不会执行 HA 故障切换

    • 因此,在活动节点升级、重新启动或执行重新启动后的升级活动期间,将会有一段较长的停机时间,这很可能会导致备份/还原超时并失败。需要为本地升级分配维护时间窗口。

    • 甚至当 HA 系统状态为“降级”时,也可以继续进行本地升级。

    • 由于某些原因,滚动升级可能会意外失败。本地升级可视为这种情况下的修复方法。

       

    해당 제품

    Data Domain

    제품

    Data Domain, DD OS
    문서 속성
    문서 번호: 000009653
    문서 유형: How To
    마지막 수정 시간: 07 10월 2025
    버전:  8
    다른 Dell 사용자에게 질문에 대한 답변 찾기
    지원 서비스
    디바이스에 지원 서비스가 적용되는지 확인하십시오.