DataDomain:高可用性 (HA) 系統的作業系統升級指南

Summary: Data Domain「高可用性」(DDHA) 應用裝置上 Data Domain Operation System (DDOS) 升級的程序概觀。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

HA 系統已規劃維護

為了減少已規劃維護停機時間,HA 架構中包括系統滾動式升級。滾動式升級可能會先升級待機節點,然後使用預期的 HA 容錯移轉將服務從使用中節點移至待機節點。最後,先前的使用中節點將會升級,並以待機節點身分重新加入 HA 叢集。所有程序都在一個命令中完成。
手動升級的替代方法是「本機升級」。先手動升級待機節點,再手動升級使用中節點。  最後,待機節點會重新加入 HA 叢集。可執行本機升級以進行定期升級或修正問題。
需要在使用中節點上進行資料轉換的所有系統升級作業,在兩個系統都升級到相同層級且 HA 狀態完全還原後才能開始。


從 DDOS 5.7 開始的版本支援 HA 系統的兩種升級方法:
  • 滾動式升級 - 使用一個命令自動升級兩個 HA 節點。升級後,服務會移至其他節點。

  • 本機升級 - 逐一手動升級 HA 節點。升級後,服務會保留在同一個節點中。

 

透過 GUI 滾動式升級:

為升級準備系統:

  1. 請確保 HA 系統狀態為「高可用性」。

 登入 GUI  à 首頁 à 儀表板

儀表板頁面
  1. DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
- 如何找到使用中節點:
  登入 GUI  à 首頁 à 儀表板

儀表板頁面               
 
  1. 將 RPM 檔案上傳至使用中節點
登入 GUI  à 維護 à 系統 à 按一下「上傳升級套裝」按鈕

 維護頁面 
上傳後,將會列出 RPM 檔案。
 
  1. 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
登入 GUI  à 維護 à 系統 à 按一下「升級 RPM 檔案」à 按一下「升級預先檢查」

 系統頁面 
 

         在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。

         根據需求,這些服務可在升級完成後使用對應的啟命令恢復。如需詳細資料,請參閱管理指南。

         管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。

  1. 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。

   
              首先,關閉 GC、資料移動和複寫以準備進行容錯移轉。請參閱管理指南,瞭解如何透過 GUI 操作。這些服務不會影響用戶端備份/還原工作負載。然後繼續「ha 容錯移轉」。
 

登入 GUI  à 健全狀況 à 高可用性 à 按一下「容錯移轉至 XXX」


(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)

 

HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。

上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。

 

      逐步升級程序
  1. 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
登入 GUI  à 維護 à 系統 à 按一下「升級 RPM 檔案」à 按一下「執行系統升級」
 
 系統頁面
  1. 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。

執行上述命令期間的 DDFS 可用性:

  1. 它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。

  2. 套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。

    1. 其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。

    2. 您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。 

請注意,DDFS 服務會在容錯移轉期間關閉。透過觀察已升級節點上的「filesys status」命令輸出,可以知道 DDFS 服務是否已恢復。由於 DDOS 程式碼的增強,DDOS 7.4 版及更新版本預計停機時間將會越來越短。

容錯移轉後,將會升級先前使用中的節點。  套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。


     驗證:
  1. 滾動式升級完成後,需要透過預先待機節點的 IP 位址登入 GUI,在此例中為節點 1。
登入 GUI  à 維護 à 系統 à 檢查升級歷程記錄
 系統頁面
  1. 請檢查是否有任何意外警示。
登入 GUI  à 儀表板 à 警示
  1. 此時滾動式升級已成功完成。

透過 CLI 滾動式升級:
      為升級準備系統:
  1. 請確保 HA 系統狀態為「高可用性」。
#ha status
     
     HA System name:       HA-system   

     HA System status:     highly available         ç
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------
  1. DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
- 如何找到使用中節點:
 
#ha status

 
      HA System name:       HA-system   
      HA System status:     highly available
      Node Name                       Node id   Role      HA State
      -----------------------------   -------   -------   --------
      Node0   0         active    online    ß Node0 is active node
      Node1   1         standby   online
      -----------------------------   -------   -------   --------
  1. 將 RPM 檔案上傳至使用中節點
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
            命令「scp」完成後,檢查系統套件資訊
     使用中節點 # 系統套件清單

     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----  -------         
  1. 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
Active-node # system upgrade precheck <rpm file>

     Upgrade precheck in progress:
     Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
     Upgrade precheck found no issues.

     在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。根據需求,這些服務可在升級完成後使用對應的啟用命令恢復。如需詳細資料,請參閱管理指南。
      
Active-node # filesys clean stop
   Active-node # cloud clean stop
   Active-node # data-movement suspend
   Active-node # data-movement stop to-tier active
   Active-node # replication disable all

       

     請注意,有幾個「watch」命令可以檢查上述操作是否完成。
      Active-node # filesys clean watch 
   Active-node # cloud clean watch
   Active-node # data-movement watch


      管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。

  1. 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。

        首先,停用 GC、資料移動和複寫以準備進行容錯移轉。這些服務不會影響用戶端備份/還原工作負載。然後執行「ha 容錯移轉」。

       執行此動作的命令如下:
          
Active-node # filesys clean stop
     Active-node # cloud clean stop
     Active-node # data-movement suspend
     Active-node # data-movement stop to-tier active
     Active-node # replication disable all

        請注意,有幾個「watch」命令可以檢查上述操作是否完成。
          
Active-node # filesys clean watch 
     Active-node # cloud clean watch
     Active-node # data-movement watch

        然後執行容錯移轉命令:

Active-node # ha failover
          此操作將會從此節點啟動容錯移轉。本機節點將會重新開機。
您要繼續嗎?(是|否) [否]:是
    故障回復操作已啟動。執行「ha status」以監控狀態

(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)

HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。
上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。 

  

      逐步升級程序      
  1. 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
             Active-node # system upgrade start <rpm file>

      「system upgrade」命令會升級 Data Domain 作業系統。  檔案存取
      在升級過程中中斷。  升級後,系統會自動
      重新開機。
              Are you sure? (yes|no) [no]: yes
      ok, proceeding.
      Upgrade in progress:
      Node   Severity   Issue                           Solution
      ----   --------   ------------------------------  --------
      0      WARNING    1 component precheck
         script(s) failed to complete
      0      INFO       Upgrade time est: 60 mins
      1      WARNING    1 component precheck
          script(s) failed to complete
      1      INFO       Upgrade time est: 80 mins
      ----   --------   ------------------------------  --------
      Node 0: phase 2/4 (Install    0%) , Node 1: phase 1/4 (Precheck 100%)
      Upgrade phase status legend:
      DU : Data Upgrade
      FO : Failover
      ..               
      PC : Peer Confirmation
      VA : Volume Assembly

      Node 0: phase 3/4 (Reboot     0%) , Node 1: phase 4/4 (Finalize   5%) FO
      Upgrade has started.  System will reboot.   

        

       執行上述命令期間的 DDFS 可用性:

  1. 它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。

  2. 套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。

    1. 其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。

    2. 您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。 

  1. 容錯移轉後,將會升級先前使用中的節點。  套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。

請注意,DDFS 服務會在容錯移轉期間關閉。透過觀察已升級節點上的「filesys status」命令輸出,可以知道 DDFS 服務是否已恢復。由於 DDOS 程式碼的增強,DDOS 7.4 版及更新版本預計停機時間將會越來越短。
  1. 待機節點 (node1) 重新開機並可存取後,便可登入待機節點來監控升級狀態/進度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot     0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
  1. 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
  1. 請檢查 HA 狀態,兩個節點均為線上狀態,HA 系統狀態為「高可用性」。
Node1 # ha status detailed
HA System name:               HA-system
HA System Status:             highly available
Interconnect Status:          ok
Primary Heartbeat Status:      ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check:       ok
Node  Node1:
      Role:          active
      HA State:      online
      Node Health: ok
Node Node0:
      Role:          standby
      HA State:      online
      Node Health: ok
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------
            

     驗證:
  1. 請檢查兩個節點的 DDOS 版本是否相同。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version                  
Data Domain OS x.x.x.x-12345
  1. 請檢查是否有任何意外警示。
Node1 # alert show current
Node0 # alert show current
  1. 此時滾動式升級已成功完成。 

注意:如果您遇到任何升級問題,請聯絡 Data Domain 支援,以取得進一步的指示和支援。


DDHA 配對的本機升級:
本機升級的功能大致如下:

      為升級準備系統:

  1. 檢查 HA 狀態。即使狀態已降級,本機升級也能針對這種情況運作。

     #ha status
     HA System name:       HA-system   
     HA System status:     highly available   <-      
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------

  1. DDOS RPM 檔案應放置在兩個節點上,且升級應從待機節點開始。
- 如何找到待機節點:
#ha status
HA System name:       HA-system   
HA System status:     highly available
Node Name                       Node id   Role      HA State
-----------------------------   -------   -------   --------
Node0   0         active    online   
Node1   1         standby   online   <- Node1 is standby node
-----------------------------   -------   -------   --------
  1. 將 RPM 檔案上傳至兩個節點。
       Client-server # scp <rpm file> sysadmin@HA-  system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
 
            命令「scp」完成後,檢查系統套件資訊
     Active-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ---------- -----   ------       
     Standby-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----   ------
  1. 如果 HA 狀態為「高可用性」,請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
            Active-node # system upgrade precheck <rpm file>

      Upgrade precheck in progress:
      Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

            如果 HA 狀態為「已降級」,則需要在兩個節點上執行預先檢查。

            Active-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 0: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

      Standby-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.    
      
     逐步升級程序   
     
  1. 使待機節點離線。
            Standby-node # ha offline
      This operation will cause the ha system to no longer be highly  available.
      Do you want to proceed? (yes|no) [no]: yes
      Standby node is now offline.

           (注意:如果離線操作失敗或 ha 狀態為已降級,請繼續本機升級,                因為後續步驟可能會處理失敗。)
  1. 確保待機節點狀態為離線。
       Standby-node # ha status
    HA System name:       HA-system
    HA System status:     degraded
    Node Name                       Node id   Role      HA State
    -----------------------------   -------   -------   --------
    Node1   1         standby   offline
    Node0   0         active    degraded
    -----------------------------   -------   -------   --------
    1. 在待機節點上執行升級。此操作會叫用待機節點重新開機。
             待機節點 # 系統升級開始 <rpm 檔案>本機
        「system upgrade」命令會升級 Data Domain 作業系統。  檔案存取
        在升級過程中中斷。  升級後,系統會自動
        重新開機。
    是否確定?(是|否) [否]:是
        好的,繼續。
        「本機」旗標會嚴重擾亂 HA 系統,且僅應作為修復操作使用。
    是否確定?(是|否) [否]:是
        好的,繼續。
        升級正在進行中:
        節點 1:階段 3/4 (重新開機     0%)
        升級已經開始。 系統將重新開機。
    1. 待機節點將重新開機至新版本的 DDOS,但仍保持離線狀態。
    2. 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
                 Standby-node # system upgrade status
          Current Upgrade Status: DD OS upgrade Succeeded
          End time: 20xx.xx.xx:xx:xx
    1. 請檢查 HA 系統狀態,待機節點 (在此案例中為節點 1) 為離線,HA 狀態為「已降級」。
                 Standby-node # ha status
          HA System name:       HA-system
          HA System status:     degraded
          Node Name                       Node id   Role      HA State
          -----------------------------   -------   -------   --------
          Node1   1         standby   offline
          Node0   0         active    degraded
          -----------------------------   -------   -------   --------
    1. 在使用中節點上執行本機升級。此操作將重新啟動使用中節點。
            Active-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  File access
        is interrupted during the upgrade.  The system reboots automatically
        after the upgrade.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        The 'local' flag is highly disruptive to HA systems and should be used        only as a repair operation.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        Upgrade in progress:
        Node   Severity   Issue                           Solution
        ----   --------   ------------------------------  --------
        0      WARNING    1 component precheck
                 script(s) failed to complete
        0      INFO       Upgrade time est: 60 mins
        ----   --------   ------------------------------  --------
        Node 0: phase 3/4 (Reboot     0%)
        Upgrade has started.  System will reboot.
    1. 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
             Active-node # system upgrade status
        Current Upgrade Status: DD OS upgrade Succeeded
        End time: 20xx.xx.xx:xx:xx
    1. 使用中節點升級完成後,HA 系統狀態仍處於已降級狀態。執行以下命令,使待機節點上線,其將重新啟動待機節點。
             Standby-node # ha online
        The operation will reboot this node.
            Do you want to proceed? (yes|no) [no]: yes
        Broadcast message from root (Wed Oct 14 22:38:53 2020):
        The system is going down for reboot NOW!
        **** Error communicating with management service.
        (注意:如果在先前的步驟中未執行「ha 離線」,請忽略此       步驟)
    1. 待機節點將重新開機並重新加入叢集。在此之後,HA 狀態將再次變為「高可用性」。
              Active-node # ha status detailed
         HA System name:               Ha-system
         HA System Status:             highly available
         Interconnect Status:          ok
         Primary Heartbeat Status:      ok
         External LAN Heartbeat Status: ok
         Hardware compatibility check: ok
         Software Version Check:       ok
         Node node0:
                   Role:          active
                   HA State:      online
                   Node Health: ok
         Node node1:
                   Role:          standby
                   HA State:      online
                   Node Health: ok
         Mirroring Status:
         Component Name   Status
         --------------   ------
         nvram            ok
         registry         ok
         sms              ok
         ddboost          ok
         cifs             ok
         --------------   ------

    驗證:
    1. 請檢查兩個節點的 DDOS 版本是否相同。
           Node1 # system show version
       Data Domain OS x.x.x.x-12345
       Node0 # system show version                  
       Data Domain OS x.x.x.x-12345
    1. 請檢查是否有任何意外警示。
           Node1 # alert show current
       Node0 # alert show current
    1. 此時滾動式升級已成功完成。
               
    注意:如果您遇到任何升級問題,請聯絡 Data Domain 支援,以取得進一步的指示和支援。

    Additional Information

    滾動式升級:

    • 請注意,升級期間將執行單一容錯移轉,因此角色將會交換

    • 升級資訊仍保留在 infra.log 中,但 ha.log 中可能有其他資訊

    • 可透過系統升級觀察來監控升級進度 

    本機節點升級:

    • 本機節點升級不會執行 HA 容錯移轉

    • 因此,在使用中節點升級/重新開機/執行重新開機後升級活動時,將會延長停機時間,這可能會導致備份/還原逾時並失敗。需要為本機升級分配維護時間範圍。

    • 即使 HA 系統狀態為「降級」,也可以繼續進行本機升級。

    • 由於某種原因,滾動式升級可能會意外失敗。在這種情況下,本機升級可視為修正方法。

       

    Affected Products

    Data Domain

    Products

    Data Domain, DD OS
    Article Properties
    Article Number: 000009653
    Article Type: How To
    Last Modified: 07 Oct 2025
    Version:  8
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.