DataDomain:高可用性 (HA) 系統的作業系統升級指南

摘要: Data Domain「高可用性」(DDHA) 應用裝置上 Data Domain Operation System (DDOS) 升級的程序概觀。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

HA 系統已規劃維護

為了減少已規劃維護停機時間,HA 架構中包括系統滾動式升級。滾動式升級可能會先升級待機節點,然後使用預期的 HA 容錯移轉將服務從使用中節點移至待機節點。最後,先前的使用中節點將會升級,並以待機節點身分重新加入 HA 叢集。所有程序都在一個命令中完成。
手動升級的替代方法是「本機升級」。先手動升級待機節點,再手動升級使用中節點。  最後,待機節點會重新加入 HA 叢集。可執行本機升級以進行定期升級或修正問題。
需要在使用中節點上進行資料轉換的所有系統升級作業,在兩個系統都升級到相同層級且 HA 狀態完全還原後才能開始。


從 DDOS 5.7 開始的版本支援 HA 系統的兩種升級方法:
  • 滾動式升級 - 使用一個命令自動升級兩個 HA 節點。升級後,服務會移至其他節點。

  • 本機升級 - 逐一手動升級 HA 節點。升級後,服務會保留在同一個節點中。

 

透過 GUI 滾動式升級:

為升級準備系統:

  1. 請確保 HA 系統狀態為「高可用性」。

 登入 GUI  à 首頁 à 儀表板

儀表板頁面
  1. DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
- 如何找到使用中節點:
  登入 GUI  à 首頁 à 儀表板

儀表板頁面               
 
  1. 將 RPM 檔案上傳至使用中節點
登入 GUI  à 維護 à 系統 à 按一下「上傳升級套裝」按鈕

 維護頁面 
上傳後,將會列出 RPM 檔案。
 
  1. 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
登入 GUI  à 維護 à 系統 à 按一下「升級 RPM 檔案」à 按一下「升級預先檢查」

 系統頁面 
 

         在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。

         根據需求,這些服務可在升級完成後使用對應的啟命令恢復。如需詳細資料,請參閱管理指南。

         管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。

  1. 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。

   
              首先,關閉 GC、資料移動和複寫以準備進行容錯移轉。請參閱管理指南,瞭解如何透過 GUI 操作。這些服務不會影響用戶端備份/還原工作負載。然後繼續「ha 容錯移轉」。
 

登入 GUI  à 健全狀況 à 高可用性 à 按一下「容錯移轉至 XXX」


(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)

 

HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。

上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。

 

      逐步升級程序
  1. 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
登入 GUI  à 維護 à 系統 à 按一下「升級 RPM 檔案」à 按一下「執行系統升級」
 
 系統頁面
  1. 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。

執行上述命令期間的 DDFS 可用性:

  1. 它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。

  2. 套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。

    1. 其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。

    2. 您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。 

請注意,DDFS 服務會在容錯移轉期間關閉。透過觀察已升級節點上的「filesys status」命令輸出,可以知道 DDFS 服務是否已恢復。由於 DDOS 程式碼的增強,DDOS 7.4 版及更新版本預計停機時間將會越來越短。

容錯移轉後,將會升級先前使用中的節點。  套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。


     驗證:
  1. 滾動式升級完成後,需要透過預先待機節點的 IP 位址登入 GUI,在此例中為節點 1。
登入 GUI  à 維護 à 系統 à 檢查升級歷程記錄
 系統頁面
  1. 請檢查是否有任何意外警示。
登入 GUI  à 儀表板 à 警示
  1. 此時滾動式升級已成功完成。

透過 CLI 滾動式升級:
      為升級準備系統:
  1. 請確保 HA 系統狀態為「高可用性」。
#ha status
     
     HA System name:       HA-system   

     HA System status:     highly available         ç
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------
  1. DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
- 如何找到使用中節點:
 
#ha status

 
      HA System name:       HA-system   
      HA System status:     highly available
      Node Name                       Node id   Role      HA State
      -----------------------------   -------   -------   --------
      Node0   0         active    online    ß Node0 is active node
      Node1   1         standby   online
      -----------------------------   -------   -------   --------
  1. 將 RPM 檔案上傳至使用中節點
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
            命令「scp」完成後,檢查系統套件資訊
     使用中節點 # 系統套件清單

     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----  -------         
  1. 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
Active-node # system upgrade precheck <rpm file>

     Upgrade precheck in progress:
     Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
     Upgrade precheck found no issues.

     在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。根據需求,這些服務可在升級完成後使用對應的啟用命令恢復。如需詳細資料,請參閱管理指南。
      
Active-node # filesys clean stop
   Active-node # cloud clean stop
   Active-node # data-movement suspend
   Active-node # data-movement stop to-tier active
   Active-node # replication disable all

       

     請注意,有幾個「watch」命令可以檢查上述操作是否完成。
      Active-node # filesys clean watch 
   Active-node # cloud clean watch
   Active-node # data-movement watch


      管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。

  1. 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。

        首先,停用 GC、資料移動和複寫以準備進行容錯移轉。這些服務不會影響用戶端備份/還原工作負載。然後執行「ha 容錯移轉」。

       執行此動作的命令如下:
          
Active-node # filesys clean stop
     Active-node # cloud clean stop
     Active-node # data-movement suspend
     Active-node # data-movement stop to-tier active
     Active-node # replication disable all

        請注意,有幾個「watch」命令可以檢查上述操作是否完成。
          
Active-node # filesys clean watch 
     Active-node # cloud clean watch
     Active-node # data-movement watch

        然後執行容錯移轉命令:

Active-node # ha failover
          此操作將會從此節點啟動容錯移轉。本機節點將會重新開機。
您要繼續嗎?(是|否) [否]:是
    故障回復操作已啟動。執行「ha status」以監控狀態

(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)

HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。
上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。 

  

      逐步升級程序      
  1. 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
             Active-node # system upgrade start <rpm file>

      「system upgrade」命令會升級 Data Domain 作業系統。  檔案存取
      在升級過程中中斷。  升級後,系統會自動
      重新開機。
              Are you sure? (yes|no) [no]: yes
      ok, proceeding.
      Upgrade in progress:
      Node   Severity   Issue                           Solution
      ----   --------   ------------------------------  --------
      0      WARNING    1 component precheck
         script(s) failed to complete
      0      INFO       Upgrade time est: 60 mins
      1      WARNING    1 component precheck
          script(s) failed to complete
      1      INFO       Upgrade time est: 80 mins
      ----   --------   ------------------------------  --------
      Node 0: phase 2/4 (Install    0%) , Node 1: phase 1/4 (Precheck 100%)
      Upgrade phase status legend:
      DU : Data Upgrade
      FO : Failover
      ..               
      PC : Peer Confirmation
      VA : Volume Assembly

      Node 0: phase 3/4 (Reboot     0%) , Node 1: phase 4/4 (Finalize   5%) FO
      Upgrade has started.  System will reboot.   

        

       執行上述命令期間的 DDFS 可用性:

  1. 它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。

  2. 套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。

    1. 其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。

    2. 您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。 

  1. 容錯移轉後,將會升級先前使用中的節點。  套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。

請注意,DDFS 服務會在容錯移轉期間關閉。透過觀察已升級節點上的「filesys status」命令輸出,可以知道 DDFS 服務是否已恢復。由於 DDOS 程式碼的增強,DDOS 7.4 版及更新版本預計停機時間將會越來越短。
  1. 待機節點 (node1) 重新開機並可存取後,便可登入待機節點來監控升級狀態/進度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot     0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
  1. 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
  1. 請檢查 HA 狀態,兩個節點均為線上狀態,HA 系統狀態為「高可用性」。
Node1 # ha status detailed
HA System name:               HA-system
HA System Status:             highly available
Interconnect Status:          ok
Primary Heartbeat Status:      ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check:       ok
Node  Node1:
      Role:          active
      HA State:      online
      Node Health: ok
Node Node0:
      Role:          standby
      HA State:      online
      Node Health: ok
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------
            

     驗證:
  1. 請檢查兩個節點的 DDOS 版本是否相同。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version                  
Data Domain OS x.x.x.x-12345
  1. 請檢查是否有任何意外警示。
Node1 # alert show current
Node0 # alert show current
  1. 此時滾動式升級已成功完成。 

注意:如果您遇到任何升級問題,請聯絡 Data Domain 支援,以取得進一步的指示和支援。


DDHA 配對的本機升級:
本機升級的功能大致如下:

      為升級準備系統:

  1. 檢查 HA 狀態。即使狀態已降級,本機升級也能針對這種情況運作。

     #ha status
     HA System name:       HA-system   
     HA System status:     highly available   <-      
     Node Name                       Node id   Role      HA State
     -----------------------------   -------   -------   --------
     Node0   0         active    online   
     Node1   1         standby   online
     -----------------------------   -------   -------   --------

  1. DDOS RPM 檔案應放置在兩個節點上,且升級應從待機節點開始。
- 如何找到待機節點:
#ha status
HA System name:       HA-system   
HA System status:     highly available
Node Name                       Node id   Role      HA State
-----------------------------   -------   -------   --------
Node0   0         active    online   
Node1   1         standby   online   <- Node1 is standby node
-----------------------------   -------   -------   --------
  1. 將 RPM 檔案上傳至兩個節點。
       Client-server # scp <rpm file> sysadmin@HA-  system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)

(From client server, target path is “/ddr/var/releases”)
 
            命令「scp」完成後,檢查系統套件資訊
     Active-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ---------- -----   ------       
     Standby-node # system package list
     File                 Size (KiB)   Type     Class        Name    Version
     ------------------   ----------   ------   ----------   -----   -------
     x.x.x.x-12345.rpm    2927007.3   System   Production   DD OS   x.x.x.x
     ------------------   ----------   ------   ----------   -----   ------
  1. 如果 HA 狀態為「高可用性」,請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
            Active-node # system upgrade precheck <rpm file>

      Upgrade precheck in progress:
      Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

            如果 HA 狀態為「已降級」,則需要在兩個節點上執行預先檢查。

            Active-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 0: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.

      Standby-node # system upgrade precheck <rpm file> local
      Upgrade precheck in progress:

      Node 1: phase 1/1 (Precheck 100%)
      Upgrade precheck found no issues.    
      
     逐步升級程序   
     
  1. 使待機節點離線。
            Standby-node # ha offline
      This operation will cause the ha system to no longer be highly  available.
      Do you want to proceed? (yes|no) [no]: yes
      Standby node is now offline.

           (注意:如果離線操作失敗或 ha 狀態為已降級,請繼續本機升級,                因為後續步驟可能會處理失敗。)
  1. 確保待機節點狀態為離線。
       Standby-node # ha status
    HA System name:       HA-system
    HA System status:     degraded
    Node Name                       Node id   Role      HA State
    -----------------------------   -------   -------   --------
    Node1   1         standby   offline
    Node0   0         active    degraded
    -----------------------------   -------   -------   --------
    1. 在待機節點上執行升級。此操作會叫用待機節點重新開機。
             待機節點 # 系統升級開始 <rpm 檔案>本機
        「system upgrade」命令會升級 Data Domain 作業系統。  檔案存取
        在升級過程中中斷。  升級後,系統會自動
        重新開機。
    是否確定?(是|否) [否]:是
        好的,繼續。
        「本機」旗標會嚴重擾亂 HA 系統,且僅應作為修復操作使用。
    是否確定?(是|否) [否]:是
        好的,繼續。
        升級正在進行中:
        節點 1:階段 3/4 (重新開機     0%)
        升級已經開始。 系統將重新開機。
    1. 待機節點將重新開機至新版本的 DDOS,但仍保持離線狀態。
    2. 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
                 Standby-node # system upgrade status
          Current Upgrade Status: DD OS upgrade Succeeded
          End time: 20xx.xx.xx:xx:xx
    1. 請檢查 HA 系統狀態,待機節點 (在此案例中為節點 1) 為離線,HA 狀態為「已降級」。
                 Standby-node # ha status
          HA System name:       HA-system
          HA System status:     degraded
          Node Name                       Node id   Role      HA State
          -----------------------------   -------   -------   --------
          Node1   1         standby   offline
          Node0   0         active    degraded
          -----------------------------   -------   -------   --------
    1. 在使用中節點上執行本機升級。此操作將重新啟動使用中節點。
            Active-node # system upgrade start <rpm file> local
        The 'system upgrade' command upgrades the Data Domain OS.  File access
        is interrupted during the upgrade.  The system reboots automatically
        after the upgrade.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        The 'local' flag is highly disruptive to HA systems and should be used        only as a repair operation.
                   Are you sure? (yes|no) [no]: yes
        ok, proceeding.
        Upgrade in progress:
        Node   Severity   Issue                           Solution
        ----   --------   ------------------------------  --------
        0      WARNING    1 component precheck
                 script(s) failed to complete
        0      INFO       Upgrade time est: 60 mins
        ----   --------   ------------------------------  --------
        Node 0: phase 3/4 (Reboot     0%)
        Upgrade has started.  System will reboot.
    1. 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
             Active-node # system upgrade status
        Current Upgrade Status: DD OS upgrade Succeeded
        End time: 20xx.xx.xx:xx:xx
    1. 使用中節點升級完成後,HA 系統狀態仍處於已降級狀態。執行以下命令,使待機節點上線,其將重新啟動待機節點。
             Standby-node # ha online
        The operation will reboot this node.
            Do you want to proceed? (yes|no) [no]: yes
        Broadcast message from root (Wed Oct 14 22:38:53 2020):
        The system is going down for reboot NOW!
        **** Error communicating with management service.
        (注意:如果在先前的步驟中未執行「ha 離線」,請忽略此       步驟)
    1. 待機節點將重新開機並重新加入叢集。在此之後,HA 狀態將再次變為「高可用性」。
              Active-node # ha status detailed
         HA System name:               Ha-system
         HA System Status:             highly available
         Interconnect Status:          ok
         Primary Heartbeat Status:      ok
         External LAN Heartbeat Status: ok
         Hardware compatibility check: ok
         Software Version Check:       ok
         Node node0:
                   Role:          active
                   HA State:      online
                   Node Health: ok
         Node node1:
                   Role:          standby
                   HA State:      online
                   Node Health: ok
         Mirroring Status:
         Component Name   Status
         --------------   ------
         nvram            ok
         registry         ok
         sms              ok
         ddboost          ok
         cifs             ok
         --------------   ------

    驗證:
    1. 請檢查兩個節點的 DDOS 版本是否相同。
           Node1 # system show version
       Data Domain OS x.x.x.x-12345
       Node0 # system show version                  
       Data Domain OS x.x.x.x-12345
    1. 請檢查是否有任何意外警示。
           Node1 # alert show current
       Node0 # alert show current
    1. 此時滾動式升級已成功完成。
               
    注意:如果您遇到任何升級問題,請聯絡 Data Domain 支援,以取得進一步的指示和支援。

    其他信息

    滾動式升級:

    • 請注意,升級期間將執行單一容錯移轉,因此角色將會交換

    • 升級資訊仍保留在 infra.log 中,但 ha.log 中可能有其他資訊

    • 可透過系統升級觀察來監控升級進度 

    本機節點升級:

    • 本機節點升級不會執行 HA 容錯移轉

    • 因此,在使用中節點升級/重新開機/執行重新開機後升級活動時,將會延長停機時間,這可能會導致備份/還原逾時並失敗。需要為本機升級分配維護時間範圍。

    • 即使 HA 系統狀態為「降級」,也可以繼續進行本機升級。

    • 由於某種原因,滾動式升級可能會意外失敗。在這種情況下,本機升級可視為修正方法。

       

    受影响的产品

    Data Domain

    产品

    Data Domain, DD OS
    文章属性
    文章编号: 000009653
    文章类型: How To
    上次修改时间: 07 10月 2025
    版本:  8
    从其他戴尔用户那里查找问题的答案
    支持服务
    检查您的设备是否在支持服务涵盖的范围内。