DataDomain:高可用性 (HA) 系統的作業系統升級指南
Summary: Data Domain「高可用性」(DDHA) 應用裝置上 Data Domain Operation System (DDOS) 升級的程序概觀。
Instructions
為了減少已規劃維護停機時間,HA 架構中包括系統滾動式升級。滾動式升級可能會先升級待機節點,然後使用預期的 HA 容錯移轉將服務從使用中節點移至待機節點。最後,先前的使用中節點將會升級,並以待機節點身分重新加入 HA 叢集。所有程序都在一個命令中完成。
手動升級的替代方法是「本機升級」。先手動升級待機節點,再手動升級使用中節點。 最後,待機節點會重新加入 HA 叢集。可執行本機升級以進行定期升級或修正問題。
需要在使用中節點上進行資料轉換的所有系統升級作業,在兩個系統都升級到相同層級且 HA 狀態完全還原後才能開始。
從 DDOS 5.7 開始的版本支援 HA 系統的兩種升級方法:
-
滾動式升級 - 使用一個命令自動升級兩個 HA 節點。升級後,服務會移至其他節點。
-
本機升級 - 逐一手動升級 HA 節點。升級後,服務會保留在同一個節點中。
為升級準備系統:
-
請確保 HA 系統狀態為「高可用性」。
登入 GUI à 首頁 à 儀表板
- DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
登入 GUI à 首頁 à 儀表板
- 將 RPM 檔案上傳至使用中節點
上傳後,將會列出 RPM 檔案。
- 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。
根據需求,這些服務可在升級完成後使用對應的啟用命令恢復。如需詳細資料,請參閱管理指南。
管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。
- 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。
首先,關閉 GC、資料移動和複寫以準備進行容錯移轉。請參閱管理指南,瞭解如何透過 GUI 操作。這些服務不會影響用戶端備份/還原工作負載。然後繼續「ha 容錯移轉」。

(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)
HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。
上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。
- 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
- 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。
執行上述命令期間的 DDFS 可用性:
-
它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。
-
套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。
-
其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。
-
您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。
-
請注意,DDFS 服務會在容錯移轉期間關閉。透過觀察已升級節點上的「filesys status」命令輸出,可以知道 DDFS 服務是否已恢復。由於 DDOS 程式碼的增強,DDOS 7.4 版及更新版本預計停機時間將會越來越短。
容錯移轉後,將會升級先前使用中的節點。 套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。
驗證:
- 滾動式升級完成後,需要透過預先待機節點的 IP 位址登入 GUI,在此例中為節點 1。
- 請檢查是否有任何意外警示。
- 此時滾動式升級已成功完成。
透過 CLI 滾動式升級:
為升級準備系統:
- 請確保 HA 系統狀態為「高可用性」。
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPM 檔案應放置在使用中節點上,且升級應從此節點開始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- 將 RPM 檔案上傳至使用中節點
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
使用中節點 # 系統套件清單
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- 請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
在開始升級 (步驟 #6) 之前,也請先關閉 GC、資料移動和複寫,這樣這些工作就不會在升級期間導致 DDFS 關機時間拉長。縮短 DDFS 關機時間有助於將對用戶端的影響降至最低。這些工作負載不會影響用戶端備份/還原操作。根據需求,這些服務可在升級完成後使用對應的啟用命令恢復。如需詳細資料,請參閱管理指南。
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
請注意,有幾個「watch」命令可以檢查上述操作是否完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
管理指南中還描述了其他一些手動檢查和命令,這些對於 HA 系統來說並非嚴格必要。目前建議將預先重新開機作為單一節點系統的測試。HA 系統並不需要,因為下方的 #5「ha 容錯移轉」已包含容錯移轉程序期間的自動重新開機。
- 可選。執行滾動式升級之前,建議您在使用中節點上手動執行兩次 HA 容錯移轉。目的是測試容錯移轉功能。此作業會使使用中節點重新開機,請注意這一點。
首先,停用 GC、資料移動和複寫以準備進行容錯移轉。這些服務不會影響用戶端備份/還原工作負載。然後執行「ha 容錯移轉」。
執行此動作的命令如下:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
請注意,有幾個「watch」命令可以檢查上述操作是否完成。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
然後執行容錯移轉命令:
Active-node # ha failover此操作將會從此節點啟動容錯移轉。本機節點將會重新開機。
您要繼續嗎?(是|否) [否]:是
故障回復操作已啟動。執行「ha status」以監控狀態
(當 HA 系統狀態再次變為「高可用性」時,請執行第二個「ha 容錯移轉」並等待兩個節點上線)
HA 容錯移轉之後,可使用對應的啟用命令恢復已停止的服務。如需詳細資料,請參閱管理指南。
上述容錯移轉測試為選用,不必在升級前立即執行。容錯移轉測試可以在升級之前執行,例如兩週,以便可對日後的升級使用更小的維護時段。每次容錯移轉的 DDFS 服務停機時間約為 10 分鐘 (視 DDOS 版本和其他一些因素而定,停機時間會更短或更長)。由於 DDOS 軟體的持續強化,自 DDOS 7.4 版及更新版本起,每一版的停機時間會更短。
- 如果預先檢查完成且沒有任何問題,請繼續在使用中節點上進行滾動式升級。
Active-node # system upgrade start <rpm file> 「system upgrade」命令會升級 Data Domain 作業系統。 檔案存取
在升級過程中中斷。 升級後,系統會自動
重新開機。
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
執行上述命令期間的 DDFS 可用性:
-
它會先升級待機節點,然後重新開機至新版本。根據各種因素,大約需要 20 分鐘到 30 分鐘的時間。DDFS 服務已啟動,並在此期間在使用中節點上操作,且不會發生任何效能降級的情況。
-
套用新 DDOS 後,系統會將 DDFS 服務容錯移轉至已升級的待機節點。大約需要 10 分鐘 (各種因素而定,可能會更短或更長)。
-
其中一個重要因素是 DAE 韌體升級。根據設定的 DAE 數量而定,可能會增加 ~20 分鐘的停機時間。請參閱 KB「Data Domain:已升級外部機櫃韌體的 HA 滾動式升級可能會失敗」,以判斷是否需要 DAE 韌體升級。請注意,從 DDOS 7.5 開始,有一個增強功能可啟用線上升級 DAE 韌體,因此而消除了此顧慮。
-
您可以聯絡 Dell 支援部門,以討論可能影響升級時間的因素。視用戶端作業系統、應用程式以及用戶端與 HA 系統之間的通訊協定而定,有時使用者可能需要在容錯移轉後立即手動恢復用戶端工作負載。例如,如果使用 DDBoost 用戶端且容錯移轉時間超過 10 分鐘,則用戶端會逾時,使用者需要手動恢復工作負載。但用戶端上通常有可調整的選項來設定逾時值和重試次數。
-
-
容錯移轉後,將會升級先前使用中的節點。 套用升級後,它將會重新開機至新版本,然後重新加入 HA 叢集作為待機節點。在此程序期間,DDFS 服務不會受到影響,因為它已在上述 #II 中恢復。
- 待機節點 (node1) 重新開機並可存取後,便可登入待機節點來監控升級狀態/進度。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- 請等待滾動式升級完成。在此之前,請勿觸發任何 HA 故障回復操作。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 請檢查 HA 狀態,兩個節點均為線上狀態,HA 系統狀態為「高可用性」。
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
驗證:
- 請檢查兩個節點的 DDOS 版本是否相同。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 請檢查是否有任何意外警示。
Node1 # alert show current
Node0 # alert show current
- 此時滾動式升級已成功完成。
注意:如果您遇到任何升級問題,請聯絡 Data Domain 支援,以取得進一步的指示和支援。
DDHA 配對的本機升級:
本機升級的功能大致如下:
為升級準備系統:
- 檢查 HA 狀態。即使狀態已降級,本機升級也能針對這種情況運作。
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPM 檔案應放置在兩個節點上,且升級應從待機節點開始。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- 將 RPM 檔案上傳至兩個節點。
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- 如果 HA 狀態為「高可用性」,請在使用中節點上執行預先檢查。如果發生任何錯誤,應中止升級。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
如果 HA 狀態為「已降級」,則需要在兩個節點上執行預先檢查。
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- 使待機節點離線。
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(注意:如果離線操作失敗或 ha 狀態為已降級,請繼續本機升級, 因為後續步驟可能會處理失敗。)
- 確保待機節點狀態為離線。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在待機節點上執行升級。此操作會叫用待機節點重新開機。
「system upgrade」命令會升級 Data Domain 作業系統。 檔案存取
在升級過程中中斷。 升級後,系統會自動
重新開機。
是否確定?(是|否) [否]:是
好的,繼續。
「本機」旗標會嚴重擾亂 HA 系統,且僅應作為修復操作使用。
是否確定?(是|否) [否]:是
好的,繼續。
升級正在進行中:
節點 1:階段 3/4 (重新開機 0%)
升級已經開始。 系統將重新開機。
- 待機節點將重新開機至新版本的 DDOS,但仍保持離線狀態。
- 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 請檢查 HA 系統狀態,待機節點 (在此案例中為節點 1) 為離線,HA 狀態為「已降級」。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- 在使用中節點上執行本機升級。此操作將重新啟動使用中節點。
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- 請檢查系統升級狀態,完成作業系統升級可能需要超過 30 分鐘的時間。
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- 使用中節點升級完成後,HA 系統狀態仍處於已降級狀態。執行以下命令,使待機節點上線,其將重新啟動待機節點。
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(注意:如果在先前的步驟中未執行「ha 離線」,請忽略此 步驟)
- 待機節點將重新開機並重新加入叢集。在此之後,HA 狀態將再次變為「高可用性」。
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
驗證:
- 請檢查兩個節點的 DDOS 版本是否相同。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 請檢查是否有任何意外警示。
Node1 # alert show current
Node0 # alert show current
- 此時滾動式升級已成功完成。
Additional Information
滾動式升級:
-
請注意,升級期間將執行單一容錯移轉,因此角色將會交換
-
升級資訊仍保留在 infra.log 中,但 ha.log 中可能有其他資訊
-
可透過系統升級觀察來監控升級進度
本機節點升級:
-
本機節點升級不會執行 HA 容錯移轉
-
因此,在使用中節點升級/重新開機/執行重新開機後升級活動時,將會延長停機時間,這可能會導致備份/還原逾時並失敗。需要為本機升級分配維護時間範圍。
-
即使 HA 系統狀態為「降級」,也可以繼續進行本機升級。
-
由於某種原因,滾動式升級可能會意外失敗。在這種情況下,本機升級可視為修正方法。