Data Domain: OS-uppgraderingsmanual för system med hög tillgänglighet (HA)
Summary: Processöversikt för Data Domain Operation System (DDOS)-uppgraderingar på Data Domain-enheter med hög tillgänglighet (DDHA).
Instructions
För att minska planerade driftavbrott för underhåll ingår löpande uppgradering av systemet i HA-arkitekturen. En löpande uppgradering kan uppgradera väntelägesnoden först och sedan använda en förväntad HA-redundans för att flytta tjänsterna från den aktiva noden till väntelägesnoden. Slutligen uppgraderas tidigare aktiva noder och återansluter till HA-klustret som väntelägesnod. Alla processer görs i ett kommando.
En alternativ manuell uppgradering är lokal uppgradering. Uppgradera väntelägesnoden manuellt och uppgradera sedan den aktiva noden manuellt. Till sist skulle väntelägesnoden återansluta till HA-klustret. Lokal uppgradering kan utföras antingen för regelbunden uppgradering eller för att åtgärda problem.
Alla systemuppgraderingsåtgärder på aktiva noder som kräver datakonvertering kanske inte startar förrän båda systemen har uppgraderats till samma nivå och HA-tillståndet har återställts helt.
DDOS 5.7 och senare stöder två typer av uppgraderingsmetoder för HA-system:
-
Löpande uppgradering – uppgradera båda HA-noderna automatiskt med ett kommando. Tjänsten flyttas till den andra noden efter uppgraderingen.
-
Lokal uppgradering – uppgradera HA-noder manuellt en i taget. Tjänsten finns kvar i samma nod efter uppgraderingen.
Förbered systemet för uppgradering:
-
Kontrollera att HA-systemstatusen är "hög tillgänglighet".
Logga in GUI à Home à Dashboard Logga in GUI à Hem à Instrumentpanel
- DDOS RPM-filen ska placeras på den aktiva noden och uppgraderingen bör starta från den här noden.
Logga in GUI à Home à Dashboard Logga in GUI à Hem à Instrumentpanel
- Ladda upp RPM-filen till den aktiva noden
Efter uppladdningen visas RPM-filen.
- Kör förkontrollen på den aktiva noden. Uppgraderingen bör avbrytas om något fel uppstår.
Stäng även av GC, dataförflyttning och replikering innan du startar uppgraderingen (steg #6) så att dessa jobb inte leder till längre DDFS-avstängningstid under uppgraderingen. Kortare tid för DDFS-avstängning hjälper till att minimera påverkan på klienterna. Dessa arbetsbelastningar påverkar inte klientens säkerhetskopierings-/återställningsåtgärder.
Baserat på behov kan dessa tjänster återupptas efter att uppgraderingen har slutförts med hjälp av motsvarande aktiveringskommandon. Mer information finns i administrationsmanualen.
Det finns några andra manuella kontroller och kommandon som beskrivs i administrationsmanualen som inte är absolut nödvändiga för ett HA-system. Före omstart föreslås för närvarande som ett test för system med en nod. Det behövs inte för HA-system eftersom #5 "ha-redundans" nedan redan innehåller en automatisk omstart under redundansväxlingsprocessen.
- Valfri. Innan du kör rullande uppgradering rekommenderar vi att du gör HA-redundans två gånger manuellt på den aktiva noden. Syftet är att testa failover-funktionaliteten. Operationen kommer att göra att den aktiva noden startas om, var medveten om det.
Förbered först redundansväxlingen genom att stänga av GC, dataflytt och replikering. Se administrationsmanualen för att ta reda på hur du gör det via GUI. Dessa tjänster påverkar inte klientens arbetsbelastningar för säkerhetskopiering/återställning. Fortsätt sedan med "ha failover".

(När HA-systemstatusen blir "hög tillgänglighet" igen kör du den andra "ha-redundansväxlingen" och väntar tills båda noderna blir online)
Efter HA-redundansväxlingen kan de stoppade tjänsterna återupptas med hjälp av motsvarande aktiveringskommandon. Mer information finns i administrationsmanualen.
Ovanstående redundanstest är valfria och behöver inte utföras precis före uppgraderingen. Redundanstesterna kan utföras före uppgraderingen, till exempel två veckor, så att en mindre underhållsperiod kan användas för den senare uppgraderingen. DDFS-tjänstens stilleståndstid för varje redundansväxling är cirka 10 minuter (mindre eller mer beroende på DDOS-versioner och vissa andra faktorer). DDOS-version 7.4 och senare kommer att ha mindre driftavbrott version för version på grund av kontinuerliga DDOS SW-förbättringar.
- Om förkontrollen har slutförts utan problem fortsätter du med den löpande uppgraderingen på den aktiva noden.
- Vänta tills den löpande uppgraderingen är klar. Före det ska du inte utlösa någon HA-redundansåtgärd.
DDFS-tillgänglighet under kommandot ovan:
-
Den uppgraderar standby-noden först och startar om den till den nya versionen. Det tar ungefär 20 minuter till 30 minuter beroende på olika faktorer. DDFS-tjänsten är igång och fungerar på den aktiva noden under den här perioden utan någon prestandaförsämring.
-
När det nya DDOS har tillämpats redundansväxlar systemet DDFS-tjänsten till den uppgraderade väntelägesnoden. Det tar ungefär 10 minuter (mindre eller mer beroende på olika faktorer).
-
En viktig faktor är uppgraderingen av den fasta programvaran för DAE. Det kan ge ~20 minuters driftavbrott beroende på hur många DAE:er som har konfigurerats. Se KB "Data Domain: Löpande uppgradering av HA kan misslyckas för uppgradering av fast programvara för externt hölje", för att avgöra om en uppgradering av den fasta programvaran för DAE krävs. Observera att från och med DDOS 7.5 finns det en förbättring för att aktivera onlineuppgradering av fast programvara för DAE, vilket eliminerar detta problem.
-
Dells support kan kontaktas för att diskutera faktorer som kan påverka uppgraderingstiden. Beroende på klientens operativsystem, program och protokollet mellan klienten och HA-systemet kan användaren ibland behöva återuppta klientens arbetsbelastningar manuellt direkt efter redundansväxlingen. Om du till exempel har DDBoost-klienter och redundansväxlingstiden är över 10 minuter måste klientens timeout och användaren måste återuppta arbetsbelastningarna manuellt. Men det finns vanligtvis justerbara tillgängliga på klienter för att ange timeout-värden och återförsökstider.
-
Observera att DDFS-tjänsten är nere under redundansperioden. Genom att titta på utdata från kommandot "filesys status" på den uppgraderade noden vet man om DDFS-tjänsten återupptas eller inte. DDOS-versioner 7.4 och senare förväntas ha mindre och mindre driftavbrott på grund av förbättringar av DDOS-koden.
Efter redundansväxlingen uppgraderas den tidigare aktiva noden. När uppgraderingen har tillämpats startas den om till den nya versionen och återansluter sedan till HA-klustret som väntelägesnod. DDFS-tjänsten påverkas inte under den här processen eftersom den redan har återupptagits i #II ovan.
Verifiering:
- När den löpande uppgraderingen är klar måste inloggnings-GUI via IP-adressen för pre-standby-noden användas, i det här fallet är det node1.
- Kontrollera om det uppstår några oväntade varningar.
- Nu har den rullande uppgraderingen slutförts.
Rullande uppgradering via CLI:
Förbered systemet för uppgradering:
- Kontrollera att HA-systemstatusen är "hög tillgänglighet".
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPM-filen ska placeras på den aktiva noden och uppgraderingen bör starta från den här noden.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- Ladda upp RPM-filen till den aktiva noden
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Systempaketlista för aktiv nod #
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- Kör förkontrollen på den aktiva noden. Uppgraderingen bör avbrytas om något fel uppstår.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Stäng även av GC, dataförflyttning och replikering innan du startar uppgraderingen (steg #6) så att dessa jobb inte leder till längre DDFS-avstängningstid under uppgraderingen. Kortare tid för DDFS-avstängning hjälper till att minimera påverkan på klienterna. Dessa arbetsbelastningar påverkar inte klientens säkerhetskopierings-/återställningsåtgärder. Baserat på behov kan dessa tjänster återupptas efter att uppgraderingen har slutförts med hjälp av motsvarande aktiveringskommandon. Mer information finns i administrationsmanualen.
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Observera att det finns några "bevaka"-kommandon för att kontrollera om ovanstående operationer är utförda.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
Det finns några andra manuella kontroller och kommandon som beskrivs i administrationsmanualen som inte är absolut nödvändiga för ett HA-system. Före omstart föreslås för närvarande som ett test för system med en nod. Det behövs inte för HA-system eftersom #5 "ha-redundans" nedan redan innehåller en automatisk omstart under redundansväxlingsprocessen.
- Valfri. Innan du kör rullande uppgradering rekommenderar vi att du gör HA-redundans två gånger manuellt på den aktiva noden. Syftet är att testa failover-funktionaliteten. Operationen kommer att göra att den aktiva noden startas om, var medveten om det.
Förbered först redundansväxlingen genom att inaktivera GC, dataflytt och replikering. Dessa tjänster påverkar inte klientens arbetsbelastningar för säkerhetskopiering/återställning. Kör sedan "ha failover".
Kommandona för att göra detta är följande:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Observera att det finns några "bevaka"-kommandon för att kontrollera om ovanstående operationer är utförda.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
Kör sedan failover-kommandot:
Active-node # ha failoverDen här åtgärden initierar en redundansväxling från den här noden. Den lokala noden startas om.
Vill du fortsätta? (ja|nej) [nej]: ja
Failover-åtgärd initierad. Kör "ha status" för att övervaka status
(När HA-systemstatusen blir "hög tillgänglighet" igen kör du den andra "ha-redundansväxlingen" och väntar tills båda noderna blir online)
Efter HA-redundansväxlingen kan de stoppade tjänsterna återupptas med hjälp av motsvarande aktiveringskommandon. Mer information finns i administrationsmanualen.
Ovanstående test av redundans är valfritt och behöver inte utföras precis före uppgraderingen. Redundanstesterna kan utföras före uppgraderingen, till exempel två veckor, så att en mindre underhållsperiod kan användas för den senare uppgraderingen. DDFS-tjänstens stilleståndstid för varje redundansväxling är cirka 10 minuter (mindre eller mer beroende på DDOS-versioner och vissa andra faktorer). DDOS version 7.4 och senare kommer att ha färre driftavbrott version för version på grund av kontinuerliga DDOS SW-förbättringar.
- Om förkontrollen har slutförts utan problem fortsätter du med den löpande uppgraderingen på den aktiva noden.
Active-node # system upgrade start <rpm file> Kommandot "system upgrade" uppgraderar Data Domain-operativsystemet. Filåtkomst
avbryts under uppgraderingen. Systemet startas om automatiskt
efter uppgraderingen.
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
DDFS-tillgänglighet under kommandot ovan:
-
Den uppgraderar standby-noden först och startar om den till den nya versionen. Det tar ungefär 20 minuter till 30 minuter beroende på olika faktorer. DDFS-tjänsten är igång och fungerar på den aktiva noden under den här perioden utan någon prestandaförsämring.
-
När det nya DDOS har tillämpats redundansväxlar systemet DDFS-tjänsten till den uppgraderade väntelägesnoden. Det tar ungefär 10 minuter (mindre eller mer beroende på olika faktorer).
-
En viktig faktor är uppgraderingen av den fasta programvaran för DAE. Det kan ge ~20 minuters driftavbrott beroende på hur många DAE:er som har konfigurerats. Se KB "Data Domain: Löpande uppgradering av HA kan misslyckas för uppgradering av fast programvara för externt hölje", för att avgöra om en uppgradering av den fasta programvaran för DAE krävs. Observera att från och med DDOS 7.5 finns det en förbättring för att aktivera onlineuppgradering av fast programvara för DAE, vilket eliminerar detta problem.
-
Dells support kan kontaktas för att diskutera faktorer som kan påverka uppgraderingstiden. Beroende på klientens operativsystem, program och protokollet mellan klienten och HA-systemet kan användaren ibland behöva återuppta klientens arbetsbelastningar manuellt direkt efter redundansväxlingen. Om du till exempel har DDBoost-klienter och redundansväxlingstiden är över 10 minuter måste klientens timeout och användaren måste återuppta arbetsbelastningarna manuellt. Men det finns vanligtvis avstämningsbara funktioner tillgängliga för klienter för att ange timeout-värden och återförsökstider.
-
-
Efter redundansväxlingen uppgraderas den tidigare aktiva noden. När uppgraderingen har tillämpats startas den om till den nya versionen och återansluter sedan till HA-klustret som väntelägesnod. DDFS-tjänsten påverkas inte under den här processen eftersom den redan har återupptagits i #II ovan.
- När standby-noden (node1) har startats om och blir tillgänglig är det möjligt att logga in standby-noden för att övervaka uppgraderingsstatusen/förloppet.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- Vänta tills den löpande uppgraderingen är klar. Före det ska du inte utlösa någon HA-redundansåtgärd.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Kontrollera HA-status, båda noderna är online, HA-systemstatusen är "hög tillgänglighet".
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verifiering:
- Kontrollera att båda noderna har samma DDOS-version.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Kontrollera om det uppstår några oväntade varningar.
Node1 # alert show current
Node0 # alert show current
- Nu har den rullande uppgraderingen slutförts.
Obs! Om du stöter på problem med uppgraderingen kontaktar du Data Domain Support för ytterligare instruktioner och support.
LOKAL UPPGRADERING för DDHA-par:
En lokal uppgradering fungerar i stort sett så här:
Förbered systemet för uppgradering:
- Kontrollera HA-systemstatus. Även om statusen är försämrad kan lokal uppgradering fungera i den här situationen.
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPM-filen ska placeras på båda noderna och uppgraderingen bör starta från standby-noden.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- Ladda upp RPM-filen till båda noderna.
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- Kör förkontroll på den aktiva noden om HA-statusen är "hög tillgänglighet". Uppgraderingen bör avbrytas om något fel uppstår.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
Om HA-statusen är "degraderad" måste du göra förkontroll på båda noderna.
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- Koppla från standby-noden.
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(NOTERA: Om offlineåtgärden misslyckades eller om ha-statusen är försämrad fortsätter du med den lokala uppgraderingen eftersom senare steg kan hantera fel.)
- Kontrollera att standby-nodens status är offline.
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Utför uppgraderingen på standby-noden. Den här åtgärden anropar omstart av standbynoden.
Kommandot "system upgrade" uppgraderar Data Domain-operativsystemet. Filåtkomst
avbryts under uppgraderingen. Systemet startas om automatiskt
efter uppgraderingen.
Är du säker? (ja|nej) [nej]: ja
OK, fortsätt.
Flaggan "lokal" är mycket störande för HA-system och bör endast användas som en reparationsåtgärd.
Är du säker? (ja|nej) [nej]: ja
OK, fortsätt.
Uppgradering pågår:
Nod 1: fas 3/4 (omstart 0
%) Uppgraderingen har startat. Systemet startas om.
- Standby-noden startas om till den nya versionen av DDOS men förblir offline.
- Kontrollera status för systemuppgraderingen. Det kan ta mer än 30 minuter att slutföra OS-uppgraderingen.
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Kontrollera HA-systemstatus, standby-noden (i det här fallet är det nod 1) är offline, HA-statusen är "degraderad".
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Utför den lokala uppgraderingen på den aktiva noden. Den aktiva noden startas om.
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- Kontrollera status för systemuppgraderingen. Det kan ta mer än 30 minuter att slutföra OS-uppgraderingen.
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- När uppgraderingen av den aktiva noden är klar försämras HA-systemstatusen fortfarande. Kör följande kommando för att göra standby-noden online. Den startar om standby-noden.
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(NOTERA: Om "ha offline" inte kördes i föregående steg kan du ignorera det här steget)
- Väntelägesnoden startas om och återansluter till klustret. Efter det blir HA-statusen "hög tillgänglighet" igen.
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verifiering:
- Kontrollera att båda noderna har samma DDOS-version.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Kontrollera om det uppstår några oväntade varningar.
Node1 # alert show current
Node0 # alert show current
- Nu har den rullande uppgraderingen slutförts.
Additional Information
Löpande uppgradering:
-
Observera att en enda redundans utförs under uppgraderingen, så rollerna byts ut
-
Information om uppgraderingar sparas fortfarande i infra.log men det kan finnas ytterligare information i ha.log
-
Uppgraderingsförloppet kan övervakas via systemuppgraderingsbevakningen
Uppgradering av lokal nod:
-
En uppgradering av en lokal nod utför inte HA-failover-funktion
-
Därför blir det en längre stilleståndsperiod medan den aktiva noden uppgraderar/startar om/utför uppgraderingsaktiviteter efter omstarten, vilket sannolikt leder till att säkerhetskopieringar/återställningar överskrider tidsgränsen och misslyckas. Kräv allokering av ett underhållstidsfönster för lokal uppgradering.
-
Även om HA-systemstatusen är "degraderad" kan den lokala uppgraderingen fortsätta.
-
Av någon anledning kan den löpande uppgraderingen misslyckas oväntat. Lokal uppgradering kan betraktas som en korrigeringsmetod i den här situationen.