DataDomain: OS-opgraderingsvejledning til HA-systemer (High Availability)
摘要: Procesoversigt for DDOS-opgraderinger (Data Domain Operation System) på Data Domain "Highly Available"-enheder (DDHA).
说明
For at reducere planlagt nedetid for vedligeholdelse er systemrullende opgradering inkluderet i HA-arkitekturen. En rullende opgradering kan opgradere standbynoden først og derefter bruge en forventet HA-failover til at flytte tjenesterne fra den aktive node til standbynoden. Endelig vil tidligere aktive noder blive opgraderet og slutte sig til HA-klyngen igen som standbynode. Alle processer udføres i en kommando.
En alternativ tilgang til manuel opgradering er "lokal opgradering". Opgrader først standbynoden manuelt, og opgrader derefter den aktive node manuelt. Til sidst ville standbynoden slutte sig til HA-klyngen igen. Lokal opgradering kan udføres enten for at foretage en almindelig opgradering eller for at løse problemer.
Alle systemopgraderingshandlinger på en aktiv node, der kræver datakonvertering, starter muligvis ikke, før begge systemer er opgraderet til samme niveau, og HA-tilstanden er helt genoprettet.
DDOS 5.7 og fremefter understøtter to typer opgraderingsmetoder for HA-systemer:
-
Rullende opgradering – opgrader automatisk begge HA-noder med én kommando. Tjenesten flyttes til den anden node efter opgradering.
-
Lokal opgradering – opgrader HA-noder manuelt én efter én. Tjenesten bevares i den samme node efter opgraderingen.
Klargør systemet til opgradering:
-
Sørg for, at HA-systemstatus er "meget tilgængelig".
Login GUI à Home à Dashboard
- DDOS RPM-filen skal placeres på en aktiv node, og opgraderingen skal starte fra denne node.
Login GUI à Home à Dashboard
- Upload RPM-fil til aktiv node
Efter upload vises RPM-filen.
- Kør forhåndskontrol på aktiv node. Opgraderingen bør afbrydes, hvis der opstår fejl.
Luk også GC, dataflytning og replikering, før du starter opgraderingen (trin #6), så disse job ikke fører til længere DDFS-nedlukningstid under opgraderingen. Kortere DDFS-nedlukningstid hjælper med at minimere påvirkningen af kunderne. Disse workloads påvirker ikke sikkerhedskopierings-/gendannelseshandlingerne for klienterne.
Baseret på behov kan disse tjenester genoptages, når opgraderingen er fuldført ved hjælp af de tilsvarende aktiveringskommandoer. Se venligst administrationsvejledningen for flere detaljer.
Der er nogle andre manuelle kontroller og kommandoer, der er beskrevet i administrationsvejledningen, som ikke er strengt nødvendige for et HA-system. Før-genstart foreslås i øjeblikket som en test for systemer med en enkelt node. Det er ikke nødvendigt for HA-systemer, fordi #5 "ha failover" nedenfor allerede inkluderer en automatisk genstart under failover-processen.
- Valgfri. Før du kører rullende opgradering, anbefales det at udføre HA-failover to gange manuelt på den aktive node. Formålet er at teste failover-funktionalitet. Handlingen vil gøre aktiv node genstartet, vær opmærksom på det.
Først skal du forberede dig på failover ved at lukke GC, dataflytning og replikering. Se administrationsvejledningen for at finde ud af, hvordan du gør det via GUI. Disse services påvirker ikke arbejdsbelastninger ved sikkerhedskopiering/gendannelse af klienter. Fortsæt derefter med "ha failover".

(Når HA-systemstatus bliver 'highly available' igen, skal du udføre den anden 'ha failover' og vente på, at begge noder bliver online)
Efter HA-failover kan de stoppede tjenester genoptages ved hjælp af de tilsvarende aktiveringskommandoer. Se venligst administrationsvejledning for flere detaljer.
Ovenstående failover-test er valgfrie og behøver ikke udføres lige før opgraderingen. Failover-testene kan udføres før opgraderingen, f.eks. to uger, så et mindre vedligeholdelsesvindue kan bruges til den senere opgradering. DDFS-tjenestens nedetid for hver failover er omkring 10 minutter (mindre eller mere afhængigt af DDOS-versioner og nogle andre faktorer). DDOS-version 7.4 og nyere vil have mindre nedetid udgivelse efter version på grund af kontinuerlige DDOS SW-forbedringer.
- Hvis forhåndskontrollen er fuldført uden problemer, skal du fortsætte med at opgradere på den aktive node.
- Vent, indtil den rullende opgradering er færdig. Før den må du ikke udløse nogen HA-failover-handling.
DDFS-tilgængelighed under ovenstående kommando:
-
Den opgraderer standbynoden først og genstarter den til den nye version. Det tager cirka 20 minutter til 30 minutter afhængigt af forskellige faktorer. DDFS-tjenesten er oppe og kører på den aktive node i denne periode uden nogen forringelse af ydeevnen.
-
Når den nye DDOS er anvendt, vil systemet failover DDFS-tjenesten til den opgraderede standbynode. Det tager cirka 10 minutter (mindre eller mere afhængigt af forskellige faktorer).
-
En væsentlig faktor er DAE FW-opgradering. Det kan introducere ~ 20 minutter mere nedetid afhængigt af hvor mange DAE'er der er konfigureret. Se KB'ens "Data Domain: HA rullende opgradering mislykkes muligvis for opgraderet firmware til eksternt kabinet", for at afgøre om en DAE FW-opgradering er påkrævet. Bemærk, at fra og med DDOS 7.5 er der en forbedring for at aktivere onlineopgradering af DAE FW, hvilket eliminerer denne bekymring.
-
Dell Support kan blive kontaktet for at diskutere faktorer, der kan påvirke opgraderingstider. Afhængigt af klientens operativsystem, program og protokollen mellem klient- og HA-systemet kan det nogle gange været, at brugeren manuelt genoptager klientarbejdsbelastninger lige efter failover. Hvis der f.eks. med DDBoost-klienter og failover-tiden er over 10 minutter, skal klientens timeout og brugeren manuelt genoptage arbejdsbelastningerne. Men der er normalt justerbare tilgængelige på klienter til at indstille timeoutværdier og prøvetider igen.
-
Bemærk, at DDFS-tjenesten er nede i failover-perioden. Ved at se output af kommandoen "filesys status" på den opgraderede node, vil man vide, om DDFS-tjenesten genoptages eller ej. DDOS-versioner på 7.4 og nyere forventes at have mindre og mindre nedetid på grund af forbedringer af DDOS-koden.
Efter failover opgraderes den tidligere aktive node. Når opgraderingen er anvendt, genstarter den til den nye version og tilslutter derefter HA-klyngen igen som standbynode. DDFS-tjenesten påvirkes ikke under denne proces, da den allerede blev genoptaget i #II ovenfor.
Verifikation:
- Når opgraderingen er rullet, skal du logge på GUI via IP-adressen på noden før standby, i dette tilfælde er den node1.
- Kontroller, om der er uventede advarsler.
- På dette tidspunkt er den rullende opgradering fuldført.
Rullende opgradering via CLI:
Klargør systemet til opgradering:
- Sørg for, at HA-systemstatus er "meget tilgængelig".
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPM-filen skal placeres på en aktiv node, og opgraderingen skal starte fra denne node.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- Upload RPM-fil til aktiv node
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # systempakkeliste
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- Kør forhåndskontrol på aktiv node. Opgraderingen bør afbrydes, hvis der opstår fejl.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Luk også GC, dataflytning og replikering, før du starter opgraderingen (trin #6), så disse job ikke fører til længere DDFS-nedlukningstid under opgraderingen. Kortere DDFS-nedlukningstid hjælper med at minimere påvirkningen af kunderne. Disse workloads påvirker ikke sikkerhedskopierings-/gendannelseshandlingerne for klienterne. Baseret på behov kan disse tjenester genoptages, når opgraderingen er fuldført ved hjælp af de tilsvarende aktiveringskommandoer. Se venligst administrationsvejledningen for flere detaljer.
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Bemærk, at der er et par "watch" kommandoer til at kontrollere, om ovenstående operationer er udført.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
Der er nogle andre manuelle kontroller og kommandoer, der er beskrevet i administrationsvejledningen, som ikke er strengt nødvendige for et HA-system. Før-genstart foreslås i øjeblikket som en test for systemer med en enkelt node. Det er ikke nødvendigt for HA-systemer, fordi #5 "ha failover" nedenfor allerede inkluderer en automatisk genstart under failover-processen.
- Valgfri. Før du kører rullende opgradering, anbefales det at udføre HA-failover to gange manuelt på den aktive node. Formålet er at teste failover-funktionalitet. Handlingen vil gøre aktiv node genstartet, vær opmærksom på det.
Først skal du forberede dig på failover ved at deaktivere GC, dataflytning og replikering. Disse services påvirker ikke arbejdsbelastninger ved sikkerhedskopiering/gendannelse af klienter. Kør derefter "ha failover".
Kommandoerne til at gøre dette er som følger:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Bemærk, at der er et par "watch" kommandoer til at kontrollere, om ovenstående operationer er udført.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
Og kør derefter failover-kommando:
Active-node # ha failoverDenne handling starter en failover fra denne node. Den lokale node genstartes.
Vil du fortsætte? (ja|nej) [nej]: ja
Failover-handling påbegyndt. Kør 'ha status' for at overvåge status
(Når HA-systemstatus bliver 'highly available' igen, skal du udføre den anden 'ha failover' og vente på, at begge noder bliver online)
Efter HA-failover kan de stoppede tjenester genoptages ved hjælp af de tilsvarende aktiveringskommandoer. Se venligst administrationsvejledning for flere detaljer.
Ovenstående failover-test er valgfri og skal ikke udføres lige før opgraderingen. Failover-testene kan udføres før opgraderingen, f.eks. to uger, så et mindre vedligeholdelsesvindue kan bruges til den senere opgradering. DDFS-tjenestens nedetid for hver failover er omkring 10 minutter (mindre eller mere afhængigt af DDOS-versioner og visse andre faktorer). DDOS version 7.4 og nyere vil have mindre nedetid udgivelse for version på grund af kontinuerlige DDOS SW-forbedringer.
- Hvis forhåndskontrollen er fuldført uden problemer, skal du fortsætte med at opgradere på den aktive node.
Active-node # system upgrade start <rpm file> Kommandoen "systemopgradering" opgraderer Data Domain-operativsystemet. Filadgang
afbrydes under opgraderingen. Systemet genstarter automatisk
efter opgraderingen.
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
DDFS-tilgængelighed under ovenstående kommando:
-
Den opgraderer standbynoden først og genstarter den til den nye version. Det tager cirka 20 minutter til 30 minutter afhængigt af forskellige faktorer. DDFS-tjenesten er oppe og kører på den aktive node i denne periode uden nogen forringelse af ydeevnen.
-
Når den nye DDOS er anvendt, vil systemet failover DDFS-tjenesten til den opgraderede standbynode. Det tager cirka 10 minutter (mindre eller mere afhængigt af forskellige faktorer).
-
En væsentlig faktor er DAE FW-opgradering. Det kan introducere ~ 20 minutter mere nedetid afhængigt af hvor mange DAE'er der er konfigureret. Se KB'ens "Data Domain: HA rullende opgradering mislykkes muligvis for opgraderet firmware til eksternt kabinet", for at afgøre om en DAE FW-opgradering er påkrævet. Bemærk, at fra og med DDOS 7.5 er der en forbedring for at aktivere onlineopgradering af DAE FW, hvilket eliminerer denne bekymring.
-
Dell Support kan blive kontaktet for at diskutere faktorer, der kan påvirke opgraderingstider. Afhængigt af klientens operativsystem, program og protokollen mellem klient- og HA-systemet kan det nogle gange været, at brugeren manuelt genoptager klientarbejdsbelastninger lige efter failover. Hvis der f.eks. med DDBoost-klienter og failover-tiden er over 10 minutter, skal klientens timeout og brugeren manuelt genoptage arbejdsbelastningerne. Men der er normalt tunables tilgængelige på klienter til at indstille timeoutværdier og prøvetider igen.
-
-
Efter failover opgraderes den tidligere aktive node. Når opgraderingen er anvendt, genstarter den til den nye version og tilslutter derefter HA-klyngen igen som standbynode. DDFS-tjenesten påvirkes ikke under denne proces, da den allerede blev genoptaget i #II ovenfor.
- Når standbynoden (node 1) genstartes og bliver tilgængelig, er det muligt at logge på standbynoden for at overvåge opgraderingsstatus/-status.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- Vent, indtil den rullende opgradering er færdig. Før den må du ikke udløse nogen HA-failover-handling.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Kontroller HA-status, begge noder er online, HA-systemstatus er 'meget tilgængelig'.
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verifikation:
- Kontroller, at begge noder har samme DDOS-version.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Kontroller, om der er uventede advarsler.
Node1 # alert show current
Node0 # alert show current
- På dette tidspunkt er den rullende opgradering fuldført.
Bemærk: Hvis du støder på problemer med opgraderingen, skal du kontakte Data Domain Support for at få yderligere instruktioner og support.
LOKAL OPGRADERING til DDHA-par:
En lokal opgradering fungerer stort set som følger:
Klargør systemet til opgradering:
- Kontrollér status for HA-system. Selv status er forringet, lokal opgradering kan arbejde på denne situation.
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPM-fil skal placeres på begge noder, og opgraderingen skal starte fra standbynode.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- Upload RPM-fil til begge noder.
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- Kør forhåndskontrol på den aktive node, hvis HA-status er "meget tilgængelig". Opgraderingen bør afbrydes, hvis der opstår fejl.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
Hvis HA-status er "forringet", skal du foretage en forhåndskontrol på begge noder.
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- Gør standbynoden offline.
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(BEMÆRK: Hvis offline-handling mislykkedes, eller ha-status er forringet, skal du fortsætte den lokale opgradering, da senere trin kan håndtere fejl.)
- Sørg for, at standbynodestatus er offline.
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Udfør opgraderingen på standbynoden. Denne handling starter genstart af standbynode.
Kommandoen "systemopgradering" opgraderer Data Domain-operativsystemet. Filadgang
afbrydes under opgraderingen. Systemet genstarter automatisk
efter opgraderingen.
Er du sikker? (ja|nej) [nej]: ja
OK, fortsætter.
Det "lokale" flag er meget forstyrrende for HA-systemer og bør kun bruges som reparationsoperation.
Er du sikker? (ja|nej) [nej]: ja
OK, fortsætter.
Opgradering i gang:
Node 1: fase 3/4 (genstart 0%)
Opgraderingen er påbegyndt. Systemet genstartes.
- Standbynoden genstartes til den nye version af DDOS, men forbliver offline.
- Kontroller status for systemopgraderingen. Det kan tage mere end 30 minutter at afslutte OS-opgraderingen.
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Kontroller HA-systemstatus, standbynode (i dette tilfælde er det node1) er offline, HA-status er 'forringet'.
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Udfør den lokale opgradering på den aktive node. Denne handling genstarter den aktive node.
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- Kontroller status for systemopgraderingen. Det kan tage mere end 30 minutter at afslutte OS-opgraderingen.
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Når den aktive nodeopgradering er afsluttet, er HA-systemstatus stadig forringet. Udfør følgende kommando for at gøre standbynode online, den genstarter standbynoden.
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(BEMÆRK: Hvis "ha offline" ikke blev kørt i de foregående trin, skal du ignorere dette trin)
- Standbynoden genstarter og tilslutter klyngen igen. Derefter bliver HA-status igen "meget tilgængelig".
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verifikation:
- Kontroller, at begge noder har samme DDOS-version.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Kontroller, om der er uventede advarsler.
Node1 # alert show current
Node0 # alert show current
- På dette tidspunkt er den rullende opgradering fuldført.
其他信息
Rullende opgradering:
-
Bemærk, at der udføres en enkelt failover under opgraderingen, så rollerne byttes
-
Opgraderingsoplysninger opbevares fortsat i infra.log men der kan være yderligere oplysninger i ha.log
-
Opgraderingens fremgang kan overvåges via overvågning af systemopgradering
Opgradering af lokal node:
-
En lokal nodeopgradering udfører ikke HA-failover
-
Derfor vil det være en længere periode med nedetid, mens den aktive node opgraderer/genstarter/udfører opgraderingsaktiviteter efter genstart, hvilket sandsynligvis vil medføre, at sikkerhedskopiering/gendannelse får timeout og mislykkes. Kræve, at der tildeles et tidsvindue for lokal opgradering.
-
Selv HA-systemstatus er 'forringet', lokal opgradering kan fortsættes.
-
Af en eller anden grund kan rullende opgradering mislykkes uventet. Lokal opgradering kan betragtes som en løsningsmetode i denne situation.