Data Domain: Guia de upgrade do sistema operacional para sistemas de alta disponibilidade (HA)
Summary: Visão geral do processo para upgrades do Data Domain Operating System (DDOS) em equipamentos Data Domain "Highly Available" (DDHA).
Instructions
Para reduzir o tempo de inatividade para manutenção planejada, o upgrade contínuo do sistema está incluído na arquitetura de HA. Um upgrade contínuo pode fazer upgrade do nó em espera primeiro e, em seguida, usar um failover de HA esperado para mover os serviços do nó ativo para o nó em espera. Por fim, os nós ativos anteriores farão upgrade e se juntarão novamente no cluster de HA como nó em espera. Todos os processos são realizados em um único comando.
Uma abordagem alternativa de upgrade manual é o "upgrade local". Primeiro, faça upgrade manual do nó em espera e, em seguida, faça upgrade manual do nó ativo. Por fim, o nó em espera se juntará novamente ao cluster de HA. O upgrade local pode ser realizado para upgrade regular ou para corrigir problemas.
Todas as operações de upgrade do sistema no nó ativo exigem conversão de dados que podem não iniciar até que ambos os sistemas tenham feito upgrade para o mesmo nível e o estado de HA seja totalmente restaurado.
A partir do DDOS 5.7 são compatíveis dois tipos de métodos de upgrade de sistemas de HA:
-
Upgrade contínuo — faz upgrade automaticamente de ambos os nós de HA com um único comando. O serviço é movido para o outro nó após o upgrade.
-
Upgrade local — faz upgrade manualmente dos nós de HA um por um. O serviço é mantido no mesmo nó após o upgrade.
Prepare o sistema para upgrade:
-
Certifique-se de que o status do sistema de HA seja "highly available".
GUI de log-in à Página inicial à Painel
- O arquivo RPM do DDOS deve ser colocado no nó ativo e o upgrade deve começar a partir deste nó.
GUI de log-in à Página inicial à Painel
- Fazer upload do arquivo RPM no nó ativo
Após o upload, o arquivo RPM será listado.
- Execute a pré-verificação no nó ativo. O upgrade deve ser abortado se ocorrer algum erro.
Desligue também a GC, a movimentação de dados e a replicação antes de iniciar o upgrade (etapa 6) para que essas tarefas não levem a um tempo maior de desligamento do DDFS durante o upgrade. Um tempo menor de desligamento do DDFS ajudará a minimizar os impactos nos clients. Essas cargas de trabalho não afetam as operações de backup ou a restauração do client.
Com base nas necessidades, esses serviços podem ser retomados após a conclusão do upgrade, usando os comandos de ativação correspondentes. Consulte o guia de administração para obter mais detalhes.
Existem algumas outras verificações manuais e comandos descritos no guia de administração que não são estritamente necessários para um sistema de HA. Atualmente, a pré-reinicialização é sugerida como um teste para sistemas de nó único. Não é necessário para sistemas de HA, pois o "failover de HA" nº 5 abaixo já inclui uma reinicialização automática durante o processo de failover.
- Opcional. Antes de executar o upgrade contínuo, é recomendável executar o failover de HA duas vezes manualmente no nó ativo. O objetivo é testar a funcionalidade do failover. A operação reinicializará o nó ativo, esteja ciente disso.
Em primeiro lugar, prepare-se para o failover desligando GC, a movimentação de dados e a replicação. Consulte o guia de administração para saber como fazer isso via GUI. Esses serviços não afetam as cargas de trabalho de backup ou a restauração do client. Em seguida, prossiga com o "failover de HA".

(Quando o status do sistema de HA voltar a ser "highly available", execute o segundo "failover de HA" e aguarde até que ambos os nós fiquem on-line)
Após o failover de HA, os serviços interrompidos podem ser retomados usando os comandos de ativação correspondentes. Consulte o guia de administração para obter mais detalhes.
Os testes de failover acima são opcionais e não precisam ser realizados imediatamente antes do upgrade. Os testes de failover podem ser realizados antes do upgrade, por exemplo, duas semanas, para que uma janela de manutenção menor possa ser usada para o upgrade posterior. O tempo de inatividade do serviço DDFS para cada failover é de cerca de 10 minutos (menos ou mais, dependendo das versões do DDOS e de alguns outros fatores). As versões 7.4 e posteriores do DDOS terão menos tempo de inatividade a cada versão devido aos aprimoramentos contínuos de software do DDOS.
- Se a pré-verificação for concluída sem problemas, prossiga com o upgrade contínuo no nó ativo.
- Aguarde a conclusão do upgrade contínuo. Antes disso, não acione nenhuma operação de failover de HA.
Disponibilidade do DDFS durante o comando acima:
-
Primeiro, fará o upgrade do nó em espera e o reinicializará para a nova versão. Leva aproximadamente de 20 minutos a 30 minutos, dependendo de vários fatores. O serviço DDFS está ativo e opera no nó ativo durante este período sem qualquer degradação de desempenho.
-
Após a aplicação do novo DDOS, o sistema realizará o failover do serviço DDFS para o nó em espera que recebeu upgrade. Leva aproximadamente 10 minutos (menos ou mais, dependendo de vários fatores).
-
Um fator significativo é o upgrade do firmware do DAE. Isso pode gerar cerca de 20 minutos a mais de tempo de inatividade, dependendo de quantos DAEs estiverem configurados. Consulte a KB "Data Domain: O upgrade contínuo de HA pode falhar para firmwares de compartimentos externos que passaram por upgrade", para determinar se é necessário um upgrade do firmware do DAE. Observe que, a partir do DDOS 7.5, há um aprimoramento para ativar o upgrade on-line do firmware do DAE, eliminando essa preocupação.
-
O suporte Dell pode ser contatado para discutir fatores que podem afetar os tempos de upgrade. Dependendo do sistema operacional do client, do aplicativo e do protocolo entre o client e o sistema de HA, às vezes o usuário pode precisar retomar manualmente as cargas de trabalho do client logo após o failover. Por exemplo, se com clients DDBoost e o tempo de failover for superior a 10 minutos, o tempo limite do client será atingido e o usuário precisará retomar manualmente as cargas de trabalho. No entanto, geralmente, há ajustes disponíveis nos clients para definir valores de tempo limite e tempos de repetição.
-
Observe que o serviço DDFS fica inativo durante o período de failover. Ao observar a saída do comando "filesys status" no nó atualizado, é possível saber se o serviço DDFS foi retomado ou não. Espera-se que as versões 7.4 e posteriores do DDOS apresentem cada vez menos tempo de inatividade devido aos aprimoramentos no código do DDOS.
Após o failover, o nó ativo anteriormente será atualizado. Após a aplicação do upgrade, ele será reinicializado para a nova versão e, em seguida, se juntará novamente ao cluster HA como o nó em espera. O serviço DDFS não é afetado durante este processo, pois já foi retomado no nºII acima.
Verificação:
- Após a conclusão do upgrade contínuo, é necessário efetuar log-in na GUI através do endereço IP do nó pré-em espera, neste caso, é o nó 1.
- Verifique se há algum alerta inesperado.
- Neste ponto, o upgrade contínuo foi concluído com sucesso.
Upgrade contínuo via CLI:
Prepare o sistema para upgrade:
- Certifique-se de que o status do sistema de HA seja "highly available".
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- O arquivo RPM do DDOS deve ser colocado no nó ativo e o upgrade deve começar a partir deste nó.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- Fazer upload do arquivo RPM no nó ativo
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- Execute a pré-verificação no nó ativo. O upgrade deve ser abortado se ocorrer algum erro.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Desligue também a GC, a movimentação de dados e a replicação antes de iniciar o upgrade (etapa 6) para que essas tarefas não levem a um tempo maior de desligamento do DDFS durante o upgrade. Um tempo menor de desligamento do DDFS ajudará a minimizar os impactos nos clients. Essas cargas de trabalho não afetam as operações de backup/restauração do client. Com base nas necessidades, esses serviços podem ser retomados após a conclusão do upgrade, usando os comandos de ativação correspondentes. Consulte o guia de administração para obter mais detalhes.
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Observe que existem alguns comandos "watch" para verificar se as operações acima foram realizadas.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
Existem algumas outras verificações manuais e comandos descritos no guia de administração que não são estritamente necessários para um sistema de HA. Atualmente, a pré-reinicialização é sugerida como um teste para sistemas de nó único. Não é necessário para sistemas de HA, pois o "failover de HA" nº 5 abaixo já inclui uma reinicialização automática durante o processo de failover.
- Opcional. Antes de executar o upgrade contínuo, é recomendável executar o failover de HA duas vezes manualmente no nó ativo. O objetivo é testar a funcionalidade do failover. A operação reinicializará o nó ativo, esteja ciente disso.
Em primeiro lugar, prepare-se para o failover desativando GC, a movimentação de dados e a replicação. Esses serviços não afetam as cargas de trabalho de backup ou a restauração do client. Em seguida, execute o "failover de HA".
Os comandos para fazer isso são os seguintes:
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
Observe que existem alguns comandos "watch" para verificar se as operações acima foram realizadas.
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
E, em seguida, execute o comando de failover:
Active-node # ha failoverEsta operação iniciará um failover deste nó. O nó local será reinicializado.
Do you want to proceed? (yes|no) [no]: yes
Failover operation initiated. Run 'ha status' to monitor the status
(Quando o status do sistema de HA voltar a ser "highly available", execute o segundo "failover de HA" e aguarde até que ambos os nós fiquem on-line)
Após o failover de HA, os serviços interrompidos podem ser retomados usando os comandos de ativação correspondentes. Consulte o guia de administração para obter mais detalhes.
Os testes de failover acima são opcionais e não precisam ser realizados imediatamente antes do upgrade. Os testes de failover podem ser realizados antes do upgrade, por exemplo, duas semanas, para que uma janela de manutenção menor possa ser usada para o upgrade posterior. O tempo de inatividade do serviço DDFS para cada failover é de cerca de 10 minutos (menos ou mais, dependendo das versões do DDOS e de alguns outros fatores). As versões 7.4 e posteriores do DDOS terão menos tempo de inatividade a cada versão devido aos aprimoramentos contínuos de software do DDOS.
- Se a pré-verificação for concluída sem problemas, prossiga com o upgrade contínuo no nó ativo.
Active-node # system upgrade start <rpm file> O comando "system upgrade" faz upgrade do sistema operacional do Data Domain. O acesso ao arquivo
é interrompido durante o upgrade. O sistema é reinicializado automaticamente
após o upgrade.
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
Disponibilidade do DDFS durante o comando acima:
-
Primeiro, fará o upgrade do nó em espera e o reinicializará para a nova versão. Leva aproximadamente de 20 minutos a 30 minutos, dependendo de vários fatores. O serviço DDFS está ativo e opera no nó ativo durante este período sem qualquer degradação de desempenho.
-
Após a aplicação do novo DDOS, o sistema realizará o failover do serviço DDFS para o nó em espera que recebeu upgrade. Leva aproximadamente 10 minutos (menos ou mais, dependendo de vários fatores).
-
Um fator significativo é o upgrade do firmware do DAE. Isso pode gerar cerca de 20 minutos a mais de tempo de inatividade, dependendo de quantos DAEs estiverem configurados. Consulte a KB "Data Domain: O upgrade contínuo de HA pode falhar para firmwares de compartimentos externos que passaram por upgrade", para determinar se é necessário um upgrade do firmware do DAE. Observe que, a partir do DDOS 7.5, há um aprimoramento para ativar o upgrade on-line do firmware do DAE, eliminando essa preocupação.
-
O suporte Dell pode ser contatado para discutir fatores que podem afetar os tempos de upgrade. Dependendo do sistema operacional do client, do aplicativo e do protocolo entre o client e o sistema de HA, às vezes o usuário pode precisar retomar manualmente as cargas de trabalho do client logo após o failover. Por exemplo, se com clients DDBoost e o tempo de failover for superior a 10 minutos, o tempo limite do client será atingido e o usuário precisará retomar manualmente as cargas de trabalho. No entanto, geralmente, há ajustes disponíveis nos clients para definir valores de tempo limite e tempos de repetição.
-
-
Após o failover, o nó ativo anteriormente será atualizado. Após a aplicação do upgrade, ele será reinicializado para a nova versão e, em seguida, se juntará novamente ao cluster HA como o nó em espera. O serviço DDFS não é afetado durante este processo, pois já foi retomado no nºII acima.
- Após o nó em espera (nó 1) ser reinicializado e se tornar acessível, é possível fazer log-in no nó em espera para monitorar o status/progresso do upgrade.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- Aguarde a conclusão do upgrade contínuo. Antes disso, não acione nenhuma operação de failover de HA.
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Verifique o status de HA, ambos os nós estão on-line, o status do sistema de HA é "highly available".
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verificação:
- Verifique se ambos os nós têm a mesma versão do DDOS.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Verifique se há algum alerta inesperado.
Node1 # alert show current
Node0 # alert show current
- Neste ponto, o upgrade contínuo foi concluído com sucesso.
Nota: Se você enfrentar algum problema com o upgrade, entre em contato com o suporte do Data Domain para obter mais instruções e suporte.
UPGRADE LOCAL para o par de DDHA:
Um upgrade local funciona basicamente da seguinte forma:
Prepare o sistema para upgrade:
- Verifique o status do sistema de HA. Mesmo que o status esteja degradado, o upgrade local pode funcionar nessa situação.
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- O arquivo RPM do DDOS deve ser colocado em ambos os nós e o upgrade deve começar a partir deste nó em espera.
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- Faça o upload do arquivo RPM para ambos os nós.
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- Execute a pré-verificação no nó ativo se o status de HA for "highly available". O upgrade deve ser abortado se ocorrer algum erro.
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
Se o status de HA for "degraded", será necessário realizar a pré-verificação em ambos os nós.
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- Coloque o nó em espera off-line.
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(Nota: Se a operação off-line falhar ou o status de ha estiver "degraded", continue o upgrade local, pois as etapas posteriores podem lidar com falhas.)
- Certifique-se de que o status do nó em espera esteja off-line.
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Faça o upgrade no nó em espera. Esta operação invocará a reinicialização do nó em espera.
O comando "system upgrade" faz upgrade do sistema operacional do Data Domain. O acesso ao arquivo
é interrompido durante o upgrade. O sistema é reinicializado automaticamente
após o upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
O sinalizador "local" é altamente prejudicial aos sistemas de HA e deve ser usado apenas como uma operação de reparo.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node 1: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- O nó em espera será reinicializado na nova versão do DDOS, mas permanecerá off-line.
- Verifique o status do upgrade do sistema, pode levar mais de 30 minutos para concluir o upgrade do sistema operacional.
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Verifique o status do sistema de HA, o nó em espera (nesse caso, é nó 1) está off-line, o status de HA é "degraded".
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- Faça o upgrade local no nó ativo. Esta operação reinicializará o nó ativo.
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- Verifique o status do upgrade do sistema, pode levar mais de 30 minutos para concluir o upgrade do sistema operacional.
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- Após a conclusão do upgrade do nó ativo, o status do sistema de HA ainda está degradado. Execute o seguinte comando para tornar o nó em espera on-line. Ele reinicializará o nó em espera.
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(Nota: Se "ha off-line" não tiver sido executado nas etapas anteriores, ignore esta etapa)
- O nó em espera será reinicializado e se juntará novamente ao cluster. Após isso, o status de HA voltará a ser "highly available".
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
Verificação:
- Verifique se ambos os nós têm a mesma versão do DDOS.
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- Verifique se há algum alerta inesperado.
Node1 # alert show current
Node0 # alert show current
- Neste ponto, o upgrade contínuo foi concluído com sucesso.
Additional Information
Upgrade contínuo:
-
Observe que um único failover é executado durante o upgrade, portanto, as funções serão trocadas
-
As informações de upgrade continuam sendo mantidas em infra.log, mas pode haver informações adicionais em ha.log
-
O progresso do upgrade pode ser monitorado por meio do system upgrade watch
Upgrade de nó local:
-
Um upgrade de nó local não executa failover de HA
-
Como resultado, haverá um longo período de inatividade enquanto o nó ativo faz upgrade/reinicializa/executa atividades de upgrade pós-reinicialização, o que provavelmente fará com que os backups/restaurações atinjam o tempo limite e falhem. Requer a alocação de um espaço de tempo de manutenção para o upgrade local.
-
Mesmo com o status do sistema de HA "degraded", é possível prosseguir com o upgrade local.
-
Por algum motivo, o upgrade contínuo pode falhar inesperadamente. O upgrade local pode ser considerado um método de correção nessa situação.