PowerScale, Isilon, OneFS: Como desligar corretamente um cluster
Resumo: Práticas recomendadas para desligar corretamente o PowerScale Cluster e inclui informações sobre os riscos associados a um desligamento inadequado do cluster. Procedimentos passo a passo para desligar o cluster corretamente. Algumas etapas devem ser executadas de 4 a 8 semanas antes do upgrade agendado. ...
Instruções
Introdução
Este artigo apresenta o procedimento para desligar corretamente o Isilon Cluster Dell e inclui informações sobre os riscos associados a um desligamento inadequado do cluster.
Os nós que são desligados incorretamente no cluster não devem ficar sem energia do sistema por mais tempo do que a vida útil da bateria NVRAM.
Isso é aproximadamente de três a cinco dias, dependendo do tipo de nó.
Se os dados ainda estiverem armazenados em um registro do nó enquanto o nó estiver sem energia por mais tempo do que a duração da bateria NVRAM, os dados serão perdidos.
Se isso acontecer em vários nós, o cluster precisará ser recriado.
Entre em contato com o suporte técnico do Dell Isilon para obter assistência se tiver dúvidas sobre os procedimentos ou informações deste artigo.
Procedimento
O procedimento de desligamento do cluster exige credenciais root e acesso ao console serial para os nós do cluster. O procedimento é dividido nas seguintes fases.
- Fase 1: Realize a manutenção preventiva
- Fase 2: Desligue todos os nós do cluster
- Fase 3: Verifique se os nós foram desligados com sucesso
- Fase 4: Desconecte a fonte de energia
- Fase 5: Ligue cada nó do cluster
- Fase 6: Execute uma verificação de integridade no cluster
Leia todo o procedimento antes de iniciar o processo de desligamento. Isso garante que você entenda o contexto e a ordem para concluir cada etapa.
Fase 1: Realize a manutenção preventiva.
Essas etapas são realizadas aproximadamente 4 a 8 semanas antes do desligamento agendado. O objetivo dessa fase é identificar problemas de hardware ou firmware desconhecidos ou latentes que possam impedir o procedimento de desligamento.
Se as circunstâncias exigirem um desligamento imediato em todo o cluster, você poderá desligar todos os nós simultaneamente usando a interface de linha de comando do OneFS ou a interface Web de administração do OneFS.
A Dell recomenda enfaticamente seguir todas as etapas da Fase 3 para preservar a integridade dos dados em caso de procedimento de desligamento de emergência.
- Carregue os logs para referência histórica, se necessário.
# isi diagnostics gather start --gather-mode full
- Realize ou solicite uma verificação de integridade do Isilon.
- Isso avalia a integridade do cluster para garantir que ele esteja em um bom status operacional compatível.
- Ele pode ser realizado pelo cliente usando o PowerScale: Como executar a ferramenta Isilon On-Cluster Analysis (IOCA)
- Ele pode ser realizado pela equipe Remote Reactive (Atendimento ao cliente). Isso está disponível para todos os clientes com um contrato de manutenção ativo para clusters em versões de código compatíveis. Se você atender a esses requisitos, abra um chamado (SR) no site do Suporte on-line da Dell solicitando uma "Verificação de integridade do Isilon". E forneça logs completos para a Verificação de integridade executando este comando
# isi diagnostics gather start --gather-mode full
*A Verificação de integridade não se destina a corrigir problemas do cluster nem avaliar a configuração, o desempenho ou o fluxo de trabalho do cluster.
- Realize uma "reinicialização a frio" de cada nó executando as etapas a seguir. Uma janela de manutenção deve ser agendada para esta atividade.
Nota: Esse processo permite identificar quaisquer erros de memória ou modos de falha de unidade que só são detectados quando o nó é ligado novamente.
- Desligue cada nó do cluster, um de cada vez. Para desligar cada nó:
- Abra uma conexão SSH com qualquer nó. Desligue cada nó executando o seguinte comando:
isi config shutdown <node_lnn>
- Verifique se cada nó foi desligado, confirmando se o LED verde indicador de energia na parte traseira do nó não está mais aceso.
- Pressione o botão liga/desliga para ligar o nó novamente.
- Verifique se o nó reingressou no cluster e está íntegro executando o comando
isi status -qe procurando pelo OK na coluna Health DASR da saída. - Se um nó encontrar os problemas indicados na coluna Health DASR ou não conseguir reingressar no cluster, resolva esses problemas antes de desligar o próximo nó.
Um exemplo de problema é selecionado. O nó 1 reingressou no cluster com sucesso, mas a coluna Health DASR indica que ele precisa de atenção.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Verifique novamente a integridade de todo o cluster depois de reinicializar cada nó. Abra uma conexão SSH com qualquer nó e execute o comando abaixo:
isi status -q
isi config reboot <node_lnn>
No entanto, a Dell recomenda enfaticamente o uso da abordagem de reinicialização a frio para identificar com mais eficiência problemas de hardware latentes.
Fase 2: Desligue todos os nós do cluster.
Essas etapas devem ser realizadas no dia em que você desligar o Isilon Cluster. Durante um desligamento em todo o cluster, alguns fatores podem afetar ou atrasar o processo de desligamento. Por exemplo, as gravações de dados pendentes em um nó podem afetar o desligamento. O objetivo das etapas 1 a 2 é garantir que todos os clients estejam desconectados do cluster e que os dados sejam salvos corretamente dos registros de nós no file system antes de executar o comando de desligamento. Se você tiver clients iSCSI, certifique-se de desligar os clients antes que o serviço iSCSI seja desativado.
A etapa 3 descreve como desligar cada nó do cluster sequencialmente usando um console serial. Esse método é recomendado porque permite verificar se cada nó foi desligado corretamente antes de passar para o próximo nó e fazer ajustes ou corrigir problemas conforme necessário para garantir um desligamento adequado do cluster. No entanto, esse método pode ser demorado porque requer a conexão de um console serial a cada nó para executar o comando de desligamento. A seção Desligar todos os nós simultaneamente do cluster descreve como usar a interface de linha de comando do OneFS ou a interface Web de administração do OneFS para desligar o cluster. Esse método consome menos tempo do que a etapa 3, mas torna mais difícil identificar os nós que encontram problemas durante o processo de desligamento.
- O Isilon recomenda isolar o cluster dos clients para garantir que clients com muitas gravações não impeçam o procedimento de desligamento. Você pode fazer isso desabilitando os serviços voltados para o client em execução no cluster. Execute o procedimento a seguir para desabilitar os serviços voltados para o client:
- Identifique os serviços ou protocolos voltados para o client que estão em execução no cluster executando os seguintes comandos para cada serviço voltado para o client:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Documente os serviços "ativados" em seu cluster com base no resultado de cada comando. Selecionado no exemplo abaixo, o serviço SMB está habilitado, enquanto o serviço NFS está desabilitado:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Desative os serviços voltados para o client. Após essa etapa, todos os clients perdem imediatamente a conexão com o cluster. Para desabilitar um serviço, execute o seguinte comando relacionado ao serviço que você habilitou.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Se você tiver clients iSCSI, certifique-se de que os clients iSCSI tenham desmontado suas LUNs antes de realizar a etapa 2. Execute o isi iscsi list comando para confirmar se todos os clients iSCSI estão desconectados do cluster.
Nota: Se você estiver desabilitando o serviço iSCSI, desligue os clients iSCSI antes de executar o comando
isi_iscsi_d disable . A interrupção de uma LUN iSCSI montada pode resultar em danos ao client, que normalmente requer a recuperação do backup.
- Mova as gravações de dados armazenadas nos registros do nó para o file system executando o comando
isi_for_array isi_flush. Resultado parecido com este será exibido em cada nó:
Nota: ao executar o isi_flush ele NÃO será interrompido até que o flush seja concluído em um nó ou que o nó esteja desligado ou entre em pane. Você não pode ctrl + c fora do flush se houver problemas.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Execute o isi_for_array isi_flush comando novamente. Se algum nó não conseguir fazer o flush, entre em contato com o Suporte técnico do Dell Isilon. Todos os nós devem fazer o flush com sucesso antes de prosseguir para a próxima etapa.
- Desligue cada nó no cluster sequencialmente e monitore o resultado. Essa abordagem é recomendada porque permite identificar e resolver quaisquer problemas antes de desligar o próximo nó do cluster. Desligue cada nó realizando as seguintes etapas:
Aviso: NÃO execute o
isi_for_array shutdown -p comando para desligar o cluster.
- Conecte um console serial a cada nó.
- Execute o seguinte comando:
isi config shutdown
Powering the system off using ACPI
- C. Observe o console e procure eventos de falha relacionados ao hardware. Os salvamentos bem-sucedidos do registro do nó são selecionados nas seguintes variações de saída:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Se você receber um erro informando que o registro do nó não foi salvo, poderá salvá-lo manualmente realizando as etapas da fase 3.
Desligue todos os nós do cluster simultaneamente.
Se houver uma emergência, você poderá desligar todos os nós do cluster simultaneamente. No entanto, esse método não é recomendado porque não permite que você monitore o status e a saída de cada nó caso ocorra um problema. Se você optar por seguir essas etapas, a Dell recomenda enfaticamente seguir todas as etapas da Fase 3 para verificar se todos os nós foram desligados corretamente após a execução dos procedimentos abaixo.
Advertência: Se você remover uma fonte de energia de um nó que não fez o flush de dados de seu registro para o file system, o risco de perda de dados aumenta substancialmente. Entre em contato com o suporte técnico do Dell Isilon se precisar de ajuda com o procedimento de desligamento.
# isi config shutdown all
isi_for_array shutdown -p comando para desligar o cluster na interface Web de administração do OneFS no OneFS 8.0 e posterior.
Fase 3: Verifique se os nós foram desligados com sucesso.
Confirme se os nós foram desligados corretamente observando o Diodo emissor de luz (LED) indicador de energia na parte traseira do nó. Todos os LEDs indicadores de energia devem ficar escuros ou apagados. Isso indica que o nó foi desligado com sucesso.
Se a luz indicadora de energia na parte traseira do nó ainda estiver acesa, o nó não foi desligado. Se o nó não tiver sido desligado ou se você receber uma saída do console indicando que o registro do nó não foi salvo corretamente (da fase 2, etapa 3C), salve manualmente o registro para garantir que os dados sejam confirmados no disco antes de desligar o nó.
- Para salvar manualmente o registro e desligar o nó, realize as seguintes etapas:
- Se o nó responder à interface de linha de comando, reinicialize o nó executando o seguinte comando:
# isi config reboot
- Se o nó não responder à interface de linha de comando, reinicialize manualmente o nó pressionando e segurando o botão liga/desliga na parte traseira do nó. Isso faz com que o nó seja desligado. Aguarde 30 segundos e pressione o botão liga/desliga uma vez para inicializar o backup do nó novamente. Continue com a próxima etapa.
- Depois de reinicializar o nó, faça log-in novamente e use as seguintes etapas para salvar o registro:
- Tente desligar o nó normalmente novamente executando o seguinte comando:
# isi config shutdown
- Se o resultado ainda indicar que o registro não foi salvo, salve-o manualmente executando o seguinte comando:
# isi_save_journal
- Se o registro ainda não salvar, desmonte o file system, /ifs e, em seguida, force o salvamento do registro executando os seguintes comandos:
# isi_kill_busy && umount /ifs
- Verifique se o registro foi salvo executando o comando isi_checkjournal.
# isi_checkjournal
- Não vá para a próxima etapa até que a saída indique que o registro foi salvo com sucesso.
Entre em contato com o Suporte técnico da Dell, se necessário.
Fase 4: Desconecte a fonte de energia.
Depois que o cluster for desligado com sucesso e os nós forem desligados, somente então a fonte de energia poderá ser desconectada do cluster.
Baterias NVRAM
Quando um client grava um arquivo em um nó, as gravações são armazenadas primeiro na RAM não volátil (NVRAM) hospedada na placa de registro do nó. Algum tempo depois, o OneFS confirma essas gravações no disco. Para proteger os dados armazenados na NVRAM em caso de interrupção de energia não programada, cada nó é equipado com baterias NVRAM (duas para redundância). Um nó que está desligado, mas permanece conectado a uma fonte de energia, continua atualizando suas baterias NVRAM. Quando a fonte de energia é desconectada do nó, as baterias NVRAM começam a se descarregar. A duração da bateria na geração atual de nós (X200, S200, X400 e NL400) é de aproximadamente cinco dias. Na geração anterior de nós, a duração da bateria NVRAM é de aproximadamente três dias.
A Dell Technologies recomenda desligar corretamente os nós para evitar depender de baterias NVRAM por um período considerável durante uma interrupção de energia.
Se as baterias NVRAM de um nó descarregarem completamente, o nó será inicializado no modo somente leitura e permanecerá no modo somente leitura por aproximadamente 30 minutos até que as baterias NVRAM carreguem completamente. Quando as baterias são recarregadas, o nó retorna automaticamente ao modo normal de leitura/gravação.
Fase 5: Ligue cada nó do cluster.
Essas etapas devem ser realizadas quando você estiver pronto para reiniciar o Isilon Cluster.
- Restaure a fonte de energia para cada nó.
- Pressione o botão liga/desliga no painel frontal ou na parte traseira de cada nó para inicializá-los.
- Depois que todos os nós tiverem sido ligados, execute o
isi status -qcomando para analisar a integridade do cluster. Antes de continuar, verifique se todos os nós estão OK na coluna Health DASR e se não estão em um modo somente leitura (R). Para um cluster íntegro, um resultado semelhante ao seguinte deve ser exibido:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Consulte a lista de serviços habilitados que foram criados na Fase 2, Etapa 1b e habilite os serviços que foram desabilitados executando um ou mais dos seguintes comandos:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Verifique se seus clients podem se conectar ao cluster e realizar seus fluxos de trabalho usuais. Seu cluster deve estar funcionando normalmente.
- Uploe uma coleta completa de logs:
# isi_gather_info --esrs
- Realize ou solicite uma verificação de integridade do Isilon pela equipe Remote Reactive (Atendimento ao cliente).
Etapas para executar verificações de integridade.
PowerScale: Como executar a ferramenta Isilon On-Cluster Analysis (IOCA).
- Solicitar uma verificação de integridade usando a equipe de suporte do Remote Reactive
Isso está disponível para todos os clientes com um contrato de manutenção ativo para clusters em versões de código compatíveis.
Se você atender a esses requisitos, abra um chamado (SR) no site do Suporte on-line da Dell solicitando uma "verificação de integridade do Isilon".
*A verificação de integridade não se destina a corrigir problemas do cluster nem avaliar a configuração, o desempenho ou o fluxo de trabalho do cluster.