Dell Unity: Uma situação de Dados indisponíveis pode ocorrer se uma controladora for reinicializada após a substituição de uma unidade do sistema para uma condição EOL
Resumo: Problema: Se as unidades do sistema forem usadas para criar um Dynamic Pool e as unidades do sistema atingirem o fim da vida útil (EOL), a unidade será fisicamente substituída por uma unidade em boas condições, há uma condição em que a reinicialização de uma única controladora pode deixar o Dynamic Pool off-line, resultando em dados indisponíveis. ...
Sintomas
Condições que devem existir para que um evento off-line de pool de DU ocorra:
- A unidade do sistema está se reportando como fim da vida útil (EOL).
- O sistema está executando uma versão do Unity OE 4.2.x.
- A unidade EOL é posteriormente substituída por uma nova unidade por ação do usuário.
- Uma única controladora é reinicializada, resultando em uma situação de DU e pool off-line.
Esse problema ocorre somente com Dynamic Pools criados em unidades de sistema (slots de unidade DPE 0, 1, 2 e 3), com versões 4.2.0 e 4.2.1 do Unity OE, onde uma unidade do sistema foi reportada como fim da vida útil (EOL). Se a unidade for fisicamente substituída por uma unidade em boas condições, há uma condição em que a reinicialização de uma única controladora pode deixar o Dynamic Pool off-line, resultando em dados indisponíveis.
A condição de Dados indisponíveis (DU) só ocorrerá se uma das controladoras for reinicializada após a unidade EOL ter sido fisicamente substituída por uma nova unidade.
Se, após a reinicialização de uma única controladora, você se deparar com uma situação de DU em que os recursos estejam indisponíveis porque um pool foi reportado como off-line, uma reinicialização imediata da controladora alternativa que ainda não foi reinicializada resolverá a condição de DU e restaurará o pool para um status on-line, sem risco adicional de DU.
Vários alertas de aviso, estado degradado do sistema para a unidade EOL:
Warning 14:60515 System unity550f has experienced one or more problems that have left it in a degraded state. Warning 14:6027c DPE Disk 1 is reaching the end of its service life and needs to be replaced. Warning 14:60340 Storage pool Dynamic1 has 1 drive(s) predicted to exceed end-of-life thresholds within 0 day(s)...
O Unisphere ou a UEMCLI pode exibir o seguinte para a unidade do sistema EOL:
The system has started an automatic copy of data from this drive that is wearing out to a spare drive.
Estado do sistema CRÍTICO e pool off-line se uma controladora for reinicializada:
Critical 14:6032b Storage pool Dynamic1 is offline. The pool is offline. Contact your service provider. Critical 14:60514 System unity550f has experienced one or more problems that have had a critical impact
Causa
Há um problema nas versões 4.2.0 e 4.2.1 com Dynamic Pools criados em unidades do sistema, quando uma unidade do sistema informa que está em EOL, e o sistema e a unidade do sistema afetada é posteriormente substituída fisicamente por uma nova unidade, existe a possibilidade de um evento DU quando uma única controladora é reinicializada. O problema ocorre porque o pool retém incorretamente o sinalizador EOL na unidade que foi usada para substituir fisicamente a unidade do sistema EOL, mesmo que a IU e a UEMCLI relatem que o sistema está funcionando normalmente. A reinicialização da única controladora faz com que o Dynamic Pool associado fique off-line, resultando na perda de acesso a qualquer objeto LUN ou file system criado nesse pool.
A seção Resolução abaixo descreve como se recuperar de uma situação de DU existente (reinicializar a controladora alternativa) ou como evitar que a situação de DU ocorra e remover a condição de DU por meio de uma série de etapas preventivas.
Resolução
Cenário 1: Pool off-line, DU ocorrendo (condições 1 a 5 ocorreram)
Se todas as condições, conforme descrito acima, tiverem ocorrido e você estiver enfrentando perda de acesso a objetos criados a partir de Dynamic Pools (ou seja, o pool está off-line), você poderá se recuperar da situação de DU reinicializando imediatamente a controladora alternativa que ainda não foi reinicializada. Isso restaura o acesso e não há mais risco de DU, o problema está resolvido permanentemente.
O procedimento para reinicializar uma controladora pode ser encontrado no seguinte artigo da KB: Dell Unity: Como reinicializar uma controladora (corrigível pelo usuário) .
Cenário 1 — Comentários:
Se você tiver uma unidade do sistema correspondente a uma condição EOL, tiver substituído a unidade EOL e estiver enfrentando uma situação de DU após a reinicialização de uma controladora, você verá alertas ou uma mensagem de pool informando "O pool está off-line". Você pode restaurar o acesso e colocar o pool afetado novamente on-line reinicializando imediatamente a controladora oposta, ou seja, a controladora que ainda não foi reinicializada. Isso remove o atributo EOL persistente do Dynamic Pool e permite que o pool volte a ficar on-line. Infelizmente, se a situação de DU ocorrer durante um upgrade de NDU, quando a primeira controladora for reinicializada para upgrade, o pool ficará off-line, mas retornará ao status on-line após a segunda controladora ser reinicializada para a atividade de upgrade.
Cenário 1 — Resolução do cliente:
-
Reinicialize a controladora alternativa que ainda não foi reinicializada ou, no caso de um NDU (Upgrade sem interrupções), permita que o NDU seja concluído.
Cenário 2: Prevenção de DU (somente as condições 1 a 4 ocorreram)
Se apenas as condições 1 a 4 existirem, DU ainda não ocorreu, pois não ocorreu reinicialização da única controladora. Use as etapas a seguir para ajudar a evitar uma possível situação de DU.
Cenário 2 — Resolução do cliente:
- Se você tiver uma unidade sobressalente do mesmo tipo (por exemplo, SAS Flash 2) e tamanho (o tamanho pode ser maior, mas não menor) e tiver um slot de unidade aberta no array, insira a unidade sobressalente e ela será automaticamente inserida no pool, eliminando o possível problema de DU.
- Após 10 a 15 minutos, o alerta e status do sistema deverá informar Normal (O sistema xxx está funcionando normalmente).
- Em propriedades do pool > Unidades (pool associado à unidade do sistema EOL), você verá que a unidade sobressalente agora está em uso e substituiu a unidade EOL.
- Neste momento, nenhuma outra ação é necessária. No entanto, se você não conseguir verificar adequadamente se a unidade sobressalente substituiu a unidade do sistema EOL no pool, entre em contato com o provedor de serviços para obter assistência e consulte este número de artigo.
- Se você não tiver uma unidade sobressalente que possa ser adicionada a nenhum slot do array, entre em contato com seu provedor de serviços, consulte este artigo da KB e não reinicialize nenhuma controladora única. Seu provedor pode executar etapas sem interrupções que apagam o sistema de qualquer DU potencial relacionada ao problema descrito neste artigo.
Mais informações
Esse problema foi corrigido na versão 4.3.0.1522077968 e versões posteriores, embora, como observado acima, se as condições 1 a 4 já existirem e não tiverem sido corrigidas, durante o upgrade do NDU para 4.3, após a reinicialização da primeira controladora para o upgrade, o Dynamic Pool ficará off-line, resultando em DU. No entanto, após o upgrade e reinicialização da segunda controladora, o pool será reativado on-line e o evento DU será interrompido.
Consulte as Notas da versão mais recentes da família Dell Unity para obter mais informações.
Entre em contato com o Suporte técnico da Dell ou com seu representante de serviços autorizado e mencione este ID do artigo da base de conhecimento.