Data Domain: Problema de atualização de firmware de unidade no DDOS 7.x | 8.0 | 8.1| 8.2 | 8.3.0.x
Resumo: Nas versões 7.10, 7.13, 8.0, 8.1, 8.2, 8.3.0.x do DDOS, os sistemas Data Domain (DD) com atualizações de firmware de unidade ativadas podem identificar falhas inesperadas e falsas do disco. Especificamente, dois dispositivos por grupo de discos (DG) podem fazer a transição para um estado de falha devido a um problema de contagem de referências do módulo RAID no kernel. Isso pode levar à instabilidade do sistema e a possíveis riscos de disponibilidade dos dados. ...
Sintomas
- Dois dispositivos por grupo de dispositivos (DG) entram inesperadamente em um estado de falha
- A tentativa de falhar um terceiro dispositivo na unidade principal resulta em uma pane do sistema (estado Total Fail)
- Excessiva
kern.infoEntradas do log WARN - Status degradado do grupo de discos
- Degradação perceptível do desempenho no DD
Sistemas afetados:
- Sistemas DD com armazenamento externo executando versões anteriores do DDOS 7.10 | 7.13 | 8.0 | 8.1 | 8.2 | 8.3.0.x
Causa
Durante o processo de atualização do firmware de unidade, o comando RAID check scan Pode ser executado várias vezes com base no número de dispositivos no sistema. Cada execução aumenta a contagem de referências do módulo RAID no kernel Linux. Nas versões 4.4 e 5.4 do kernel (usadas no DDOS 7.7, 7.10, 7.13, 8.0, 8.1, 8.2 e 8.3.0.x), essa contagem de referências não diminui. Se a contagem passar para zero, o kernel bloqueará o acesso do RAID interno gendisk estruturas, fazendo com que os dispositivos sejam marcados como ilegíveis e movidos para um estado de falha. Cada DG tolera apenas dois dispositivos com falha; uma terceira falha desencadeia uma pane do sistema na unidade principal (controlador).
Resolução
Uma correção permanente foi integrada às seguintes versões do DDOS:
- Versões do LTS:
- 7.10.1.70 || 7.13.1.30 || 8.3.1.0 (ou mais recente)
- Versões de recursos:
- >= 8.4.0.x
Solução temporária:
- Se o upgrade não for possível.
- A ser concluído pelo suporte técnico Dell:
- Modifique o script de upgrade do firmware da unidade para retornar imediatamente após a execução, minimizando o aumento na contagem de referência do módulo RAID.
- Clientes: Crie um chamado com o suporte técnico da Dell e consulte este artigo da KB (#000331892) para agilizar a resolução.