Uma unidade pode exigir substituição devido a erros de E/S ou se o armazenamento definido por software marcar a unidade como defeituosa ou inutilizável
Summary: Os usuários podem solicitar que uma unidade seja substituída devido a erros de E/S ou se a unidade for marcada como "com falha" ou "inutilizável" pela solução de armazenamento definido por software (SDS). ...
Instructions
Há várias soluções de SDS diferentes, como Ceph (Linux), vSAN (VMware), Nutanix e assim por diante. Vários servidores configurados de maneira idêntica são unidos em uma rede para criar um cluster de armazenamento. Os servidores são configurados com um Host Bus Adapter (HBA), em vez de um PERC, para que as unidades sejam apresentadas ao sistema operacional "no estado em que se encontram". O sistema operacional gerencia todas as unidades em cada servidor diretamente, sem nenhuma intervenção do HBA. A unidade é listada como "Healthy" nas ferramentas de monitoramento da Dell (como iDRAC e OMSA) e no ePSA Offline Diagnostics. Os dados SMARTCTL da unidade podem ou não ter erros de leitura e gravação não corrigidos. Os testes SMART (curtos, longos e estendidos) são aprovados e a unidade é listada como "Healthy".
As soluções de armazenamento definido por software (SDS) transferem todos os controles relacionados ao armazenamento do hardware para o software com o uso do Host Bus Adapter (HBA) para fornecer conectividade física às unidades.
O controlador RAID (PERC) é responsável por executar várias atividades de manutenção proativa nas unidades, que incluem leitura de patrulha e verificações de consistência em discos virtuais. Como as soluções de SDS usam Host Bus Adapter (HBA) em vez de PERC, o software agora executa todas essas atividades de manutenção proativa.
Os usuários podem relatar o SDS marcando uma unidade como "com falha ou inutilizável" ou ele pode listar erros de E/S em uma unidade. Ferramentas de monitoramento da Dell, como iDRAC e OMSA, estão relatando a unidade como íntegra e operacional.
Ferramentas como "SMARTMON" ou "SMARTCTL" podem listar alguns erros em uma ou mais unidades indicadas, mas a integridade geral da unidade está listada como "HEALTHY ou OK".
Essa discrepância se deve aos seguintes fatores:
- O iDRAC mostra o status de integridade do componente. Se o firmware da unidade informar que está íntegro, o iDRAC refletirá o mesmo. Se o firmware da unidade indicar que está em condição de falha preditiva, o iDRAC refletirá o mesmo.
- Todas as unidades podem tolerar alguns blocos defeituosos ou erros incorrigíveis e continuar operando sem qualquer impacto funcional. O limite para blocos defeituosos é programado no firmware da unidade pelo fabricante da unidade e não é um número ou porcentagem padrão.
- As unidades permanecem operacionais até que o número total de blocos defeituosos ou erros incorrigíveis na unidade viole o limite de falha ou falha preditiva.
- Um endereço de deslocamento na unidade é marcado como um bloco defeituoso e os dados são realocados SOMENTE se uma operação de GRAVAÇÃO falhar nesse endereço específico. O firmware da unidade não considera erros de LEITURA para marcar setores como blocos defeituosos.
- Os erros de E/S registrados no nível do sistema operacional podem não ser refletidos nos logs do Lifecycle.
Nesse cenário, as unidades estão funcionais e dentro de seus parâmetros operacionais. Eles não se qualificam nem exigem uma substituição de hardware. O plano de ação recomendado aqui é executar as atividades de manutenção necessárias na camada de software para resolver o problema.
Nesse cenário, capture um pacote completo de registros do sistema operacional ou relatórios de um ou mais servidores afetados. Envolva a SST da Dell (se coberto pelo contrato de garantia) ou o fornecedor do sistema operacional para analisar os registros, pois eles devem orientar sobre as próximas etapas corretivas.
O SST da Dell ou o fornecedor do sistema operacional determina os seguintes detalhes:
- Total de erros de E/S registrados pelo kernel do sistema operacional (se houver).
- Em quais dispositivos (um ou mais) os erros são registrados.
- Tipo de corrupção: Nível de arquivo ou metadados (se houver)
- O serviço de armazenamento travou? Se sim, por quê?
- Ações corretivas estão disponíveis no SDS para resolver esses erros.