PowerFlex: O dispositivo SDS relata erros, embora o dispositivo ainda esteja em uso e íntegro
Summary: O MDM relata erros de dispositivo de um SDS, mas o dispositivo SDS ou DAX em questão está sendo usado pelo cluster e está íntegro.
Symptoms
O MDM relata erros de dispositivos SDS ou DAX com base nos atributos de S.M.A.R.T. A unidade não é ejetada até que haja um problema de E/S.
MDM events.txt
Exemplo de dispositivo SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Exemplo de dispositivo DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
O SDS ejeta a unidade quando encontra um problema de E/S. Abaixo você pode ver um erro semelhante:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Observe a diferença nas mensagens de erro:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Nota: o sistema mostra descarte/erros de E/S nesse dispositivo específico e vai para o DATA_DEGRADED, causando uma recriação.
A verificação do diagnóstico de hardware do host no iDRAC mostra que o disco está tendo falhas preditivas, como as seguintes:
Esse impacto pode variar de cosmético (preenchendo os eventos do MDM) a uma falha de unidade, causando uma recriação.
Cause
O agente do LIA no nó do SDS mostra amostras dos atributos S.M.A.R.T. dos dispositivos de armazenamento usados pelo SDS. Ele passa esses dados para o MDM, que, em seguida, relata quaisquer problemas vistos, mas não age sobre os dados.
Nenhuma ação é realizada porque o status S.M.A.R.T. fornece apenas dois valores: "limite não excedido" e "limite excedido". Muitas vezes, eles são representados como "unidade OK" ou "falha da unidade", respectivamente.
O valor de "limite excedido" indica que há uma alta probabilidade de que a unidade falhe no futuro, ou seja, a unidade está prestes a falhar. Pode ser catastrófico ou sutil, como a incapacidade de gravar em setores específicos ou desempenho mais lento do que o alegado pelo fabricante.
Resolution
Execute o diagnóstico manual de hardware para determinar se o dispositivo SDS ou DAX em questão deve ser substituído. Consulte o fornecedor de hardware conforme necessário.
Versões afetadas
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Corrigido na versão
O desenho amostral do LIA foi aprimorado no PowerFlex 3.6.0.3.
Eventos MDM falsos positivos foram corrigidos no PowerFlex 3.6.2.