PowerFlex: O dispositivo SDS relata erros, embora o dispositivo ainda esteja em uso e íntegro

Summary: O MDM relata erros de dispositivo de um SDS, mas o dispositivo SDS ou DAX em questão está sendo usado pelo cluster e está íntegro.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

O MDM relata erros de dispositivos SDS ou DAX com base nos atributos de S.M.A.R.T. A unidade não é ejetada até que haja um problema de E/S.  

MDM events.txt

Exemplo de dispositivo SDS:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Exemplo de dispositivo DAX:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

O SDS ejeta a unidade quando encontra um problema de E/S. Abaixo você pode ver um erro semelhante:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Observe a diferença nas mensagens de erro:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Nota: o sistema mostra descarte/erros de E/S nesse dispositivo específico e vai para o DATA_DEGRADED, causando uma recriação.

A verificação do diagnóstico de hardware do host no iDRAC mostra que o disco está tendo falhas preditivas, como as seguintes:

Esse impacto pode variar de cosmético (preenchendo os eventos do MDM) a uma falha de unidade, causando uma recriação.

Cause

O agente do LIA no nó do SDS mostra amostras dos atributos S.M.A.R.T. dos dispositivos de armazenamento usados pelo SDS. Ele passa esses dados para o MDM, que, em seguida, relata quaisquer problemas vistos, mas não age sobre os dados.

Nenhuma ação é realizada porque o status S.M.A.R.T. fornece apenas dois valores: "limite não excedido" e "limite excedido". Muitas vezes, eles são representados como "unidade OK" ou "falha da unidade", respectivamente.

O valor de "limite excedido" indica que há uma alta probabilidade de que a unidade falhe no futuro, ou seja, a unidade está prestes a falhar. Pode ser catastrófico ou sutil, como a incapacidade de gravar em setores específicos ou desempenho mais lento do que o alegado pelo fabricante.

Resolution

Execute o diagnóstico manual de hardware para determinar se o dispositivo SDS ou DAX em questão deve ser substituído. Consulte o fornecedor de hardware conforme necessário.


Versões afetadas

ScaleIO 2.x.x

VxFlex OS 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x-3.6.1.x


Corrigido na versão

O desenho amostral do LIA foi aprimorado no PowerFlex 3.6.0.3.

Eventos MDM falsos positivos foram corrigidos no PowerFlex 3.6.2.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.