PowerFlex: El dispositivo SDS informa errores aunque el dispositivo aún esté en uso y en buen estado

Summary: El MDM informa errores de dispositivos de un SDS, pero el dispositivo SDS o DAX en cuestión está siendo utilizado por el clúster y está en buen estado.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

El MDM informa errores de dispositivos SDS o DAX en función de los atributos S.M.A.R.T. La unidad no se expulsa hasta que hay un problema de I/O.  

MDM events.txt

Ejemplo de dispositivo SDS:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Ejemplo de dispositivo DAX:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

El SDS expulsa la unidad cuando encuentra un problema de I/O. A continuación, puede ver un error similar:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Tenga en cuenta la diferencia en los mensajes de error:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Tenga en cuenta que el sistema muestra descartes/errores de I/O en ese dispositivo en particular y pasa a DATA_DEGRADED, lo que provoca una reconstrucción.

La comprobación de los diagnósticos de hardware del host desde iDRAC muestra que el disco tiene fallas predictivas, como las siguientes:

Este impacto puede variar desde cosmético (llenar los eventos del MDM) hasta una falla de la unidad, lo que provoca una reconstrucción.

Cause

El agente de LIA en el nodo SDS muestrea los atributos S.M.A.R.T. de los dispositivos de almacenamiento que utiliza el SDS. Pasa estos datos al MDM, que luego informa sobre los problemas observados, pero no toma ninguna acción sobre los datos.

No se realiza ninguna acción porque el estado S.M.A.R.T. solo proporciona dos valores: "umbral no superado" y "umbral superado". A menudo, estos se representan como "unidad correcta" o "falla de la unidad", respectivamente.

El valor "umbral superado" indica que existe una alta probabilidad de que la unidad falle en el futuro, es decir, que está a punto de fallar. Puede ser catastrófico o sutil, como la incapacidad de escribir en sectores específicos o un rendimiento más lento de lo que afirma el fabricante.

Resolution

Ejecute diagnósticos manuales de hardware para determinar si se debe reemplazar el dispositivo SDS o DAX en cuestión. Consulte al proveedor de hardware según sea necesario.


Versiones afectadas

ScaleIO 2.x.x

VxFlex OS 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x-3.6.1.x


Problema corregido en la versión

El diseño de muestreo de LIA se mejoró en PowerFlex 3.6.0.3.

Los eventos de MDM falsos positivos se corrigieron en PowerFlex 3.6.2.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.