PowerFlex: Il dispositivo SDS segnala errori anche se è ancora in uso e integro

Summary: MDM segnala gli errori del dispositivo da un SDS, ma il dispositivo SDS o DAX in questione è utilizzato dal cluster ed è integro.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

MDM segnala l'errore dei dispositivi SDS o DAX in base agli attributi S.M.A.R.T. L'unità non viene espulsa fino a quando non si verifica un problema di I/O.  

events.txt MDM

Esempio di dispositivo SDS:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Esempio di dispositivo DAX:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

L SDS espelle l'unità quando si verifica un problema di I/O. Di seguito è riportato un errore simile:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Notare la differenza nei messaggi di errore:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Nota: il sistema mostra lo scarto/gli errori di I/O per quel particolare dispositivo e va in DATA_DEGRADED, causando una ricostruzione.

Il controllo della diagnostica hardware dell host da iDRAC mostra che il disco presenta errori predittivi, come i seguenti:

Questo impatto può variare da quello estetico (riempimento degli eventi MDM) a un guasto dell'unità, che causa una ricostruzione.

Cause

L'agent LIA sul nodo SDS campiona gli attributi S.M.A.R.T. dei dispositivi di storage utilizzati dall SDS. Passa questi dati all MDM, che segnala eventuali problemi riscontrati, ma non agisce sui dati.

Non viene eseguita alcuna azione perché lo stato S.M.A.R.T. fornisce solo due valori: "soglia non superata" e "soglia superata". Spesso questi sono rappresentati rispettivamente come "drive OK" o "drive fail".

Il valore "soglia superata" indica che esiste un'alta probabilità che l'unità si guasti in futuro, ovvero che l'unità stia per guastarsi. Può essere catastrofico o sottile, come l'impossibilità di scrivere in settori specifici o prestazioni più lente di quanto dichiarato dal produttore.

Resolution

Eseguire la diagnostica manuale dell'hardware per determinare se il dispositivo SDS o DAX in questione deve essere sostituito. Se necessario, consultare il fornitore dell'hardware.


Versioni interessate

ScaleIO 2.x.x

VxFlex OS 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x-3.6.1.x


Risolto nella versione

La progettazione del campionamento LIA è stata migliorata in PowerFlex 3.6.0.3.

Gli eventi MDM falsi positivi sono stati corretti in PowerFlex 3.6.2.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.