PowerFlex: Il dispositivo SDS segnala errori anche se è ancora in uso e integro
Summary: MDM segnala gli errori del dispositivo da un SDS, ma il dispositivo SDS o DAX in questione è utilizzato dal cluster ed è integro.
Symptoms
MDM segnala l'errore dei dispositivi SDS o DAX in base agli attributi S.M.A.R.T. L'unità non viene espulsa fino a quando non si verifica un problema di I/O.
events.txt MDM
Esempio di dispositivo SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Esempio di dispositivo DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
L SDS espelle l'unità quando si verifica un problema di I/O. Di seguito è riportato un errore simile:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Notare la differenza nei messaggi di errore:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Nota: il sistema mostra lo scarto/gli errori di I/O per quel particolare dispositivo e va in DATA_DEGRADED, causando una ricostruzione.
Il controllo della diagnostica hardware dell host da iDRAC mostra che il disco presenta errori predittivi, come i seguenti:
Questo impatto può variare da quello estetico (riempimento degli eventi MDM) a un guasto dell'unità, che causa una ricostruzione.
Cause
L'agent LIA sul nodo SDS campiona gli attributi S.M.A.R.T. dei dispositivi di storage utilizzati dall SDS. Passa questi dati all MDM, che segnala eventuali problemi riscontrati, ma non agisce sui dati.
Non viene eseguita alcuna azione perché lo stato S.M.A.R.T. fornisce solo due valori: "soglia non superata" e "soglia superata". Spesso questi sono rappresentati rispettivamente come "drive OK" o "drive fail".
Il valore "soglia superata" indica che esiste un'alta probabilità che l'unità si guasti in futuro, ovvero che l'unità stia per guastarsi. Può essere catastrofico o sottile, come l'impossibilità di scrivere in settori specifici o prestazioni più lente di quanto dichiarato dal produttore.
Resolution
Eseguire la diagnostica manuale dell'hardware per determinare se il dispositivo SDS o DAX in questione deve essere sostituito. Se necessario, consultare il fornitore dell'hardware.
Versioni interessate
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Risolto nella versione
La progettazione del campionamento LIA è stata migliorata in PowerFlex 3.6.0.3.
Gli eventi MDM falsi positivi sono stati corretti in PowerFlex 3.6.2.