PowerFlex: SDS-enheten rapporterer feil selv om enheten fortsatt er i bruk og er i orden
Summary: MDM rapporterer enhetsfeil fra et SDS, men den aktuelle SDS- eller DAX-enheten brukes av klyngen og er i god stand.
Symptoms
MDM rapporterer SDS- eller DAX-enhetsfeil basert på S.M.A.R.T.-attributter. Disken løses ikke ut før det oppstår et I/O-problem.
MDM events.txt
Eksempel på SDS-enhet:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Eksempel på DAX-enhet:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
SDS løser ut disken når det oppstår et I/O-problem. Nedenfor kan du se en lignende feil:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Legg merke til forskjellen i feilmeldinger:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Merk at systemet viser at I/O-kassering/feil til den bestemte enheten går til DATA_DEGRADED, noe som forårsaker en gjenoppbygging.
Kontroll av maskinvarediagnostikken til verten fra iDRAC viser at disken har prediktive feil, for eksempel følgende:
Påvirkningen kan variere fra kosmetisk (fylling av MDM-hendelser) til stasjonsfeil som fører til gjenoppbygging.
Cause
LIA-agenten på SDS-noden sampler S.M.A.R.T.-attributtene til lagringsenhetene som brukes av SDS. Den sender disse dataene til MDM, som deretter rapporterer om eventuelle problemer som er sett, men handler ikke på dataene.
Ingen tiltak utføres fordi S.M.A.R.T.-statusen bare gir to verdier: "Terskel ikke overskredet" og "terskel overskredet." Ofte er disse representert som henholdsvis "drive OK" eller "drive fail".
Verdien "threshold exceeded" indikerer at det er stor sannsynlighet for at disken vil svikte i fremtiden, det vil si at disken er i ferd med å svikte. Det kan være katastrofalt eller subtilt, som manglende evne til å skrive til bestemte sektorer eller langsommere ytelse enn produsenten hevder.
Resolution
Kjør manuell maskinvarediagnostikk for å finne ut om den aktuelle SDS- eller DAX-enheten må byttes ut. Kontakt maskinvareleverandøren etter behov.
Berørte versjoner
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Løst i versjon
LIA prøvetakingsdesign ble forbedret i PowerFlex 3.6.0.3.
Falske positive MDM-hendelser ble rettet i PowerFlex 3.6.2.