PowerFlex: SDS-enhed rapporterer fejl, selvom enheden stadig er i brug og sund
Summary: MDM rapporterer enhedsfejl fra et SDS, men den pågældende SDS- eller DAX-enhed bruges af klyngen og er sund.
Symptoms
MDM rapporterer SDS- eller DAX-enhedsfejl baseret på S.M.A.R.T.-egenskaber. Drevet skubbes ikke ud, før der er et I/O-problem.
MDM-events.txt
Eksempel på SDS-enhed:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Eksempel på DAX-enhed:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
Sikkerhedsdatabladet skubber drevet ud, når der opstår et I/O-problem. Nedenfor kan du se en lignende fejl:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Bemærk forskellen i fejlmeddelelser:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Bemærk, at systemet viser I/O-kassering/-fejl for den pågældende enhed og fortsætter til DATA_DEGRADED, hvilket forårsager en genopbygning.
Kontrol af hardwarediagnosticeringen for værten fra iDRAC viser, at disken har forudsigelige fejl, f.eks. følgende:
Denne påvirkning kan variere fra kosmetisk arbejde (opfyldning af MDM-hændelser) til en drevfejl, der forårsager en genopbygning.
Cause
LIA-agenten på SDS-noden prøver S.M.A.R.T.-attributterne for de lagerenheder, der bruges af SDS. Det sender disse data til MDM, som derefter rapporterer om eventuelle problemer, der ses, men ikke reagerer på dataene.
Der foretages ingen handling, fordi S.M.A.R.T.-status kun indeholder to værdier: "tærskel ikke overskredet" og "tærskel overskredet." Ofte repræsenteres disse som henholdsvis "drive OK" eller "drive fail".
Værdien "tærskelværdi overskredet" angiver, at der er stor sandsynlighed for, at drevet vil svigte i fremtiden, dvs. drevet er ved at mislykkes. Det kan være katastrofalt eller subtilt, som manglende evne til at skrive til bestemte sektorer eller langsommere ydeevne, end producenten hævder.
Resolution
Kør manuel hardwarediagnosticering for at finde ud af, om den pågældende SDS- eller DAX-enhed skal udskiftes. Kontakt hardwareleverandøren efter behov.
Påvirkede versioner
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Løst i version
LIA-prøveudtagningsdesignet er forbedret i PowerFlex 3.6.0.3.
Falsk positive MDM-hændelser blev rettet i PowerFlex 3.6.2.