PowerFlex: Het SDS-apparaat meldt fouten, ook al is het apparaat nog in gebruik en in orde
Summary: De MDM rapporteert apparaatfouten van een SDS, maar het SDS- of DAX-apparaat in kwestie wordt door het cluster gebruikt en functioneert goed.
Symptoms
MDM rapporteert SDS- of DAX-apparaatfouten op basis van S.M.A.R.T.-kenmerken. De schijf wordt pas uitgeworpen als er een I/O-probleem is.
MDM-events.txt
Voorbeeld van SDS-apparaat:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Voorbeeld van DAX-apparaat:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
De SDS werpt de schijf uit wanneer er een I/O-probleem optreedt. Hieronder ziet u een soortgelijke fout:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Let op het verschil in foutmeldingen:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Opmerking: het systeem toont I/O-verwijdering/fouten voor dat specifieke apparaat en gaat naar DATA_DEGRADED, waardoor een heropbouw wordt veroorzaakt.
Uit het controleren van de hardwarediagnose van de host van iDRAC blijkt dat de schijf voorspellende fouten heeft, zoals de volgende:
Deze impact kan variëren van cosmetisch (het opvullen van de MDM-gebeurtenissen) tot een schijfstoring, waardoor een heropbouw wordt veroorzaakt.
Cause
De LIA-agent op het SDS-knooppunt bemonstert de S.M.A.R.T.-kenmerken van de storageapparaten die door de SDS worden gebruikt. Het geeft deze gegevens door aan de MDM, die vervolgens verslag uitbrengt over eventuele problemen, maar geen actie onderneemt op basis van de gegevens.
Er wordt geen actie ondernomen omdat de S.M.A.R.T.-status slechts twee waarden geeft: "Drempelwaarde niet overschreden" en "Drempelwaarde overschreden". Vaak worden deze weergegeven als respectievelijk "schijf OK" of "schijf mislukt".
De waarde "threshold exceeded" geeft aan dat er een grote kans is dat de schijf in de toekomst defect raakt, dat wil zeggen dat de schijf op het punt staat defect te raken. Het kan catastrofaal of subtiel zijn, zoals het onvermogen om naar specifieke sectoren te schrijven of tragere prestaties dan de fabrikant beweert.
Resolution
Voer een handmatige hardwarediagnose uit om te bepalen of het SDS- of DAX-apparaat in kwestie moet worden vervangen. Neem indien nodig contact op met de hardwareleverancier.
Versies waarop dit van toepassing is
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Opgelost in versie
Het ontwerp van LIA-bemonstering is verbeterd in PowerFlex 3.6.0.3.
Fout-positieve MDM-gebeurtenissen zijn opgelost in PowerFlex 3.6.2.