PowerFlex: SDS-laite ilmoittaa virheistä, vaikka laite on edelleen käytössä ja kunnossa
Summary: MDM ilmoittaa laitevirheistä SDS:stä, mutta klusteri käyttää kyseistä SDS- tai DAX-laitetta ja on kunnossa.
Symptoms
MDM ilmoittaa SDS- tai DAX-laitevirheistä S.M.A.R.T.-attribuuttien perusteella. Asemaa ei poisteta, ennen kuin I/O-ongelma ilmenee.
MDM events.txt
Esimerkki SDS-laitteesta:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Esimerkki DAX-laitteesta:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
SDS poistaa aseman, kun se kohtaa I/O-ongelman. Alla näet samanlaisen virheen:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Huomaa ero virhesanomissa:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Huomioi, että järjestelmä näyttää laitteen I/O-hylkäykset/virheet ja siirtyy DATA_DEGRADED, mikä aiheuttaa uudelleenmuodostuksen.
Tarkistamalla isännän laitteistodiagnostiikan iDRACista käy ilmi, että levyllä on ennakoivia vikoja, kuten seuraavat:
Vaikutukset voivat vaihdella kosmeettisista (MDM-tapahtumien täyttäminen) aseman vioittumiseen, joka aiheuttaa uudelleenmuodostuksen.
Cause
SDS-solmun LIA-agentti ottaa näytteitä SDS:n käyttämien tallennuslaitteiden S.M.A.R.T.-määritteistä. Se välittää nämä tiedot MDM:lle, joka raportoi havaituista ongelmista, mutta ei toimi tietojen perusteella.
Toimenpiteisiin ei ryhdytä, koska S.M.A.R.T.-status antaa vain kaksi arvoa: "kynnysarvo ei ylity" ja "kynnysarvo ylitetty". Usein nämä esitetään nimellä "asema OK" tai "aseman vika".
"Kynnysarvo ylitetty" -arvo ilmaisee, että on suuri todennäköisyys, että asema epäonnistuu tulevaisuudessa, eli asema on epäonnistumassa. Se voi olla katastrofaalinen tai hienovarainen, kuten kyvyttömyys kirjoittaa tietyille sektoreille tai hitaampi suorituskyky kuin valmistaja väittää.
Resolution
Tarkista manuaalisella laitteiston vianmäärityksellä, onko kyseinen SDS- tai DAX-laite vaihdettava. Ota tarvittaessa yhteyttä laitteiston myyjään.
Versiot, joita ongelma koskee
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Korjattu versiossa
LIA-otannan suunnittelua on parannettu PowerFlex 3.6.0.3 -versiossa.
Väärät positiiviset MDM-tapahtumat korjattiin PowerFlex 3.6.2:ssa.