PowerFlex: Zařízení SDS hlásí chyby, i když se zařízení stále používá a je v dobrém stavu
Summary: Uzel MDM hlásí chyby zařízení z SDS, ale dané zařízení SDS nebo DAX cluster používá a je v dobrém stavu.
Symptoms
Nástroj MDM hlásí chybu zařízení SDS nebo DAX na základě atributů S.M.A.R.T. Disk se nevysune, dokud nenastane problém se vstupem/výstupem.
MDM events.txt
Příklad zařízení SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Příklad zařízení DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
SDS vysune disk, když dojde k problému I/O. Níže vidíte podobnou chybu:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Všimněte si rozdílu v chybových zprávách:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Upozorňujeme, že systém zobrazí zahození/chyby I/O pro toto konkrétní zařízení a přejde do DATA_DEGRADED, což způsobí opětovné vytvoření.
Kontrola diagnostiky hardwaru hostitele z řadiče iDRAC ukazuje, že na disku dochází k prediktivním selháním, jako jsou například následující:
Tento dopad může být různý, od kosmetických (vyplnění událostí MDM) až po selhání disku, které způsobí opětovné vytvoření.
Cause
Agent LIA v uzlu SDS vzorkuje atributy S.M.A.R.T. úložných zařízení používaných úložištěm. Tato data předá službě MDM, která pak nahlásí všechny zjištěné problémy, ale na základě těchto dat nereaguje.
Neprovede se žádná akce, protože stav S.M.A.R.T. poskytuje pouze dvě hodnoty: "Prahová hodnota nebyla překročena" a "Prahová hodnota překročena". Často se zobrazují jako "disk je v pořádku" nebo "disk selhal".
Hodnota "threshold exceeded" znamená, že je vysoká pravděpodobnost, že disk v budoucnu selže. Může to být katastrofické nebo nenápadné, jako je nemožnost zapisovat do konkrétních sektorů nebo pomalejší výkon, než tvrdí výrobce.
Resolution
Spusťte ruční diagnostiku hardwaru a zjistěte, zda je nutné dané zařízení SDS nebo DAX vyměnit. Podle potřeby se poraďte s dodavatelem hardwaru.
Dotčené verze
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Opraveno ve verzi
Návrh vzorkování LIA byl v systému PowerFlex 3.6.0.3 vylepšen.
V systému PowerFlex 3.6.2 byly opraveny falešně pozitivní události MDM.