PowerFlex: Zařízení SDS hlásí chyby, i když se zařízení stále používá a je v dobrém stavu

Summary: Uzel MDM hlásí chyby zařízení z SDS, ale dané zařízení SDS nebo DAX cluster používá a je v dobrém stavu.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Nástroj MDM hlásí chybu zařízení SDS nebo DAX na základě atributů S.M.A.R.T. Disk se nevysune, dokud nenastane problém se vstupem/výstupem.  

MDM events.txt

Příklad zařízení SDS:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Příklad zařízení DAX:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

SDS vysune disk, když dojde k problému I/O. Níže vidíte podobnou chybu:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Všimněte si rozdílu v chybových zprávách:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Upozorňujeme, že systém zobrazí zahození/chyby I/O pro toto konkrétní zařízení a přejde do DATA_DEGRADED, což způsobí opětovné vytvoření.

Kontrola diagnostiky hardwaru hostitele z řadiče iDRAC ukazuje, že na disku dochází k prediktivním selháním, jako jsou například následující:

Tento dopad může být různý, od kosmetických (vyplnění událostí MDM) až po selhání disku, které způsobí opětovné vytvoření.

Cause

Agent LIA v uzlu SDS vzorkuje atributy S.M.A.R.T. úložných zařízení používaných úložištěm. Tato data předá službě MDM, která pak nahlásí všechny zjištěné problémy, ale na základě těchto dat nereaguje.

Neprovede se žádná akce, protože stav S.M.A.R.T. poskytuje pouze dvě hodnoty: "Prahová hodnota nebyla překročena" a "Prahová hodnota překročena". Často se zobrazují jako "disk je v pořádku" nebo "disk selhal".

Hodnota "threshold exceeded" znamená, že je vysoká pravděpodobnost, že disk v budoucnu selže. Může to být katastrofické nebo nenápadné, jako je nemožnost zapisovat do konkrétních sektorů nebo pomalejší výkon, než tvrdí výrobce.

Resolution

Spusťte ruční diagnostiku hardwaru a zjistěte, zda je nutné dané zařízení SDS nebo DAX vyměnit. Podle potřeby se poraďte s dodavatelem hardwaru.


Dotčené verze

ScaleIO 2.x.x

VxFlex OS 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x-3.6.1.x


Opraveno ve verzi

Návrh vzorkování LIA byl v systému PowerFlex 3.6.0.3 vylepšen.

V systému PowerFlex 3.6.2 byly opraveny falešně pozitivní události MDM.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.