PowerFlex: SDS-enheten rapporterar fel trots att enheten fortfarande används och är i gott skick

Summary: MDM rapporterar enhetsfel från en SDS, men SDS- eller DAX-enheten i fråga används av klustret och är felfri.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

MDM rapporterar fel på SDS- eller DAX-enheter baserat på S.M.A.R.T.-attribut. Enheten matas inte ut förrän det uppstår ett I/O-problem.  

MDM-events.txt

Exempel på SDS-enhet:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Exempel på DAX-enhet:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

SDS-enheten matar ut enheten när det stöter på ett I/O-problem. Nedan kan du se ett liknande fel:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Observera skillnaden i felmeddelanden:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Observera att systemet visar I/O-kasserade/fel för just den enheten och går till DATA_DEGRADED, vilket orsakar en ombyggnad.

Om du kontrollerar värdens hårdvarudiagnostik från iDRAC kan du se att disken har förutsägbara fel, till exempel följande:

Den här effekten kan vara allt från kosmetisk (fylla upp MDM-händelserna) till ett enhetsfel som orsakar ett återskapande.

Cause

LIA-agenten på SDS-noden samplar S.M.A.R.T.-attributen för de lagringsenheter som används av SDS. Dessa data skickas till MDM-enheten, som sedan rapporterar om eventuella problem som upptäcks, men inte agerar utifrån dem.

Ingen åtgärd vidtas eftersom S.M.A.R.T.-statusen endast innehåller två värden: "tröskelvärdet har inte överskridits" och "tröskelvärdet har överskridits". Ofta representeras dessa som "drive OK" respektive "drive fail".

Värdet för tröskelvärdet överskridet anger att det finns en hög sannolikhet för att enheten kommer att sluta fungera i framtiden, det vill säga att enheten håller på att sluta fungera. Det kan vara katastrofalt eller subtilt, som oförmågan att skriva till specifika sektorer eller långsammare prestanda än vad tillverkaren hävdar.

Resolution

Kör manuell maskinvarudiagnostik för att avgöra om SDS- eller DAX-enheten i fråga måste bytas ut. Kontakta maskinvaruleverantören vid behov.


Berörda versioner

ScaleIO 2.x.x

VxFlex OS 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x–3.6.1.x


Åtgärdat i version

LIA-provtagningsdesignen har förbättrats i PowerFlex 3.6.0.3.

Falskt positiva MDM-händelser åtgärdades i PowerFlex 3.6.2.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.