PowerFlex: SDS-Gerät meldet Fehler, obwohl das Gerät noch verwendet wird und fehlerfrei ist
Summary: Der MDM meldet Gerätefehler von einem SDS, aber das betreffende SDS- oder DAX-Gerät wird vom Cluster verwendet und ist fehlerfrei.
Symptoms
MDM meldet SDS- oder DAX-Gerätefehler basierend auf S.M.A.R.T.-Attributen. Das Laufwerk wird erst ausgeworfen, wenn ein I/O-Problem vorliegt.
MDM-events.txt
Beispiel für ein SDS-Gerät:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
DAX-Gerät – Beispiel:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
Der SDS wirft das Laufwerk aus, wenn ein I/O-Problem auftritt. Unten sehen Sie einen ähnlichen Fehler:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Beachten Sie den Unterschied bei den Fehlermeldungen:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Hinweis: Das System zeigt I/O-Verwerfungen/Fehler auf diesem bestimmten Gerät an und wechselt zu DATA_DEGRADED, was zu einem erneuten Aufbau führt.
Die Hardwarediagnose des Hosts über iDRAC zeigt, dass das Laufwerk vorhersehbare Fehler aufweist, wie z. B. die folgenden:
Diese Auswirkungen können von kosmetischen Laufwerken (Auffüllen der MDM-Ereignisse) bis hin zu einem Laufwerksausfall reichen, der einen erneuten Aufbau zur Folge hat.
Cause
Der LIA-Agent auf dem SDS-Node nimmt Stichproben der S.M.A.R.T.-Attribute der Speichergeräte vor, die vom SDS verwendet werden. Diese Daten werden an den MDM weitergeleitet, der dann über alle aufgetretenen Probleme berichtet, aber nicht auf die Daten reagiert.
Es wird keine Maßnahme durchgeführt, da der S.M.A.R.T.-Status nur zwei Werte angibt: "Schwellenwert nicht überschritten" und "Schwellenwert überschritten". Oft werden diese als "Laufwerk OK" bzw. "Laufwerkausfall" dargestellt.
Der Wert "Schwellenwert überschritten" weist darauf hin, dass eine hohe Wahrscheinlichkeit besteht, dass das Laufwerk in der Zukunft ausfallen wird, d. h. dass das Laufwerk kurz vor dem Ausfall steht. Es kann katastrophal oder subtil sein, wie z. B. die Unfähigkeit, in bestimmte Sektoren zu schreiben, oder eine langsamere Leistung als vom Hersteller angegeben.
Resolution
Führen Sie eine manuelle Hardwarediagnose durch, um festzustellen, ob das betreffende SDS- oder DAX-Gerät ersetzt werden muss. Wenden Sie sich bei Bedarf an den Hardwareanbieter.
Betroffene Versionen
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x–3.6.1.x
Behoben in Version
Das LIA-Sampling-Design wurde in PowerFlex 3.6.0.3 verbessert.
Falsch positive MDM-Ereignisse wurden in PowerFlex 3.6.2 behoben.