PowerFlex. Устройство SDS сообщает об ошибках, хотя устройство все еще используется и исправно

Summary: MDM сообщает об ошибках устройств из SDS, но рассматриваемое устройство SDS или DAX используется кластером и исправно.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

MDM сообщает об ошибке устройств SDS или DAX на основе атрибутов S.M.A.R.T. Диск не извлекается до тех пор, пока не возникнет проблема ввода-вывода.  

events.txt MDM

Пример устройства SDS:

2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu

Пример устройства DAX:

2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0.
2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0.
2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.

Система SDS извлекает накопитель при возникновении проблемы ввода-вывода. Ниже вы можете увидеть аналогичную ошибку:

2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb.
2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Обратите внимание на разницу в сообщениях об ошибках:

 - SDS_DEV_MOVED_TO_FAILURE_STATE  <<<--- device not failed
 - SDS_DEV_ERROR_REPORT            <<<--- device failed 

Обратите внимание, что система отображает ошибку сброса или ошибки ввода-вывода для этого конкретного устройства и переходит в DATA_DEGRADED, вызывая восстановление.

Проверка диагностики оборудования хоста с помощью iDRAC показывает, что на диске возникают прогнозируемые сбои, такие как:

Это может быть самым разным явлением — от косметического (отключение событий MDM) до сбоя накопителя, приводящего к перестройке.

Cause

Агент LIA на узле SDS выполняет выборку атрибутов S.M.A.R.T. устройств хранения, которые используются SDS. Он передает эти данные MDM, который затем сообщает обо всех обнаруженных проблемах, но не выполняет никаких действий на основе этих данных.

Никаких действий не предпринимается, так как статус S.M.A.R.T. предоставляет только два значения: «Порог не превышен» и «Порог превышен». Часто они представляются как «drive OK» или «drive fail» соответственно.

Значение «Пороговое значение превышено» указывает на высокую вероятность сбоя накопителя в будущем, то есть накопитель находится в состоянии готовности. Она может быть катастрофической или незаметной, например, невозможность записи в определенные секторы или более низкая производительность, чем заявлено производителем.

Resolution

Выполните диагностику оборудования вручную, чтобы определить, какое устройство необходимо заменить: SDS или DAX. При необходимости проконсультируйтесь с поставщиком оборудования.


Затронутые версии

ScaleIO 2.x.x

ОС VxFlex версии 3.0.x

PowerFlex 3.5.x

PowerFlex 3.6.0.x-3.6.1.x


Исправлено в версии

В PowerFlex 3.6.0.3 улучшена схема выборки LIA.

В PowerFlex 3.6.2 исправлены ложные события MDM.

Affected Products

PowerFlex rack, PowerFlex custom node

Products

VxFlex Ready Nodes, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R640 , PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000049265
Article Type: Solution
Last Modified: 02 Jan 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.