PowerFlex. Устройство SDS сообщает об ошибках, хотя устройство все еще используется и исправно
Summary: MDM сообщает об ошибках устройств из SDS, но рассматриваемое устройство SDS или DAX используется кластером и исправно.
Symptoms
MDM сообщает об ошибке устройств SDS или DAX на основе атрибутов S.M.A.R.T. Диск не извлекается до тех пор, пока не возникнет проблема ввода-вывода.
events.txt MDM
Пример устройства SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Пример устройства DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
Система SDS извлекает накопитель при возникновении проблемы ввода-вывода. Ниже вы можете увидеть аналогичную ошибку:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Обратите внимание на разницу в сообщениях об ошибках:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Обратите внимание, что система отображает ошибку сброса или ошибки ввода-вывода для этого конкретного устройства и переходит в DATA_DEGRADED, вызывая восстановление.
Проверка диагностики оборудования хоста с помощью iDRAC показывает, что на диске возникают прогнозируемые сбои, такие как:
Это может быть самым разным явлением — от косметического (отключение событий MDM) до сбоя накопителя, приводящего к перестройке.
Cause
Агент LIA на узле SDS выполняет выборку атрибутов S.M.A.R.T. устройств хранения, которые используются SDS. Он передает эти данные MDM, который затем сообщает обо всех обнаруженных проблемах, но не выполняет никаких действий на основе этих данных.
Никаких действий не предпринимается, так как статус S.M.A.R.T. предоставляет только два значения: «Порог не превышен» и «Порог превышен». Часто они представляются как «drive OK» или «drive fail» соответственно.
Значение «Пороговое значение превышено» указывает на высокую вероятность сбоя накопителя в будущем, то есть накопитель находится в состоянии готовности. Она может быть катастрофической или незаметной, например, невозможность записи в определенные секторы или более низкая производительность, чем заявлено производителем.
Resolution
Выполните диагностику оборудования вручную, чтобы определить, какое устройство необходимо заменить: SDS или DAX. При необходимости проконсультируйтесь с поставщиком оборудования.
Затронутые версии
ScaleIO 2.x.x
ОС VxFlex версии 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Исправлено в версии
В PowerFlex 3.6.0.3 улучшена схема выборки LIA.
В PowerFlex 3.6.2 исправлены ложные события MDM.