PowerFlex: Пристрій SDS повідомляє про помилки, хоча пристрій досі використовується і працює в робочому стані
Summary: MDM повідомляє про помилки пристрою від SDS, але SDS або DAX-пристрій використовується кластером і є здоровим.
Symptoms
MDM повідомляє про помилки пристроїв SDS або DAX на основі атрибутів S.M.A.R.T. Диск не викидається, доки не виникає проблема з введенням/виводом.
MDM events.txt
Приклад пристрою SDS:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
Приклад пристрою DAX:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
SDS витягує диск, коли виникає проблема з введенням/виводом. Нижче ви можете побачити схожу помилку:
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Зверніть увагу на різницю у повідомленнях про помилки:
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
Зверніть увагу, система показує відкидання вводу/виведення на цьому пристрої і переходить на DATA_DEGRADED, що призводить до перебудови.
Перевірка апаратної діагностики хоста за допомогою iDRAC показує, що диск має прогностичні збої, такі як наступні:
Цей вплив може варіюватися від косметичного (заповнення MDM-подій) до відмови диска, що призводить до перебудови.
Cause
Агент LIA на вузлі SDS відбирає атрибути S.M.A.R.T. пристроїв зберігання, які використовуються SDS. Він передає ці дані MDM, який потім повідомляє про виявлені проблеми, але не реагує на них.
Жодних дій не вживається, оскільки статус S.M.A.R.T. надає лише два значення: «поріг не перевищено» і «поріг перевищено». Часто їх позначається як «drive OK» або «drive fail» відповідно.
Значення «поріг перевищено» вказує на високу ймовірність того, що диск вийде з ладу в майбутньому, коли він ось-ось вийде з ладу. Це може бути катастрофічно або непомітно, наприклад, неможливість записувати у певні сектори або повільніша продуктивність, ніж заявляє виробник.
Resolution
Проведіть ручну діагностику апаратного забезпечення, щоб визначити, чи потрібно замінювати відповідний SDS або DAX-пристрій. За потреби консультуйтеся з постачальником апаратного забезпечення.
Впливові версії
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
Виправлено у версії
Дизайн семплінгу LIA був удосконалений у версії PowerFlex 3.6.0.3.
Хибнопозитивні MDM-події були виправлені у PowerFlex 3.6.2.