PowerFlex: Помилки виводу клієнта під час використання реплікації
Summary: Клієнтські сервери стикаються з помилками введення/виведення на пристроях з підтримкою PowerFlex. Загальний бекенд (MDM і SDS) виглядає здоровим. Використовується реплікація PowerFlex, і є деякі помилки RPO щодо одного або кількох RCG. ...
Symptoms
- Відсутність деградації чи виходу з ладу
- Жоден SDS не був роз'єднаний, і жоден SDS-пристрій не повідомляв про помилки
- Немає від'єднаних MDM
- Використовується функція реплікації
Один або кілька сповіщень у інтерфейсі, які повідомляють про такі помилки:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Журнали подій MDM можуть повідомляти наступне:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Вплив
Клієнти не можуть отримати доступ до томів, які реплікуються.
Cause
Рідкісний дефект програмного забезпечення може виникати, коли компоненти MDM і SDR не погоджуються щодо внутрішніх лічильників, пов'язаних із місткістю журналу.
Ця розбіжність може призвести до того, що MDM не зможе відокремити (звільнити) додаткову ємність журналу при повному об'ємі SDR, що потенційно призводить до помилок введення/виведення на клієнтських серверах, які використовують пристрої, підтримувані PowerFlex.
Resolution
Потрібне постійне перезавантаження всіх компонентів SDR, а також перемикати право власності MDM на системі Source для вирішення проблеми.
Перезапустіть компоненти SDR на цільовому сайті
1. Визначте всі SDR і переконайтеся, що вони у здоровому стані, перш ніж переходити до другого кроку:
scli --query_all_sdr
2. Увійти в режим обслуговування на SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Перевірте, що SDR перебуває в режимі обслуговування, виконавши команду на першому кроці.
4. Перезапустіть компонент SDR
pkill sdr
5. Повторіть кроки 1-4 для всіх SDR на сайті Source .
6. Вихід SDR з режиму обслуговування:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Змініть власника MDM, коли всі SDR будуть перезапущені і в здоровому стані:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Перевірте, що помилки введення/виведення на клієнтських серверах більше не повідомляються. Якщо клієнт увійшов у файлову систему лише для читання, клієнтський сервер може потребувати перезавантаження.
Впливові версії
PowerFlex 3.x
PFMP 4.x
Виправлено у версії
PowerFlex 4.5.3 PowerFlex 4.5.4 - оновлення до 4.5.4 HF1
PowerFlex 4.5.5.5 - немає фіксації
PowerFlex 4.5.6 і вище
Additional Information
Впливові версії
PowerFlex 3.x
PowerFlex 4.x
Виправлено у версії
PowerFlex 4.5.3
PowerFlex 4.5.4 — оновлення до 4.5.4 HF1
PowerFlex 4.5.5 — виправлення немає.
PowerFlex 4.5.6 та вище