PowerFlex. Ошибки клиентского ввода-вывода при использовании репликации
Summary: На клиентских серверах возникают ошибки ввода-вывода на устройствах с поддержкой PowerFlex. В целом серверная часть (MDM и SDS), по-видимому, работоспособна. Используется репликация PowerFlex, и имеются ошибки целевой точки восстановления для одного или нескольких RCG. ...
Symptoms
- Отсутствует пониженная производительность или сбой емкости
- Ни одна SDS не была развязана, и ни одно устройство SDS не сообщило об ошибках
- Без отключенных MDM
- Используется функция репликации
Одно или несколько оповещений в пользовательском интерфейсе сообщают о следующих ошибках:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Журналы событий MDM могут сообщать следующее:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Воздействие
Клиенты не могут получить доступ к реплицируемым томам.
Cause
Редкий дефект программного обеспечения может возникнуть, если компоненты MDM и SDR не согласны во внутренних счетчиках, связанных с емкостью журнала.
Это несоответствие может привести к тому, что MDM не сможет отменить выделение (освобождение) дополнительной емкости журнала при заполненной емкости SDR, что может привести к ошибкам ввода-вывода на клиентских серверах, использующих устройства с поддержкой PowerFlex.
Resolution
Для устранения проблемы требуется последовательный перезапуск всех компонентов SDR и смена владельца MDM в исходной системе.
Перезапустить компоненты SDR на целевой площадке
1. Определите все SDR и убедитесь, что они находятся в работоспособном состоянии, прежде чем перейти к шагу 2.
scli --query_all_sdr
2. Перейдите в режим обслуживания SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Убедитесь, что SDR находится в режиме обслуживания, выполнив команду на шаге 1.
4. Перезапустите компонент SDR.
pkill sdr
5. Повторите шаги 1–4 для всех SDR на исходной площадке.
6. Выведите SDR из режима обслуживания.
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Переключите владельца MDM, как только все SDR будут перезапущены и приведены в работоспособное состояние:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Убедитесь, что сообщения об ошибках ввода-вывода на клиентских серверах больше не отображаются. Если клиент перешел в файловую систему, доступную только для чтения, может потребоваться перезагрузка клиентского сервера.
Затронутые версии
PowerFlex 3.x
PFMP 4.x
Исправлено в версии
PowerFlex 4.5.3
PowerFlex 4.5.4 — обновление до 4.5.4 HF1
PowerFlex 4.5.5 — нет доступных
исправлений PowerFlex 4.5.6 и более поздних версий
Additional Information
Затронутые версии
PowerFlex 3.x
PowerFlex 4.x
Исправлено в версии
PowerFlex 4.5.3
PowerFlex 4.5.4 — обновление до 4.5.4 HF1
PowerFlex 4.5.5 — недоступно исправление.
PowerFlex 4.5.6 и выше