PowerFlex:使用复制时的客户端 IO 错误
Summary: 客户端服务器在针对支持 PowerFlex 的设备时遇到 I/O 错误。整体后端(MDM 和 SDS)看起来很正常。 正在利用 PowerFlex 复制,并且一个或多个 RCG 存在一些 RPO 错误。
Symptoms
- 无降级或故障容量
- 未分离 SDS,并且没有 SDS 设备报告错误
- 没有断开连接的 MDM
- 正在使用复制功能
UI 中的一个或多个警报报告以下错误:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM 事件日志可能会报告以下内容:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
影响
客户端无法访问正在复制的卷。
Cause
如果 MDM 和 SDR 组件在与日志容量相关的内部计数器上存在分歧,则可能会发生罕见的软件缺陷。
当 SDR 的容量已满时,此差异可能会导致 MDM 无法取消分配(释放)额外的日志容量,从而可能导致在使用 PowerFlex 支持的设备的客户端服务器上出现 I/O 错误。
Resolution
需要滚动重新启动所有 SDR 组件,并且需要切换源系统上的 MDM 所有权才能解决问题。
重新启动 目标站点上的 SDR 组件
1.在继续执行步骤 2 之前,请识别所有 SDR 并验证它们是否处于正常运行状态:
scli --query_all_sdr
2.在 SDR 上进入维护模式:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3.通过运行步骤 1 中的命令,验证 SDR 是否处于维护模式。
4.重新启动 SDR 组件
pkill sdr
5.对源 站点上的所有 SDR 重复步骤 1-4。
6.使 SDR 退出维护模式:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7.所有 SDR 都重新启动并处于正常运行状态后,切换 MDM 所有权:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8.验证不再报告客户端服务器上的 I/O 错误。 如果客户端已进入只读文件系统,则客户端服务器可能需要重新启动。
受影响的版本
PowerFlex 3.x
PFMP 4.x
已修复问题的版本
PowerFlex 4.5.3
PowerFlex 4.5.4 — 升级到 4.5.4 HF1
PowerFlex 4.5.5 — 无可用
修复 PowerFlex 4.5.6 及更高版本
Additional Information
受影响的版本
PowerFlex 3.x
PowerFlex 4.x
已修复问题的版本
PowerFlex 4.5.3
PowerFlex 4.5.4 — 升级到 4.5.4 HF1
PowerFlex 4.5.5 — 无可用修复。
PowerFlex 4.5.6 及更高版本