RecoverPoint for Virtual Machine:扩展环境中的初始状态和错误状态之间的一致性组循环
Summary: RecoverPoint for Virtual Machine:扩展环境中的初始状态和错误状态之间的一致性组循环
Symptoms
不适用 扩展环境中
的初始状态和错误状态之间发生一致性组循环,导致数据复制不可用 (DRU)。
在日志中发现的症状:
ESX 拆分器日志:
以下日志指示读取 /vmfs/volumes/vsan:5xxxxxxxxxx-dxxxxxxxxxxxxxxx 失败,因此将删除 VSAN 中的所有 RPVS 卷。
spl_esx_discover_RPvStorage_clusters_in_datastore:无法读取目录 /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxxxxxxxx-dxxxxxxxxxxxxxxxxxxxx,返回状态为超时
update_rpvs_db:上次设备视图更新
RPVS_ClusterLuns_removeLunInfo:因 LUN = 1 (name RPVS_Lun00001.vmdk) 而调用。Cluster id=2xxxxxxxxxxxx
update_rpvs_db: lun 12 was not scanned on last device view update
RPVS_ClusterLuns_removeLunInfo: called for lun=12 (name RPVS_Lun00012.vmdk).Cluster id=2xxxxxxxxxxx
update_rpvs_db: LUN 13 was not scanned on last device view update ...
* RPVS 发现过程成功,因此所有 RPVS 卷都会添加回来:
parse_vmdk_file: called with file /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdk
parse_vmdk_file: capacity=12000000, thinLun=0, flat_filename=RPVS_Lun00001-flat.vmdk, rawguid=0x6xxxxxxxxxxxxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo: added lun 1, cluster 4xxxxxxxxxxxxxxxx parse_vmdk_file: called with file /vmfs/volumes/vsan:5xxxxxxxxxxxxxxxx-dxxxxxxxxxxxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file: capacity=524288000, thinLun=0, flat_filename=RPVS_Lun00012-flat.vmdk, rawguid=0x6xxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo: added lun 12, cluster 2xxxxxxxxxxxxxxx
* 日志表明 RPVS 发现过程耗时较长
CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), 运行时间 32585607 微秒, 队列中的命令数量:11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), 运行时间 33277695 微秒, 队列中的命令数:11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), 运行时间 35834242 微秒, 队列中的命令数量:11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), 运行时间 36488014 微秒, 队列中的命令数量:11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), 运行时间 37767728 微秒, 队列中的命令数:11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040, cmd-execute>(CommandRPVSDiscovery), running time 49355575 microseconds, num commands in queue:11 CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd-execute>(CommandRPVSDiscovery)、运行时间109257427微秒、队列中的 num 命令:19
影响所有 RP4VM 版本
Cause
ESX 拆分器每t_rpvsDiscoveryPeriodicTimerInterval扫描一次 RPVS 卷(日志和存储库)(默认值:30) 秒。
扫描通过读取 /vmfs/volumes/ 并遍历其中的每个目录来完成,查找 RPVS_LunXXXXX.vmdk
RPVS 卷驻留在 /vmfs/volumes/<datastore>/<cluster=id>/ 中。在 VSAN 环境中,它将驻留在 /vmfs/volumes/vsan:<vsan-id>/<cluster=id>/
中 如果读取 /vmfs/volumes/ 中的任何目录失败(超时、瞬时错误等),则会导致删除故障目录中的所有 RPVS 卷。
在任何后续运行中,如果 rpvs 发现进程成功读取并找到 RPVS_LunXXXXX.vmdk,则将重新添加相应的 RPVS 卷。
这就是 CG 在 Error 和 Init 之间循环的原因。
当 VSAN 中的大量主机同时读取 /vmfs/volumes/ 下的目录时,此问题会放大。
Resolution
在群集中的每个 ESX 主机中,将拆分器调整值 t_rpvsDiscoveryPeriodicTimerInterval
更新为 180 到 600 秒之间的随机值,然后重新启动 kdriver。
ESX 拆分器调整可在以下位置
找到:/etc/kdriver/tweak/tweak.params.splitter 或 /etc/config/emc/rp/kdriver/tweak/tweak.params.splitter。
解决方案:
Dell EMC 工程部门目前正在调查此问题。目前正在开发永久修复。要寻求帮助,请联系 Dell EMC 客户支持中心或服务代表并参考此解决方案 ID。