PowerStore:由于 DP 内存不足,升级到 PowerStoreOS 4.0.x 的 (NDU) 失败
摘要: 在实施了 NVMe 扩展柜内存不足 (OOM) 解决方法的设备上,由于 DP 内存不足,从 3.6 以下的 PowerStoreOS 版本升级到 PowerStoreOS 4.0.x 的升级 (NDU) 可能会失败。
症状
- 安装了 NVMe 扩展柜的 PowerStore 设备
- PowerStoreOS 低于 3.6.x 版本
- KBA PowerStore 的 NVMe 扩展柜内存不足 (OOM) 解决方法:具有 NVMe 扩展柜的设备中可能会发生意外的节点重新启动是使用 KBA 中提供的脚本实施的:如何在具有 NVMe 扩展柜 (svc_reduce_dp_mem_allocation) 的设备上调整内存分配,如存在 cyc-dp-mem-override.txt 文件所示
Live Analysis (as service user): ls -al /cyc_var/cyc-cfg.txt.d/
DC Analysis: ls -ail node_*/cyc_var/cyc-cfg.txt.d/
node_a/cyc_var/cyc-cfg.txt.d/:
total 79
7899986223 drwxrwsr-x 2 stormr eql_diag_group_data 41 Dec 3 05:31 ./
7879617078 drwxrwsr-x 23 stormr eql_diag_group_data 4082 Dec 3 05:31 ../
7850319521 -rwxrwxr-x 1 stormr eql_diag_group_data 42 Dec 3 05:31 cyc-dp-mem-override.txt*
node_b/cyc_var/cyc-cfg.txt.d/:
total 79
7861150504 drwxrwsr-x 2 stormr eql_diag_group_data 41 Dec 3 05:14 ./
7895530462 drwxrwsr-x 22 stormr eql_diag_group_data 3635 Dec 3 05:21 ../
7903976575 -rwxrwxr-x 1 stormr eql_diag_group_data 42 Dec 3 05:14 cyc-dp-mem-override.txt*
情况 1:
如果配置了多个 Indus 驱动器,并且覆盖 DP 内存低于预期的 DP 内存预算。由于 DP 内存不足,PowerStoreOS 升级到版本 4.0.x 失败,并且 DP 无法在运行新代码的节点上启动。在这种情况下,NDU 失败,而回滚成功。
情况 2:
如果覆盖 DP 内存略低于 4.0.x 的预期 DP 内存预算,则 DP 可能会启动,并且 NDU 会成功。但是,将来更改 DP 配置时,DP 可能会离线。
情况 3:
如果覆盖 DP 内存超出了 4.0.x 的预期 DP 内存预算,则在将来将更多驱动器添加到 NVMe 扩展柜时,节点可能会遇到 NVMe OOM 状况。
原因
在升级到 PowerStoreOS 4.0.x 期间,如果 KBA PowerStore 的 OOM 解决方法:检测到具有 NVMe 扩展柜的设备中可能会发生意外的节点重新启动 ,则 /cyc_var/cyc-cfg.txt.d/cyc-dp-mem-override.txt 文件已重命名 /cyc_var/cyc-cfg.txt.d/cyc-dp-mem-override.txt.bak 在 PLT 升级期间。但是,由于代码问题,文件仍处于运行状态,这会导致在运行 4.0.x 代码时 DP 内存覆盖仍然生效。因此,如果 DP 因 DP 内存不足而无法启动,则 NDU 会失败。
解决方案
发生 NDU 故障时的解决方法:
如果发生 NDU 故障,请上报给 戴尔技术支持 ,并参考此知识库文章以获取有关 POA 的帮助,以从两个节点中删除 /cyc_var/cyc-cfg.txt.d/cyc-dp-mem-override.txt 文件,然后从 UI 重试 NDU。
无中断升级前确定是否存在 cyc-dp-mem-override.txt 文件时的解决方法:
选项 1:
上报给戴尔技术支持,并参考此知识库文章以获得帮助。在计划升级到 PowerStoreOS 4.0.x 之前,必须立即删除cyc-dp-mem-override.txt文件。
选项 2:
执行两步升级,即升级到最新的 3.6.1.x 代码,然后升级到 4.0.x 代码。
修复:
此问题已在 PowerStoreOS 4.1.0.0-2435323 中得到修复。 升级到 4.1.0.0-2435323 不会出现此问题。