PowerStore:系统运行状况检查因“由于通信错误而无法执行运行状况检查”而失败
Summary: 安装 PowerStore-health_check-4.0.1.0-2416779-retail.tgz.bin 软件包后,系统运行状况检查多个步骤失败,并显示错误“由于通信错误,无法执行运行状况检查”。控制路径 (CP) 也可能因 CPU0 高负载而受到影响。
Symptoms
安装 PowerStore-health_check-4.0.1.0-2416779-retail.tgz.bin 软件包后,系统运行状况检查多次检查失败,并显示错误”Unable to perform health check due to communication error."

UI 详细信息还可能显示系统运行状况检查 Fireman 命令失败 (0xE0F010200004)

由于 CPU0 负载较高,控制路径 (CP) 和其他管理功能也可能会受到影响。
Cause
在安装PowerStore-health_check-4.0.1.0-2416779-retail.tgz.bin包期间,服务 cyc.bsc_status_check_service.service 不会重新启动。这会导致 CPU0 负载过高,从而导致系统运行状况检查多次检查失败,并显示错误”Unable to perform health check due to communication error“的原因是超出超时值。
Resolution
解决办法:
使用 svc_node reboot 命令一次重新启动一个节点将解决此问题并允许系统运行状况检查通过。建议先重新启动对等(非主)节点,然后重新启动主节点。在重新启动第二个节点之前,务必验证第一个节点是否完全启动且正常工作。svc_diag列表 --basic 命令可用于确定哪个节点是主节点。
===================== Nodes ======================
id: N1
name: WK-A1234-appliance-1-node-A
slot: 0
appliance_id: A1
is_primary: False
id: N2
name: WK-A1234-appliance-1-node-B
slot: 1
appliance_id: A1
is_primary: True
如果一次重新启动一个节点不可行,戴尔技术支持可以发出根级命令来重新启动服务cyc.bsc_status_check_service。如果一次重新启动一个节点不可行。上报给 戴尔技术支持 ,并参考此知识库文章以获得帮助。
修复:
此问题已在 PowerStore-health_check-4.0.1.0-2424376-retail.tgz.bin 程序包中得到修复。