VxRail:升级失败,并显示错误“主机 xxxxxxxx 上的 VxRail 平台服务未安装或未就绪”
摘要: 本文讨论了 Life-Cycle Manager (LCM) 升级失败的症状和原因以及指示主机上的 VxRail 平台服务未安装或准备就绪的错误消息。
症状
LCM 升级失败,并显示错误“主机 xxxxxxxx 上的 VxRail 平台服务未安装或未就绪”
lcm-web.log:
2023-06-23 00:54:03,590 INFO [LCM] [lcm-node-0] c.v.c.c.v.PlatformServiceDOClient [PlatformServiceDOClient.java:224] Get DO platform service status for {NODE Service Tag}, try count is 60
2023-06-23 00:54:03,590 INFO [LCM] [lcm-node-0] c.d.v.l.d.p.r.d.HostDO [HostDO.java:240] Get platform status from configured host by sn via HostDO service
2023-06-23 00:54:04,250 INFO [LCM] [lcm-core-0] c.d.v.l.d.p.r.d.VxrailSystemDO [VxrailSystemDO.java:106] operation status info cache hit LcmNodeUpgrade-4d3137cb-3e9d-4b42-9a4e-b442ff3bde8b
2023-06-23 00:54:04,358 INFO [LCM] [lcm-node-0] c.d.v.l.d.p.r.d.HostDO [HostDO.java:251] Get platform status false
与知识库文章 Dell VxRail 不同:ESXi 主机上的升级失败,并显示错误“主机上的 VxRail 平台服务未安装/就绪”,当我们运行以下命令时, ServiceCacheReady 返回 'true'。
curl --capath /var/lib/vmware-marvin/trust/lin -u root https://<esxi-hostname>:9090/rest/ps/private/v1/status
{"ServiceCacheReady": true, "BMCConnected": true}
在 VxVerify 输出中,此节点没有 iDRAC 或平台服务警报。
原因
有时,当节点在升级期间重新启动后,可能需要很长时间才能使 iDRAC Service Module (ISM) 处于运行状态。
当客户将 DCISM 设置为手动运行时,也会发生这种情况。
在节点连接到 vCenter 后,LCM 将尝试检查 ISM 和平台服务状态。默认的最大尝试次数计数为 60。即每 10 秒一次。这可以在上面的lcm-web.log中看到。
如果服务启动速度太慢,则可能会超时并且无法检测到服务已启动。
解决方案
要解决此问题,请延长重试次数,并让 LCM 再等待一段时间。
1.通过 SSH 连接到 VxRail Manager 并编辑文件 commons-application.properties。
vi /usr/lib/vmware-marvin/marvind/webapps/lcm/WEB-INF/classes/commons-application.properties
2.更改参数 lcmProperties.platformServiceClient.script.retry.times.get.status 从 60 增加到 150
lcmProperties.platformServiceClient.script.retry.times.get.status=150
这使 LCM 能够及时检测到 ISM 正在运行。
3.重新启动服务。
systemctl restart vmware-marvin systemctl restart runjars
4.验证 sfcbd-watchdog 在每个节点上设置为自动运行(通过主机启动和停止)或手动(手动启动和停止)。
chkconfig --list |grep sfcbd
如果输出 ”sfcbd-watchdog“ 返回”off“, 则在节点上启用”Start and stop with host”。