VxRail:启用 HA 失败,并显示错误:“为群集设置所需的映像规格失败”

摘要: 在 VxRail 群集上重置 Update Manager (VUM) 数据库后,由于 vLCM 仓库中的问题,vSphere HA 失败。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

观察到的错误:

com.vmware.vcIntegrity.lifecycle.EsxImage.SolutionNotFound for com.vmware.vsphere-ha version 8.0.3-XXXXXXXX
HSM manifest not found
setting desired image spec for cluster failed
cannot find vSphere HA master agent

原因

vLCM 仓库中缺少高可用性解决方案,VUM 数据库中存在陈旧的期望状态条目。

解决方案

注意:先拍摄 vCenter 的快照,然后再继续。

 

  1. 停止更新管理器:
    service-control --stop vmware-updatemgr
  2. 切换到 VUM 用户并连接到数据库:
    su updatemgr -s /bin/bash
    psql -U vumuser -d VCDB
  3. 检查表(可选):
    table pm_software_desired_states;
    table pm_software_compliances;
  4. 删除过时的行:
    1. 全球:
      DELETE FROM pm_software_compliances;
      DELETE FROM pm_software_desired_states;
    2. 或针对单个群集(替换 DOMAIN-ID):
      DELETE FROM pm_software_compliances
      WHERE desired_state_id IN (
      SELECT desired_state_id FROM pm_software_desired_states
      WHERE entity_id='domain-ID'
      );
      DELETE FROM pm_software_desired_states WHERE entity_id='domain-ID';
      
  5. 退出数据库并返回根目录:
    \q
  6. 重新启动更新管理器:
    service-control --start vmware-updatemgr
  7. 在群集上重新启用 vSphere HA

 

如果仍然缺少 HA 解决方案

  1. 重新生成 VxRail Manager 证书(在 vCenter 上运行):
    /usr/lib/vmware-updatemgr/bin/updatemgr-utility.py install-cert <VxRail-FQDN>
  2. 确保 vlcm_enabled=true 使用 API(在 VxRail Manager 上):
    curl -X PUT -H "Content-Type: application/json" -d '{"value":"true"}' --unix-socket /var/lib/vxrail/nginx/socket/nginx.sock http://127.0.0.1/rest/vxm/internal/configservice/v1/configuration/keys/vlcm_enabled
    
  3. 通过设置禁用传统批量升级(在 VxRail Manager 上): lcmProperties.force.legacy.batch.upgrade=false
    vi /var/lib/vmware-marvin/lcm_advanced_mode.properties
  4. 重新上传正确的组合捆绑包和同步库。

其他信息

受影响的产品

VxRail, VxRail Appliance Series, VxRail Software
文章属性
文章编号: 000370843
文章类型: Solution
上次修改时间: 03 10月 2025
版本:  2
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。