Dell VxRail:运行状况检查“ism_fix”或“rac_fix”纠正 iSM 和 iDRAC 问题

Summary: VxRail Manager 上的 VxVerify 可以尝试通过重新启动 iDRAC 和相关 VxRail 节点服务来纠正 iDRAC 和 iSM 故障。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

VxRail Manager 上的 VxVerify 可以尝试通过重新启动 iDRAC 和相关 VxRail 节点服务来纠正 iDRAC 和 iSM 故障。
在使用 VxVerify minion 直接在每个节点上运行测试之前,VxRail Manager 上的 VxVerify 首先查询 Dell iSM(dcism 或 dellism)。
或者,如果在运行运行状况检查时发现 iDRAC 问题,则会在重试运行状况检查之前尝试此自动修复。
如果启用了“自动修复”选项(通过测试配置文件或使用参数 --fix),则尝试更正此设置大约需要 10 分钟。

此自动更正的结果列为以下结果之一:
测试结果
结果代码
    结果解释
通过
0
在测试配置文件下,纠正 iSM 状态是不必要的或未启用的。
Warning
1
重新启动后,Dell iSM 状态为正常运行。
Failure 2
Dell iSM 和 iDRAC 已重新启动,但之后 iSM 仍无法正常运行。
严重 3
此测试没有严重结果。
如果 iDRAC 查询失败,也可在 VxVerify 检查运行后触发此修复程序。在这种情况下,VxVerify minion 将在修复后第二次运行。重复测试将检查 iSM 和 iDRAC 问题是否已解决。
摘要报告中未列出每个通过的测试,以便于阅读。
运行状况检查输出的示例如下所示:
#========================#======#=========#====================================================================#==============#
|  Hostname / Category   |Status  Dell_KB |  Warnings or Failures, unless tests Passed                         ; Product S.N. |
#========================#======#=========#====================================================================#==============#
| _cluster               | Warning 205179 | ism_fix: iSM and iDRAC fixed for node1.lab.local, node4.lab.local                .|
|   ``                   | Warning 205179 | rac_fix: iSM and iDRAC fixed for node2.lab.local                                  |

“ism_fix”操作在 minion 之前运行,修复命令使用 SSH 从 VxRM 远程运行。例如:
Running VxVerify 3.21.108, pre-upgrade healthcheck on VxRail 7.0.372.
In case of program errors consult article https://www.dell.com/support/kbdoc/000066460.
Step 1: Fixing iSM issue, prior to running health-checks, on node: lab-08-esxi-01.lab.local
Step 1: Fixing iSM issue, prior to running health-checks, on node: lab-08-esxi-02.lab.local
Step 1: Stopping ISM and platform service on lab-08-esxi-01.lab.local
Step 1: Stopping ISM and platform service on lab-08-esxi-02.lab.local
Step 1: Pausing for 266 seconds more after iDRAC restarted on ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local'] 
... 
Step 1: Starting iSM on lab-08-esxi-01.lab.local
Step 1: Starting iSM on lab-08-esxi-02.lab.local
Step 1: Pausing for 84 seconds more after Dell iSM started on ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local']
...
Step 1: Starting Platform service on lab-08-esxi-01.lab.local
Step 1: Starting Platform service on lab-08-esxi-02.lab.local
还可以在minion_run事件之前的vxv.log中看到自动修复:
2022-11-11 09:51:26-INFO     [ism_fix] Fixing phase 1 Dell ISM on node on lab-08-esxi-01.lab.local
2022-11-11 09:51:31-INFO     [ism_fix] lab-08-esxi-01.lab.local Auto-fix continuing with vSAN objecthealth: green
2022-11-11 09:51:32-INFO     [ism_fix] iDRAC restarting on lab-08-esxi-01.lab.local: _
...
2022-11-11 09:58:58-INFO     [ism_fix] Checking hosts for auto-fix success: ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local']

Cause

要纠正 dcism 未运行的问题,VxVerify 将在 测试配置文件中启用此自动修复功能,执行以下步骤:
  • 停止服务:sfcbd、dcism、PTAgent(如果存在)和平台服务
  • 重新启动 iDRAC,然后等待 5 分钟,以便 iDRAC 恢复联机状态
  • 启动服务(如上所列)

Resolution

当 VxVerify 远程轮询时,iSM 的自动修复会根据“dcism”或“dellism”状态报告成功或失败。然后,工作节点将正常启动。
直接在该节点上使用“dcism”运行状况检查重新检测 iSM 状态。这可能会报告不同的结果,因为这是在自动修复几分钟后轮询的。如果结果确实不同,则“dcism”测试应被视为 iSM 状态的更准确结果。

启动服务的命令的结果可在vxv.log中找到(请参阅文章 66460:VxVerify 故障处理指南 )。
2022-11-25 09:16:26-DEBUG    [ism_fix] node-04.lab.local iSM start: _
2022-11-25 09:18:26-DEBUG    [ism_fix] node-04.lab.local Platform service start: Starting Platform Service Daemon. Check hostd status. hostd is ready. Platform Service started.
2022-11-25 09:18:26-INFO     [ism_fix] Checking hosts for auto-fix success: ['node-04.lab.local']
2022-11-25 09:18:26-INFO     [ism_check] Querying DC or Dell ISM status on host
2022-11-25 09:18:26-INFO     [ism_check] iSM status on node-04.lab.local : iSM is active (running)

如果上述步骤无法修复 iSM(运行状况检查可以自动运行),请参阅文章:Dell VxRail:测试“dcism”的节点运行状况检查失败

Additional Information

强制使用ism_fix(iDRAC 重新启动)

如果从 VxRM 查询“dcism”或“dellism”未运行,则会自动修复运行。但是,仅当测试配置文件或 --fix 参数启用自动修复时,这才适用。
或者,可能建议重新启动 iDRAC 以解决其他问题,以便可以通过 VxVerify 参数启用自动修复。
这是比直接从 iDRAC UI 重新启动更安全的恢复 iDRAC 通信的方法,因为 VxVerify 将在重新启动 iDRAC 之前关闭 iSM 和相关服务,然后以正确的顺序恢复服务。
覆盖参数可以请求所有节点具有交错的 iDRAC 重新启动,也可以请求特定节点的列表。

要将修复应用于节点(即使 iSM 正常运行),这将重新启动 iDRAC 和相关服务:

  • 或者,将 iSM 和 iDRAC 重新启动程序(“ism_fix”)强制应用于 所有节点:

./vxverify.sh -a ism_fix=all​​​
  • 或者,将“ism_fix”应用于 列表中的指定节点 (无空格)(短名称或完全限定名称均适用):

python vxverify3.pyc <any_other_arguments> -a ism_fix=lab-08-esxi-01,lab-08-esxi-02

上面的示例显示了运行 VxVerify 的 Shell 和 Python 方法,但参数将适用于任一语法。
-a 参数 (--additional-params) 允许指定无限数量的参数对,因此它必须位于所有其他标准参数之后,例如 --verbose

使用此参数时,可以在vxv.log中看到覆盖,如下所示:

INFO [ism_fix] Running fix for Dell ISM on node: lab-08-esxi-01, due to override argument: lab-08-esxi-01.lab.local,lab-08-esxi-02.lab.local
or 
INFO [ism_fix] Running fix for Dell ISM on node: lab-08-esxi-02, due to override argument: all 

Affected Products

VxRail, iDRAC Service Module, VxRail Appliance Family, VxRail Appliance Series, VxRail Software
Article Properties
Article Number: 000205179
Article Type: Solution
Last Modified: 18 Dec 2024
Version:  12
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.