PowerPath:常见 ESXi 问题和要检查的故障处理项目

Summary: 本知识库文章旨在提供有关 ESXi 问题及其故障处理步骤的常见信息。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

原因
有许多因素可能导致 ESXi 主机出现问题。
本演示文稿列出了一些可能找到的最常见内容及其故障处理步骤。

分辨率

基本检查
  • 版本 — 版本是否为当前版本且仍受支持

  • 查看发行说明的“已知问题”部分,了解常见问题、修复和 JIRA 链接。

  • PowerPath 的版本可在以下位置找到:

  • PP/rpowermt 版本

  • 文件位置:host/commands/localcli_software-vib-list.txt

  • 常见问题和错误

常见问题和错误

  • 连接
  • 永久设备丢失
  • 所有路径均向下
  • PowerPath


连接 

消息显示在 vmkernel 而且经常 vmkwarning 输出。

“有疑问的国家;已请求快速路径状态更新”

当主机总线适配器 (HBA) 驱动程序取消命令时,会显示这些消息,因为该命令完成的时间超过 5 秒的超时期限。由于以下几个原因,作可能需要比超时期限更长的时间:

  • 阵列备份作(LUN 备份、复制等)
  • 阵列上的一般过载
  • 阵列上的读/写高速缓存(配置错误、缺少高速缓存等)
  • 结构问题(交换机间链路 (ISL) 错误、固件过时、结构线缆/GBIC 故障)
  • 高 SAN 延迟 

VMware KB# 1022026 本超链接将引导您访问非 Dell Technologies 运营的网站。

示例:

/var/log/vmkernel.log 文件中,您会看到类似于以下内容的条目:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

对于检查 HBA 负载平衡和处理预留冲突,上述方法非常有用。
成功命令的大量不平衡可能表示存在固定路径策略或其他平衡问题。

保留冲突可能表示 Unity 阵列上的主机逻辑单元 (HLU) 不匹配。  

Dell EMC Unity/VNX/CLARiiON:如果 LUN 位于多个存储组中,并且 HLU 不匹配(用户可更正),则 VMware 无法正确看到 LUN。
 

Localcli_storage-core-device-stats-get.txt 

以上提供了 LUN 统计信息,并显示了哪些 LUN 存在保留冲突。  

 

/commands/localcli_storage-san-fc-stats-get.txt

上面的命令对于检查 HBA 统计信息非常有用,例如: 

  • 转储帧
  • 链路故障计数
  • 信号计数丢失
  • 无效的 Tx 字数统计

 

/commands/Localcli_storage-san-fc-events-get.txt

显示最近的 FC 事件时间戳、链路正常运行或故障等。  

 

/var/run/log/vmksummary.log

显示主机启动和重新启动或无响应的时间戳。
据我了解,HBA 统计信息在重新启动时重置。
这提供了 FC 统计信息发生的时间范围。  

示例:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

在执行存储阵列维护或任何可能导致阵列目标离线/联机的作时,Cisco Native FNIC 驱动程序可能无法正确登录回目标,从而导致路径保持无效状态。

此问题是由 Cisco 本地 FNIC 驱动程序在 REPORT_LUNS 命令部分收到 RSCN 引起的 nfnic 端口登录过程,这会导致驱动程序停止,并且不会重试登录过程。在 IBM SVC 和 IBM V7000 阵列上都观察到了这种情况,但在任何 IBM Storwize 阵列上也观察到了这一点,因为它们都使用相同的软件堆栈。对于非 IBM 阵列,只要它们在登录期间驱动程序发送的 REPORT_LUNS 命令期间发出 RSCN,就会观察到这种情况。

性能和路径故障/APD 问题均可通过升级到 nfnic 4.0.0.63 及更高版本。
有关更多信息和支持,请联系 VMware 和 Cisco。

驱动程序版本可在以下位置找到: /commands/localcli_software-vib-list.txt

(输入驱动程序) vib 此处的名称)(6.x 与 7.x 可能存在差异)

VMware KB# 80101本超链接将引导您访问非 Dell Technologies 运营的网站。

 

永久设备丢失 (PDL)/所有路径关闭 (APD)

永久设备丢失 (PDL)

  • 数据存储区在存储视图中显示为不可用。
  • 存储适配器将设备的作状态指示为通信中断。
  • 设备的所有路径都标记为无效。
  • /var/log/vmkernel.log 文件中,您会看到类似以下内容的条目:

 

示例

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

所有路径关闭 (APD)

  • 数据存储区在存储视图中显示为不可用。
  • 存储适配器将设备的运行状态指示为“Dead”或“Error”。
  • 设备的所有路径都标记为无效。
  • 您无法使用 vSphere Client 直接连接到 ESXi 主机。
  • ESXi 主机在 vCenter Server 中显示为“Disconnected”。
  • /var/log/vmkernel.log 文件,类似的条目会显示为:

 

示例

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

*请查看 VMware 知识库文章#,了解解决方案和基于各种情况的其他示例*。

**应检查 SAN 以及 ADP/PDL 问题的作项**。 

VMware KB# 2004684本超链接将引导您访问非 Dell Technologies 运营的网站。

 

PowerPath

如果存在 PowerPath,还需要检查一些其他事项。

Compatibility— 正在运行的 ESXi 版本是否支持正在使用的 PowerPath 版本。
这可以在 ESM 中验证。

连接- 

当 PowerPath 检测到路径丢失时,可能会显示几种类型的消息,包括: 

PowerPath:如何调查 PowerPath 中的路径失效问题


NMP 设置

对于大多数戴尔阵列*,VPLEX 除外,轮询 (policy=rr 建议使用 IOPS=1 以获得最佳性能。
当提到性能或延迟时,应检查此设置。

这可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

*请始终参阅最新的主机连接指南和存储最佳实践指南,以获得最新建议。

VMware 文章编号 2069356

将循环 IOPS 限制从默认的 1000 调整为 1 (2069356)本超链接将引导您访问非 Dell Technologies 运营的网站。

Dell EMC 主机连接指南 VMware ESXi 服务器

Unity — 第 36 页

PowerStore — 第 62 页

EMC XtremIO 主机连接指南

第 3 章 - 第 57 页

 

NMNP 设置示例 /commands/localcli_storage-nmp-device-list.txt

设置不正确

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

正确的设置

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

警告

ESXi 6.7 有几个 Cisco 已知问题 nfnic 导致性能和连接问题的驱动程序。
如果问题与上述任一相关,请验证 Cisco nfnic 驱动程序版本,并检查 VMware 知识库 (KB) 以了解受影响的版本。

驱动程序版本可在以下组件的输出中找到: /commands/localcli_software-vib-list.txt 文件。

其他信息
如果其他团队必须参与,请务必获得以下信息:

  • 日志(交换机/存储)
  • 存储序列号#
  • 问题出现的日期和时间

如果客户请求与 VMware 接洽时获得帮助,请引导他们访问 VMware“联系我们”页面。
支持联系选项 本超链接将引导您访问非 Dell Technologies 运营的网站。

Additional Information

有关已知问题和解决方案的最新信息,请参阅所有文档,例如发行说明和 CLI 常见消息指南。

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Article Properties
Article Number: 000205090
Article Type: How To
Last Modified: 12 Nov 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.