PowerPath:常见 ESXi 问题和要检查的故障处理项目

Riepilogo: 本知识库文章旨在提供有关 ESXi 问题及其故障处理步骤的常见信息。

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

原因
有许多因素可能导致 ESXi 主机出现问题。
本演示文稿列出了一些可能找到的最常见内容及其故障处理步骤。

分辨率

基本检查
  • 版本 — 版本是否为当前版本且仍受支持

  • 查看发行说明的“已知问题”部分,了解常见问题、修复和 JIRA 链接。

  • PowerPath 的版本可在以下位置找到:

  • PP/rpowermt 版本

  • 文件位置:host/commands/localcli_software-vib-list.txt

  • 常见问题和错误

常见问题和错误

  • 连接
  • 永久设备丢失
  • 所有路径均向下
  • PowerPath


连接 

消息显示在 vmkernel 而且经常 vmkwarning 输出。

“有疑问的国家;已请求快速路径状态更新”

当主机总线适配器 (HBA) 驱动程序取消命令时,会显示这些消息,因为该命令完成的时间超过 5 秒的超时期限。由于以下几个原因,作可能需要比超时期限更长的时间:

  • 阵列备份作(LUN 备份、复制等)
  • 阵列上的一般过载
  • 阵列上的读/写高速缓存(配置错误、缺少高速缓存等)
  • 结构问题(交换机间链路 (ISL) 错误、固件过时、结构线缆/GBIC 故障)
  • 高 SAN 延迟 

VMware KB# 1022026 本超链接将引导您访问非 Dell Technologies 运营的网站。

示例:

/var/log/vmkernel.log 文件中,您会看到类似于以下内容的条目:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

对于检查 HBA 负载平衡和处理预留冲突,上述方法非常有用。
成功命令的大量不平衡可能表示存在固定路径策略或其他平衡问题。

保留冲突可能表示 Unity 阵列上的主机逻辑单元 (HLU) 不匹配。  

Dell EMC Unity/VNX/CLARiiON:如果 LUN 位于多个存储组中,并且 HLU 不匹配(用户可更正),则 VMware 无法正确看到 LUN。
 

Localcli_storage-core-device-stats-get.txt 

以上提供了 LUN 统计信息,并显示了哪些 LUN 存在保留冲突。  

 

/commands/localcli_storage-san-fc-stats-get.txt

上面的命令对于检查 HBA 统计信息非常有用,例如: 

  • 转储帧
  • 链路故障计数
  • 信号计数丢失
  • 无效的 Tx 字数统计

 

/commands/Localcli_storage-san-fc-events-get.txt

显示最近的 FC 事件时间戳、链路正常运行或故障等。  

 

/var/run/log/vmksummary.log

显示主机启动和重新启动或无响应的时间戳。
据我了解,HBA 统计信息在重新启动时重置。
这提供了 FC 统计信息发生的时间范围。  

示例:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

在执行存储阵列维护或任何可能导致阵列目标离线/联机的作时,Cisco Native FNIC 驱动程序可能无法正确登录回目标,从而导致路径保持无效状态。

此问题是由 Cisco 本地 FNIC 驱动程序在 REPORT_LUNS 命令部分收到 RSCN 引起的 nfnic 端口登录过程,这会导致驱动程序停止,并且不会重试登录过程。在 IBM SVC 和 IBM V7000 阵列上都观察到了这种情况,但在任何 IBM Storwize 阵列上也观察到了这一点,因为它们都使用相同的软件堆栈。对于非 IBM 阵列,只要它们在登录期间驱动程序发送的 REPORT_LUNS 命令期间发出 RSCN,就会观察到这种情况。

性能和路径故障/APD 问题均可通过升级到 nfnic 4.0.0.63 及更高版本。
有关更多信息和支持,请联系 VMware 和 Cisco。

驱动程序版本可在以下位置找到: /commands/localcli_software-vib-list.txt

(输入驱动程序) vib 此处的名称)(6.x 与 7.x 可能存在差异)

VMware KB# 80101本超链接将引导您访问非 Dell Technologies 运营的网站。

 

永久设备丢失 (PDL)/所有路径关闭 (APD)

永久设备丢失 (PDL)

  • 数据存储区在存储视图中显示为不可用。
  • 存储适配器将设备的作状态指示为通信中断。
  • 设备的所有路径都标记为无效。
  • /var/log/vmkernel.log 文件中,您会看到类似以下内容的条目:

 

示例

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

所有路径关闭 (APD)

  • 数据存储区在存储视图中显示为不可用。
  • 存储适配器将设备的运行状态指示为“Dead”或“Error”。
  • 设备的所有路径都标记为无效。
  • 您无法使用 vSphere Client 直接连接到 ESXi 主机。
  • ESXi 主机在 vCenter Server 中显示为“Disconnected”。
  • /var/log/vmkernel.log 文件,类似的条目会显示为:

 

示例

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

*请查看 VMware 知识库文章#,了解解决方案和基于各种情况的其他示例*。

**应检查 SAN 以及 ADP/PDL 问题的作项**。 

VMware KB# 2004684本超链接将引导您访问非 Dell Technologies 运营的网站。

 

PowerPath

如果存在 PowerPath,还需要检查一些其他事项。

Compatibility— 正在运行的 ESXi 版本是否支持正在使用的 PowerPath 版本。
这可以在 ESM 中验证。

连接- 

当 PowerPath 检测到路径丢失时,可能会显示几种类型的消息,包括: 

PowerPath:如何调查 PowerPath 中的路径失效问题


NMP 设置

对于大多数戴尔阵列*,VPLEX 除外,轮询 (policy=rr 建议使用 IOPS=1 以获得最佳性能。
当提到性能或延迟时,应检查此设置。

这可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

*请始终参阅最新的主机连接指南和存储最佳实践指南,以获得最新建议。

VMware 文章编号 2069356

将循环 IOPS 限制从默认的 1000 调整为 1 (2069356)本超链接将引导您访问非 Dell Technologies 运营的网站。

Dell EMC 主机连接指南 VMware ESXi 服务器

Unity — 第 36 页

PowerStore — 第 62 页

EMC XtremIO 主机连接指南

第 3 章 - 第 57 页

 

NMNP 设置示例 /commands/localcli_storage-nmp-device-list.txt

设置不正确

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

正确的设置

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

警告

ESXi 6.7 有几个 Cisco 已知问题 nfnic 导致性能和连接问题的驱动程序。
如果问题与上述任一相关,请验证 Cisco nfnic 驱动程序版本,并检查 VMware 知识库 (KB) 以了解受影响的版本。

驱动程序版本可在以下组件的输出中找到: /commands/localcli_software-vib-list.txt 文件。

其他信息
如果其他团队必须参与,请务必获得以下信息:

  • 日志(交换机/存储)
  • 存储序列号#
  • 问题出现的日期和时间

如果客户请求与 VMware 接洽时获得帮助,请引导他们访问 VMware“联系我们”页面。
支持联系选项 本超链接将引导您访问非 Dell Technologies 运营的网站。

Informazioni aggiuntive

有关已知问题和解决方案的最新信息,请参阅所有文档,例如发行说明和 CLI 常见消息指南。

Prodotti interessati

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000205090
Tipo di articolo: How To
Ultima modifica: 12 nov 2025
Versione:  7
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.