PowerPath:常见 ESXi 问题和要检查的故障处理项目
Summary: 本知识库文章旨在提供有关 ESXi 问题及其故障处理步骤的常见信息。
Instructions
原因
有许多因素可能导致 ESXi 主机出现问题。
本演示文稿列出了一些可能找到的最常见内容及其故障处理步骤。
分辨率
-
版本 — 版本是否为当前版本且仍受支持
-
查看发行说明的“已知问题”部分,了解常见问题、修复和 JIRA 链接。
-
PowerPath 的版本可在以下位置找到:
-
PP/rpowermt 版本
-
文件位置:host/commands/localcli_software-vib-list.txt
-
常见问题和错误
常见问题和错误
- 连接
- 永久设备丢失
- 所有路径均向下
- PowerPath
连接
消息显示在 vmkernel 而且经常 vmkwarning 输出。
“有疑问的国家;已请求快速路径状态更新”
当主机总线适配器 (HBA) 驱动程序取消命令时,会显示这些消息,因为该命令完成的时间超过 5 秒的超时期限。由于以下几个原因,作可能需要比超时期限更长的时间:
- 阵列备份作(LUN 备份、复制等)
- 阵列上的一般过载
- 阵列上的读/写高速缓存(配置错误、缺少高速缓存等)
- 结构问题(交换机间链路 (ISL) 错误、固件过时、结构线缆/GBIC 故障)
- 高 SAN 延迟
示例:
在 /var/log/vmkernel.log 文件中,您会看到类似于以下内容的条目:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
对于检查 HBA 负载平衡和处理预留冲突,上述方法非常有用。
成功命令的大量不平衡可能表示存在固定路径策略或其他平衡问题。
保留冲突可能表示 Unity 阵列上的主机逻辑单元 (HLU) 不匹配。
Dell EMC Unity/VNX/CLARiiON:如果 LUN 位于多个存储组中,并且 HLU 不匹配(用户可更正),则 VMware 无法正确看到 LUN。
Localcli_storage-core-device-stats-get.txt
以上提供了 LUN 统计信息,并显示了哪些 LUN 存在保留冲突。
/commands/localcli_storage-san-fc-stats-get.txt
上面的命令对于检查 HBA 统计信息非常有用,例如:
- 转储帧
- 链路故障计数
- 信号计数丢失
- 无效的 Tx 字数统计
/commands/Localcli_storage-san-fc-events-get.txt
显示最近的 FC 事件时间戳、链路正常运行或故障等。
/var/run/log/vmksummary.log
显示主机启动和重新启动或无响应的时间戳。
据我了解,HBA 统计信息在重新启动时重置。
这提供了 FC 统计信息发生的时间范围。
示例:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
在执行存储阵列维护或任何可能导致阵列目标离线/联机的作时,Cisco Native FNIC 驱动程序可能无法正确登录回目标,从而导致路径保持无效状态。
此问题是由 Cisco 本地 FNIC 驱动程序在 REPORT_LUNS 命令部分收到 RSCN 引起的 nfnic 端口登录过程,这会导致驱动程序停止,并且不会重试登录过程。在 IBM SVC 和 IBM V7000 阵列上都观察到了这种情况,但在任何 IBM Storwize 阵列上也观察到了这一点,因为它们都使用相同的软件堆栈。对于非 IBM 阵列,只要它们在登录期间驱动程序发送的 REPORT_LUNS 命令期间发出 RSCN,就会观察到这种情况。
性能和路径故障/APD 问题均可通过升级到 nfnic 4.0.0.63 及更高版本。
有关更多信息和支持,请联系 VMware 和 Cisco。
驱动程序版本可在以下位置找到: /commands/localcli_software-vib-list.txt
(输入驱动程序) vib 此处的名称)(6.x 与 7.x 可能存在差异)
永久设备丢失 (PDL)/所有路径关闭 (APD)
永久设备丢失 (PDL)
- 数据存储区在存储视图中显示为不可用。
- 存储适配器将设备的作状态指示为通信中断。
- 设备的所有路径都标记为无效。
- 在
/var/log/vmkernel.log文件中,您会看到类似以下内容的条目:
示例
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
所有路径关闭 (APD)
- 数据存储区在存储视图中显示为不可用。
- 存储适配器将设备的运行状态指示为“Dead”或“Error”。
- 设备的所有路径都标记为无效。
- 您无法使用 vSphere Client 直接连接到 ESXi 主机。
- ESXi 主机在 vCenter Server 中显示为“Disconnected”。
- 在
/var/log/vmkernel.log文件,类似的条目会显示为:
示例
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*请查看 VMware 知识库文章#,了解解决方案和基于各种情况的其他示例*。
**应检查 SAN 以及 ADP/PDL 问题的作项**。
PowerPath
如果存在 PowerPath,还需要检查一些其他事项。
Compatibility— 正在运行的 ESXi 版本是否支持正在使用的 PowerPath 版本。
这可以在 ESM 中验证。
连接-
当 PowerPath 检测到路径丢失时,可能会显示几种类型的消息,包括:
PowerPath:如何调查 PowerPath 中的路径失效问题
NMP 设置
对于大多数戴尔阵列*,VPLEX 除外,轮询 (policy=rr 建议使用 IOPS=1 以获得最佳性能。
当提到性能或延迟时,应检查此设置。
这可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*请始终参阅最新的主机连接指南和存储最佳实践指南,以获得最新建议。
VMware 文章编号 2069356
将循环 IOPS 限制从默认的 1000 调整为 1 (2069356)
Dell EMC 主机连接指南 VMware ESXi 服务器
Unity — 第 36 页
PowerStore — 第 62 页
第 3 章 - 第 57 页
NMNP 设置示例 /commands/localcli_storage-nmp-device-list.txt
设置不正确
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
正确的设置
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
警告
ESXi 6.7 有几个 Cisco 已知问题 nfnic 导致性能和连接问题的驱动程序。
如果问题与上述任一相关,请验证 Cisco nfnic 驱动程序版本,并检查 VMware 知识库 (KB) 以了解受影响的版本。
驱动程序版本可在以下组件的输出中找到: /commands/localcli_software-vib-list.txt 文件。
其他信息
如果其他团队必须参与,请务必获得以下信息:
- 日志(交换机/存储)
- 存储序列号#
- 问题出现的日期和时间
如果客户请求与 VMware 接洽时获得帮助,请引导他们访问 VMware“联系我们”页面。
支持联系选项
Additional Information
有关已知问题和解决方案的最新信息,请参阅所有文档,例如发行说明和 CLI 常见消息指南。