PowerPath: Problemas comunes de ESXi y elementos que se deben comprobar para su solución de problemas

Summary: El propósito de este artículo de la base de conocimientos es proporcionar información común sobre los problemas de ESXi y los pasos para solucionarlos.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Causa
Hay muchas cosas que pueden causar problemas con un host ESXi.
Esta presentación es una lista de algunos de los objetos más comunes que se pueden encontrar y sus pasos para la solución de problemas.

Resolución

Comprobaciones básicas

Versión: ¿es la versión actual y aún es compatible?
Consulte la sección "Problemas conocidos" de las notas de la versión para ver los problemas comunes, las correcciones y los enlaces de JIRA.
Las versiones de PowerPath se pueden encontrar en las siguientes ubicaciones:
Versión PP/rpowermt
Ubicación del archivo: host/commands/localcli_software-vib-list.txt
Problemas y errores comunes

Problemas y errores comunes

Conectividad
Pérdida permanente del dispositivo
Todas las rutas hacia abajo
PowerPath (en inglés)

Conectividad

Los mensajes se ven en la vmkernel y a menudo vmkwarning Salidas.

"Estado en duda; Actualización de estado de ruta rápida solicitada"

Estos mensajes aparecen cuando el controlador de la tarjeta adaptadora de bus de host (HBA) cancela un comando porque el comando tardó más que el período de tiempo de espera agotado de 5 segundos en completarse. Una operación puede tardar más tiempo que el período de tiempo de espera debido a varios motivos, entre los que se incluyen los siguientes:

Operaciones de respaldo de arreglos (respaldo de LUN, replicación, etc.)
Sobrecarga general en el arreglo
Caché de lectura/escritura en el arreglo (configuración incorrecta, falta de caché, etc.)
Problemas de fabric (enlace entre switches (ISL (enlace interswitch defectuoso), firmware obsoleto, cable de fabric defectuoso/GBIC)
Alta latencia de SAN

1022026 de KB# de VMware

Ejemplo:

En /var/log/vmkernel.log del host ESXi, verá entradas similares a las siguientes:

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

/commands/Localcli_storage-core-adapter-stats-get.txt

Lo anterior puede ser útil para comprobar el balanceo de carga de HBA y para los conflictos de reserva.
Un gran desequilibrio de comandos correctos puede indicar una política de ruta fija u otros problemas de balanceo.

Los conflictos de reserva pueden indicar incompatibilidades de unidades lógicas de host (HLU) en arreglos Unity.

Dell EMC Unity/VNX/CLARiiON: VMware no puede ver correctamente los LUN si se encuentran en varios grupos de almacenamiento y el HLU no coincide (corregible por el usuario)

Localcli_storage-core-device-stats-get.txt

Lo anterior proporciona estadísticas de LUN y muestra qué LUN tienen conflictos de reserva.

/commands/localcli_storage-san-fc-stats-get.txt

El comando anterior es útil para comprobar las estadísticas de HBA, como las siguientes:

Tramas volcadas
Conteo de fallas de enlace
Conteos de pérdida de señal
Conteo de palabras Tx no válido

/commands/Localcli_storage-san-fc-events-get.txt

Muestra las marcas de tiempo recientes de eventos de FC, el vínculo hacia arriba o hacia abajo, etc.

/var/run/log/vmksummary.log

Muestra registros de fecha y hora del momento en que el host se inició y reinició o dejó de responder.
Según tengo entendido, las estadísticas de HBA se restablecen al reiniciar.
Esto da un marco de tiempo de cuándo ocurrieron las estadísticas de FC.

Muestra:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

Cuando se realiza el mantenimiento del arreglo de almacenamiento o cualquier acción que pueda hacer que un destino del arreglo quede offline/en línea, es posible que el controlador de FNIC nativo de Cisco no vuelva a iniciar sesión correctamente en el destino, lo que provoca que las rutas permanezcan en un estado inactivo.

Este problema se debe a que el controlador de FNIC nativo de Cisco recibe un RSCN durante la parte del comando REPORT_LUNS del nfnic Proceso de inicio de sesión del puerto, lo que hace que el controlador detenga y no vuelva a intentar el proceso de inicio de sesión. Esto se observó tanto con el arreglo IBM SVC como con el IBM V7000, pero también se habría observado en cualquier arreglo IBM Storwize, ya que todos utilizan la misma pila de software. Esto también se observaría para los arreglos que no son de IBM, siempre y cuando emitan un RSCN durante el REPORT_LUNS comando que el controlador envía durante el inicio de sesión.

Los problemas con el rendimiento y la ruta inactiva/APD se resuelven mediante la actualización a nfnic 4.0.0.63 y superior.
Póngase en contacto con VMware y Cisco para obtener más información y soporte.

Las versiones de los controladores se pueden encontrar en /commands/localcli_software-vib-list.txt

(ingrese el controlador vib nombres aquí) (posibles DIF con 6.x frente a 7.x)

VMware KB# 80101

Pérdida permanente del dispositivo (PDL)/todas las rutas inactivas (APD)

Pérdida permanente del dispositivo (PDL)

Un almacén de datos se muestra como no disponible en la vista Almacenamiento.
Un adaptador de almacenamiento indica el estado operativo del dispositivo como Pérdida de comunicación.
Todas las rutas al dispositivo se marcan como inactivas.
En /var/log/vmkernel.log archivo, verá entradas similares a:

Ejemplo

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

Todas las rutas inactivas (APD)

Un almacén de datos se muestra como no disponible en la vista Almacenamiento.
Un adaptador de almacenamiento indica el estado operativo del dispositivo como Inactivo o Error.
Todas las rutas al dispositivo se marcan como inactivas.
No puede conectarse directamente al host ESXi mediante vSphere Client.
El host ESXi se muestra como Disconnected en vCenter Server.
En /var/log/vmkernel.log archivo, se ven entradas similares a:

Ejemplo

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

* Consulte VMware KB# para obtener la resolución y ejemplos adicionales en función de diversas circunstancias*.

**Se debe comprobar SAN, así como un elemento de acción para los problemas de ADP/PDL**.

2004684 de KB# de VMware

PowerPath (en inglés)

Si PowerPath está presente, hay algunas cosas adicionales que se deben comprobar.

Compatibilidad: ¿La versión de PowerPath en uso es compatible con la versión en ejecución de ESXi?
Esto se puede verificar en ESM.

Conectividad-

Hay varios tipos de mensajes que pueden aparecer cuando PowerPath detecta una ruta perdida, incluidos los siguientes:

PowerPath: Cómo investigar una ruta inactiva en PowerPath

Configuración de NMP

Para la mayoría de los arreglos Dell*, excepto VPLEX, round-robin (policy=rr ) con IOPS=1 se recomienda obtener el mejor rendimiento.
Este ajuste se debe comprobar cuando se menciona el rendimiento o la latencia.

Esto se puede encontrar en las capturas debajo /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json

*Consulte siempre la guía de conectividad de host más reciente y las guías de prácticas recomendadas de almacenamiento para obtener recomendaciones actualizadas.

Número de artículo 2069356 de VMware

Ajuste del límite de IOPS round-robin del valor predeterminado de 1000 a 1 (2069356)

Guía de conectividad de host de Dell EMC Servidor VMware ESXi

Unity: página 36

PowerStore: página 62

Guías de conectividad de host de EMC XtremIO

Capítulo 3 - página 57

Ejemplo de configuración de NMNP en /commands/localcli_storage-nmp-device-list.txt

Configuración incorrecta

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Ajustes correctos

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Advertencias

ESXi 6.7 tiene varios problemas conocidos con Cisco nfnic Controladores que causan problemas de rendimiento y conectividad.
Si el problema está relacionado con uno de los escenarios anteriores, verifique el nfnic versión del controlador y consulte la base de conocimientos (KB) de VMware para conocer las versiones afectadas.

La versión del controlador se encuentra en el resultado de /commands/localcli_software-vib-list.txt archivo.

Información adicional
En caso de que se deba involucrar a otros equipos, asegúrese de obtener lo siguiente:

Registros (switch/almacenamiento)
SN de almacenamiento#
Fecha y hora del problema

Si un cliente solicita ayuda para comunicarse con VMware, rediríjalo a la página "comuníquese con nosotros" de VMware.
Opciones de contacto de soporte

Additional Information

Consulte toda la documentación sobre problemas conocidos, como las notas de la versión y la Guía de mensajes comunes de la CLI, para obtener información actualizada sobre problemas conocidos y soluciones.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware

Article Number: 000205090

Article Type: How To

Last Modified: 12 Nov 2025

Version: 7

Check if your device is covered by Support Services.

PowerPath: Problemas comunes de ESXi y elementos que se deben comprobar para su solución de problemas

Summary: El propósito de este artículo de la base de conocimientos es proporcionar información común sobre los problemas de ESXi y los pasos para solucionarlos.

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerPath: Problemas comunes de ESXi y elementos que se deben comprobar para su solución de problemas

Summary: El propósito de este artículo de la base de conocimientos es proporcionar información común sobre los problemas de ESXi y los pasos para solucionarlos.

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services