PowerPath: Problemas comunes de ESXi y elementos que se deben comprobar para su solución de problemas
Summary: El propósito de este artículo de la base de conocimientos es proporcionar información común sobre los problemas de ESXi y los pasos para solucionarlos.
Instructions
Causa
Hay muchas cosas que pueden causar problemas con un host ESXi.
Esta presentación es una lista de algunos de los objetos más comunes que se pueden encontrar y sus pasos para la solución de problemas.
Resolución
-
Versión: ¿es la versión actual y aún es compatible?
-
Consulte la sección "Problemas conocidos" de las notas de la versión para ver los problemas comunes, las correcciones y los enlaces de JIRA.
-
Las versiones de PowerPath se pueden encontrar en las siguientes ubicaciones:
-
Versión PP/rpowermt
-
Ubicación del archivo: host/commands/localcli_software-vib-list.txt
-
Problemas y errores comunes
Problemas y errores comunes
- Conectividad
- Pérdida permanente del dispositivo
- Todas las rutas hacia abajo
- PowerPath (en inglés)
Conectividad
Los mensajes se ven en la vmkernel y a menudo vmkwarning Salidas.
"Estado en duda; Actualización de estado de ruta rápida solicitada"
Estos mensajes aparecen cuando el controlador de la tarjeta adaptadora de bus de host (HBA) cancela un comando porque el comando tardó más que el período de tiempo de espera agotado de 5 segundos en completarse. Una operación puede tardar más tiempo que el período de tiempo de espera debido a varios motivos, entre los que se incluyen los siguientes:
- Operaciones de respaldo de arreglos (respaldo de LUN, replicación, etc.)
- Sobrecarga general en el arreglo
- Caché de lectura/escritura en el arreglo (configuración incorrecta, falta de caché, etc.)
- Problemas de fabric (enlace entre switches (ISL (enlace interswitch defectuoso), firmware obsoleto, cable de fabric defectuoso/GBIC)
- Alta latencia de SAN
Ejemplo:
En /var/log/vmkernel.log del host ESXi, verá entradas similares a las siguientes:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Lo anterior puede ser útil para comprobar el balanceo de carga de HBA y para los conflictos de reserva.
Un gran desequilibrio de comandos correctos puede indicar una política de ruta fija u otros problemas de balanceo.
Los conflictos de reserva pueden indicar incompatibilidades de unidades lógicas de host (HLU) en arreglos Unity.
Dell EMC Unity/VNX/CLARiiON: VMware no puede ver correctamente los LUN si se encuentran en varios grupos de almacenamiento y el HLU no coincide (corregible por el usuario)
Localcli_storage-core-device-stats-get.txt
Lo anterior proporciona estadísticas de LUN y muestra qué LUN tienen conflictos de reserva.
/commands/localcli_storage-san-fc-stats-get.txt
El comando anterior es útil para comprobar las estadísticas de HBA, como las siguientes:
- Tramas volcadas
- Conteo de fallas de enlace
- Conteos de pérdida de señal
- Conteo de palabras Tx no válido
/commands/Localcli_storage-san-fc-events-get.txt
Muestra las marcas de tiempo recientes de eventos de FC, el vínculo hacia arriba o hacia abajo, etc.
/var/run/log/vmksummary.log
Muestra registros de fecha y hora del momento en que el host se inició y reinició o dejó de responder.
Según tengo entendido, las estadísticas de HBA se restablecen al reiniciar.
Esto da un marco de tiempo de cuándo ocurrieron las estadísticas de FC.
Muestra:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Cuando se realiza el mantenimiento del arreglo de almacenamiento o cualquier acción que pueda hacer que un destino del arreglo quede offline/en línea, es posible que el controlador de FNIC nativo de Cisco no vuelva a iniciar sesión correctamente en el destino, lo que provoca que las rutas permanezcan en un estado inactivo.
Este problema se debe a que el controlador de FNIC nativo de Cisco recibe un RSCN durante la parte del comando REPORT_LUNS del nfnic Proceso de inicio de sesión del puerto, lo que hace que el controlador detenga y no vuelva a intentar el proceso de inicio de sesión. Esto se observó tanto con el arreglo IBM SVC como con el IBM V7000, pero también se habría observado en cualquier arreglo IBM Storwize, ya que todos utilizan la misma pila de software. Esto también se observaría para los arreglos que no son de IBM, siempre y cuando emitan un RSCN durante el REPORT_LUNS comando que el controlador envía durante el inicio de sesión.
Los problemas con el rendimiento y la ruta inactiva/APD se resuelven mediante la actualización a nfnic 4.0.0.63 y superior.
Póngase en contacto con VMware y Cisco para obtener más información y soporte.
Las versiones de los controladores se pueden encontrar en /commands/localcli_software-vib-list.txt
(ingrese el controlador vib nombres aquí) (posibles DIF con 6.x frente a 7.x)
Pérdida permanente del dispositivo (PDL)/todas las rutas inactivas (APD)
Pérdida permanente del dispositivo (PDL)
- Un almacén de datos se muestra como no disponible en la vista Almacenamiento.
- Un adaptador de almacenamiento indica el estado operativo del dispositivo como Pérdida de comunicación.
- Todas las rutas al dispositivo se marcan como inactivas.
- En
/var/log/vmkernel.logarchivo, verá entradas similares a:
Ejemplo
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Todas las rutas inactivas (APD)
- Un almacén de datos se muestra como no disponible en la vista Almacenamiento.
- Un adaptador de almacenamiento indica el estado operativo del dispositivo como Inactivo o Error.
- Todas las rutas al dispositivo se marcan como inactivas.
- No puede conectarse directamente al host ESXi mediante vSphere Client.
- El host ESXi se muestra como Disconnected en vCenter Server.
- En
/var/log/vmkernel.logarchivo, se ven entradas similares a:
Ejemplo
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
* Consulte VMware KB# para obtener la resolución y ejemplos adicionales en función de diversas circunstancias*.
**Se debe comprobar SAN, así como un elemento de acción para los problemas de ADP/PDL**.
PowerPath (en inglés)
Si PowerPath está presente, hay algunas cosas adicionales que se deben comprobar.
Compatibilidad: ¿La versión de PowerPath en uso es compatible con la versión en ejecución de ESXi?
Esto se puede verificar en ESM.
Conectividad-
Hay varios tipos de mensajes que pueden aparecer cuando PowerPath detecta una ruta perdida, incluidos los siguientes:
PowerPath: Cómo investigar una ruta inactiva en PowerPath
Configuración de NMP
Para la mayoría de los arreglos Dell*, excepto VPLEX, round-robin (policy=rr ) con IOPS=1 se recomienda obtener el mejor rendimiento.
Este ajuste se debe comprobar cuando se menciona el rendimiento o la latencia.
Esto se puede encontrar en las capturas debajo /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Consulte siempre la guía de conectividad de host más reciente y las guías de prácticas recomendadas de almacenamiento para obtener recomendaciones actualizadas.
Número de artículo 2069356 de VMware
Ajuste del límite de IOPS round-robin del valor predeterminado de 1000 a 1 (2069356)
Guía de conectividad de host de Dell EMC Servidor VMware ESXi
Unity: página 36
PowerStore: página 62
Guías de conectividad de host de EMC XtremIO
Capítulo 3 - página 57
Ejemplo de configuración de NMNP en /commands/localcli_storage-nmp-device-list.txt
Configuración incorrecta
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Ajustes correctos
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Advertencias
ESXi 6.7 tiene varios problemas conocidos con Cisco nfnic Controladores que causan problemas de rendimiento y conectividad.
Si el problema está relacionado con uno de los escenarios anteriores, verifique el nfnic versión del controlador y consulte la base de conocimientos (KB) de VMware para conocer las versiones afectadas.
La versión del controlador se encuentra en el resultado de /commands/localcli_software-vib-list.txt archivo.
Información adicional
En caso de que se deba involucrar a otros equipos, asegúrese de obtener lo siguiente:
- Registros (switch/almacenamiento)
- SN de almacenamiento#
- Fecha y hora del problema
Si un cliente solicita ayuda para comunicarse con VMware, rediríjalo a la página "comuníquese con nosotros" de VMware.
Opciones de contacto de soporte
Additional Information
Consulte toda la documentación sobre problemas conocidos, como las notas de la versión y la Guía de mensajes comunes de la CLI, para obtener información actualizada sobre problemas conocidos y soluciones.