PowerStore: Se observaron tiempos de espera agotados de I/O en una falta de disponibilidad de un solo nodo de PowerStore en un entorno vSphere con NVMe/TCP

Resumen: Es posible que se observen tiempos de espera agotados de I/O en escenarios de falta de disponibilidad de nodos únicos de PowerStore cuando se utiliza vSphere 8.0U2 y NVMe/TCP. (corregible por el usuario) ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Es posible que se observen tiempos de espera agotados de I/O en un solo escenario de falta de disponibilidad de nodos de PowerStore cuando se utiliza vSphere 8.0U2 y NVMe/TCP como protocolo de almacenamiento.

 

Ejemplos de tales escenarios:

  • PowerStore NDU
  • Apagado de un nodo de PowerStore
  • Situaciones inesperadas, como el estado de alarma del nodo o la interrupción de la red

 

El problema se puede observar en las siguientes circunstancias:

  • Se utiliza ESXi versión 8.0U2
  • Se utiliza el protocolo NVMe/TCP
  • Un nodo de PowerStore dejó de estar disponible por algún motivo y otro permanece disponible
  • Una aplicación que se ejecuta en una máquina virtual alojada por ESXi o un sistema operativo instalado en una máquina virtual observa el tiempo de espera de I/O
  • Las métricas de I/O de PowerStore no muestran I/O de larga duración

 

Solo NVMe/TCP se ve afectado por el problema. Los protocolos NVMe/FC, iSCSI y FC no se ven afectados. El problema solo afecta a hosts ESXi; los hosts de otros tipos no se ven afectados por el problema.

El problema puede manifestarse como errores de la aplicación o como un impacto en el servicio de la aplicación que se ejecuta dentro de máquinas virtuales alojadas por hosts ESXi. También puede causar errores en los sistemas operativos invitados (sistema operativo instalado en una máquina virtual que se ejecuta en el host ESXi). El nivel de impacto se atribuye a la manera en que el software de la aplicación maneja los tiempos de espera agotados de I/O.

El problema es intermitente. Si hay varios hosts conectados, es posible que solo algunos de ellos experimenten el problema.

El problema afecta a almacenes de datos de vVols y de otros fabricantes.

 

Causa

Esto se debe a un problema en ESXi 8.0U2. Cuando las controladoras NVMe/TCP de un nodo de PowerStore dejan de estar disponibles por algún motivo mientras otro nodo está disponible y puede atender I/O, hay un retraso en el proceso de conmutación por error de la ruta. El retraso puede provocar tiempos de espera agotados de I/O.

 

Resolución

Se recomienda no utilizar ESXi 8.0U2 para los clientes que utilizan NVMe/TCP.

 

Notas:

  • ESXi 8.0U1 anterior al parche 2 tiene otro problema en el mismo escenario y también se debe evitar. Enlace al artículo de la base de conocimientos de VMware https://kb.vmware.com/s/article/94106Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
  • Solo importa la versión de ESXi. Se puede utilizar vCenter 8.0U2 con ESXi 8.0Uone, parche 2 o cualquier otra configuración, siempre y cuando las versiones sean compatibles.

 

Está previsto que la corrección se incluya en el próximo ESXi 8.0U3.

 

Solución alternativa para almacenes de datos VMFS y NFS

Hay una solución alternativa disponible para los clientes que utilizan almacenes de datos clásicos (no vVol). La solución alternativa es aplicar un tiempo de espera de mantenimiento de conexión más bajo cuando se crean controladoras de I/O NVMe/TCP.
No es posible cambiar el tiempo de espera para las controladoras que ya existen. Si las controladoras ya se crearon, es posible eliminarlas y volver a crearlas con el valor de tiempo de espera reducido.
El valor predeterminado de tiempo de espera agotado es de 30 segundos. Si el tiempo de conmutación por error de I/O deseado es N segundos, el valor de tiempo de espera reducido no debe ser mayor que N/2 - 10 segundos. Por ejemplo, si el tiempo de conmutación por error deseado es de 60 segundos, se deben utilizar 20 segundos (60/2 - 10 = 20)

Paso 1: Quitar las controladoras NVMe/TCP (si ya están allí)

Interfaz de usuario de vSphere

  1. Seleccione el host en la interfaz de usuario de vSphere
  2. Vaya a Configurar adaptadores de almacenamiento →
  3. Seleccione el adaptador NVMe/TCP
  4. Vaya a la pestaña Controladoras debajo de la lista de adaptadores
  5. Seleccione una controladora y haga clic en "Eliminar"

Asegúrese de que las controladoras no se utilizan para E/S antes de quitarlas. De lo contrario, las I/O que pasan por las controladoras podrían interrumpirse.
Compruebe que las controladoras no se utilicen para E/S

 

CLI
Enumere las controladoras mediante 'esxcli nvme controller list' y desconéctelos usando 'esxcli nvme fabrics disconnect”.

[root@hoABCDEF:~] esxcli nvme controller list
Name                                                                                   Controller Number  Adapter  Transport Type  Is Online  Is VVOL
-------------------------------------------------------------------------------------  -----------------  -------  --------------  ---------  -------
nqn.xxx-11.com.xxxx:powerstore:00:042d0bc302a61CBF6EA0#vmhba67#xx.xxx.x.xxx:4420                    4435  vmhba67  TCP                  true    false
nqn.xxx-11.com.xxxx:powerstore:00:042d0bc302a61CBF6EA0#vmhba67#xx.xxx.x.xxx:4420                    4436  vmhba67  TCP                  true    false
nqn.xxx-08.org.xxxxyyy.discovery#vvol#vmhba67#xx.xxx.x.xxx:8009                                  4488  vmhba67  TCP                  true     true
nqn.xxx-11.com.xxxx:powerstore:00:042d0bc302a61CBF6EA0#vvol#vmhba67#xx.xxx.x.xxx               4490  vmhba67  TCP                  true     true
nqn.xxx-11.com.xxxx:powerstore:00:042d0bc302a61CBF6EA0#vvol#vmhba67#xx.xxx.x.xxx               4489  vmhba67  TCP                  true     true
nqn.xxx-08.org.xxxxyyy.discovery#vvol#xx.xxx.x.xxx:8009                                  4491  vmhba67  TCP                  true     true
 
[root@hop051108:~] esxcli nvme fabrics disconnect -a vmhba67 -n 4435

 

Paso 2: Vuelva a crear la controladora con un valor de tiempo de espera reducido.

Los siguientes parámetros son necesarios para crear una controladora:

  • NQN de clúster de PowerStore
  • Dirección IP de almacenamiento de PowerStore

 

Estos valores se pueden copiar desde la interfaz de usuario de vSphere o la salida de la lista de controladoras nvme esxcli antes de eliminar las controladoras o se pueden obtener desde PowerStore Manager.

El NQN se puede obtener navegando a Configuración → Propiedades y copiando el valor de "Nombre calificado de NVMe".
Copia del valor del nombre calificado de NVMe

Las IP de almacenamiento están disponibles en Settings → Network IPs → Select storage network → Modify.
Las IP de almacenamiento están disponibles en la red de almacenamiento seleccionada

Una vez que se obtienen estos valores, las controladoras se pueden crear de la siguiente manera:

 

Interfaz de usuario
de vSphereSeleccione Host → Configurar adaptadores de almacenamiento → → Seleccione el adaptador → Agregar controladora → manualmente.

El valor de tiempo de espera agotado se debe copiar en el campo "Keepalive Timeout".
Campo Keepalive Timeout

 

CLI
Uso esxcli nvme fabrics connect -i <storage ip> -p 4420 -a <adapter id> -s <powerstore's NQN> -t <timeout>

[root@hoABCDEF:~] esxcli nvme fabrics connect -i 10.xxx.x.xx -p 4420 -a vmhba67 -s

 

Productos afectados

PowerStore
Propiedades del artículo
Número del artículo: 000223711
Tipo de artículo: Solution
Última modificación: 14 jun 2025
Versión:  4
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.