El host pierde rutas.
[NOTA: Scott también consulta la nota en el resumen]
El host ESX se bloquea y requiere un reinicio para la recuperación. [Scott, ¿solo los hosts ESX dejan de responder? En el resumen, se indica que son "todos los HBA divididos en zonas en VPLEX"]
Desde el registro "vmkernel" de ESXi:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Comando ELS desconocido x7f26e705 recibido de NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Comando ELS desconocido x7effc405 recibido de NPORT x1f04c0
Desde los registros de firmware de VPLEX:
event fc/4: "This port has discovered the departure of the indicated port from the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. TI: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)] [Scott: retomando el problema "Todos los HBA divididos en zonas en VPLEX", si este problema de Cisco impacta a todos los HBA divididos en zonas a VPLEX, ¿debemos mostrar informes de otros hosts provenientes de los registros de fw? ¿Vemos otros hosts que salgan igual que el host ESX que se muestra anteriormente?]
evento fc/3: "This port has discovered the arrival of the indicated port on the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. TI: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott: ¿tenemos estos datos en otros HBA que hayan llegado? ]
Cambiar:
activación de la zona.
Los puertos de HBA y los puestos VPLEX de front-end no participan en los cambios de división por zonas.
[Scott: esta última oración no tiene sentido, el problema, según entiendo, es cuando existe una activación de un conjunto de zonas en un switch Cisco y todos los puertos HBA y VPLEX FE "están” involucrados. Además, ¿qué niveles de código de switch Cisco se ven afectados?]
VPLEX ejecuta una detección de fabric en todos los puertos Fibre Channel (front-end, back-end y FC-WANCOM) cada 90 segundos y hace esto mediante el comando "Get all next" (GA_NXT) del servidor de nombres. Esto se realizará fuera de la recepción de un RSCN desde el switch o PLOGI desde un HBA en zonas.
Debido al error de Cisco CSCvw75655, si VPLEX lleva a cabo su detección de fabric, en un puerto front-end (FE), mientras se realiza una activación/asignación de un conjunto de zonas, existe una baja probabilidad de que VPLEX solo devuelva su propia dirección de Fibre Channel (FCID) y, luego supondrá que cualquier HBA que haya iniciado sesión en este ya no estará conectado a fabric y enviará un cierre de sesión (PLOGO) a cada HBA con zonas asignadas a este. [Scott: ¿los registros de VPLEX o de switch muestran que se produce esta acción, el PLOGO que se envía, si esto se puede ver en ambos productos? ¿podemos incluir muestras de esto y de qué registros se muestran?]
VPLEX registrará los eventos de FC/4 por cada HBA que cierren sesión y los eventos de FC/3, en la próxima detección de fabric de 90 segundos, cuando reciba la información correcta del servidor con el nombre del switch.
La forma en que HBA maneje este cierre de sesión dependerá de su controlador/firmware. El host de ESX en este ejemplo no responde y se requiere un reinicio. [Scott: ¿tenemos datos de los registros de otros hosts que se vean afectados por este evento? si es así, podemos enumerar algunos, para que no se vean afectados por el impacto solo los hosts ESX?]
NOTA:
se realiza la detección periódica de fabric para garantizar que VPLEX haya actualizado los datos de fabric, ya que existe la posibilidad de que no todos los RSCN lleguen a VPLEX desde fabric.
Solución:
En el switch Cisco, deshabilite la característica de la base de datos (db) compartida del servidor de zonas/servidor de nombres de la siguiente manera:
Productos (1)
Software Cisco MDS 9000 NX-OS y SAN-OS
Versiones afectadas conocidas
8.3(2)
Detección de VPLEX Fabric
Ejemplo:
host 1, host 2 y host 3 divididos en un único puerto VPLEX FE.
Puerto VPLEX FE: FCID 0x200b20
Host 1: FCID 0x340000
Host 2: FCID 0x340020
Host 3: FCID 0x340040
Working… [Scott: ¿Qué es esto? ¿Esto se tomó/copió de la información? Si es así, podemos quitar la información "Working…"]
Error de Cisco CSCvw75655…