Estado de alarma del switch Connectrix serie B o alta disponibilidad desincronizada debido a que el switch se está quedando sin recursos
Summary: Después de la conmutación por error de alta disponibilidad (HA), los procesadores de control (CP) no están sincronizados y reiniciar el CP en espera no resuelve el problema.
Symptoms
Impacto:
- La alta disponibilidad no está sincronizada después de la conmutación por error. Reiniciar el CP en espera no resuelve el problema.
- El proceso del demonio de capa de acceso común (CALD) deja de responder (las aplicaciones de facilidad de administración utilizan CALD)
- Switch sin recursos
- Estado de alarma del switch
Entorno:
- Hardware de Dell: Connectrix ED-DCX7-4B
- Hardware de Dell: Connectrix ED-DCX7-8B
- Hardware de Dell: Connectrix ED-DCX6-4B
- Hardware de Dell: Connectrix ED-DCX6-8B
- Hardware de Dell: Connectrix ED-8510-8B
- Hardware de Dell: Connectrix ED-8510-4B
- Hardware de Dell: Connectrix DS-7730B
- Hardware de Dell: Connectrix DS-7720B
- Hardware de Dell: Connectrix DS-6630B
- Hardware de Dell: Connectrix DS-6620B
- Hardware de Dell: Connectrix DS-6610B
- Hardware de Dell: Connectrix DS-6520B
- Hardware de Dell: Connectrix DS-6510B
- Hardware de Dell: Connectrix DS-6505B
- Hardware de Dell: Connectrix MP-7810
- Dell Software: Gateway de conexión segura
- Dell Software: Secure Remote Services
- Dell Software: CloudIQ
- Software Brocade: Fabric OS 8.x
- Software Brocade: Fabric OS 9.x
Problema:
- El demonio CALD finaliza o no está disponible y es posible que el switch entre en estado de alarma debido a una avalancha de alertas críticas o de alto nivel.
- La alta disponibilidad no está sincronizada si el switch no puede recuperar el demonio CALD.
- CloudIQ deja de monitorear el switch
Errores:
Volcado de error: El síntoma es un estado de alarma de CALD de Fabric OS:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Ejemplos de PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Resultado de HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
La salida de ps exfcl en support show:
CALD no se pudo reiniciar porque el demonio original entró en un estado inactivo, y cuando FOS intentó inicializar un nuevo demonio CALD, no pudo porque CALD tenía un estado que indicaba que todavía estaba activo.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Condición específica:
Secure Remote Services o Gateway de conexión segura que monitorean el switch
Cause
Esto se observó en FOS 8.2.3c1.
Subproceso sin condición de recursos como resultado de una pérdida de recursos con el subproceso de soporte remoto seguro en CALD, generado para enviar la salida show de soporte al servidor de Secure Remote Services.
El motivo por el que no se puede reiniciar CALD se debe a un defecto independiente.
Causa raíz:
CALD no se pudo reiniciar porque el demonio original entró en un estado difunto y, cuando FOS intentó inicializar un nuevo demonio cald, no pudo hacerlo porque CALD tenía un estado que indicaba que aún estaba activo. Esto provocó que FOS no pudiera poner el nuevo demonio CALD en un estado de funcionamiento.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
El equipo de ingeniería revierte ambas correcciones en 8.2.3e.
Resolution
Arreglar:
Actualizar a:
- Fabric OS v8.2.3e o posterior
- Fabric OS v9.1.1d o posterior
- Fabric OS v9.2.0b o posterior
- Fabric OS v9.2.1 o posterior
Solución:
El switch debe pasar por un arranque en frío para recuperarse y sincronizar los CP. En el switch, ejecute el siguiente comando y tire del cable de alimentación.
sysshutdown
Monitoree de cerca los switches en busca de alertas críticas y aborde las condiciones que las causan con prontitud, o quite el monitoreo del switch de Secure Remote Services o Gateway de conexión segura.
Additional Information
- Si hay un proceso CALD secundario en ejecución, el switch aún debe pasar por el procedimiento de recuperación para intentar realizar una conmutación por error (preferentemente en una ventana de mantenimiento) y, si la alta disponibilidad no se sincroniza, se necesita un reinicio en frío.
Brocade DEFECTO FOS-854095