Estado de alarma del switch Connectrix serie B o alta disponibilidad desincronizada debido a que el switch se está quedando sin recursos

Summary: Después de la conmutación por error de alta disponibilidad (HA), los procesadores de control (CP) no están sincronizados y reiniciar el CP en espera no resuelve el problema.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Impacto:

  • La alta disponibilidad no está sincronizada después de la conmutación por error. Reiniciar el CP en espera no resuelve el problema.
  • El proceso del demonio de capa de acceso común (CALD) deja de responder (las aplicaciones de facilidad de administración utilizan CALD)
  • Switch sin recursos
  • Estado de alarma del switch

Entorno:

  • Hardware de Dell: Connectrix ED-DCX7-4B
  • Hardware de Dell: Connectrix ED-DCX7-8B
  • Hardware de Dell: Connectrix ED-DCX6-4B
  • Hardware de Dell: Connectrix ED-DCX6-8B
  • Hardware de Dell: Connectrix ED-8510-8B
  • Hardware de Dell: Connectrix ED-8510-4B
  • Hardware de Dell: Connectrix DS-7730B
  • Hardware de Dell: Connectrix DS-7720B
  • Hardware de Dell: Connectrix DS-6630B
  • Hardware de Dell: Connectrix DS-6620B
  • Hardware de Dell: Connectrix DS-6610B
  • Hardware de Dell: Connectrix DS-6520B
  • Hardware de Dell: Connectrix DS-6510B
  • Hardware de Dell: Connectrix DS-6505B
  • Hardware de Dell: Connectrix MP-7810
  • Dell Software: Gateway de conexión segura
  • Dell Software: Secure Remote Services
  • Dell Software: CloudIQ
  • Software Brocade: Fabric OS 8.x
  • Software Brocade: Fabric OS 9.x

Problema:

  • El demonio CALD finaliza o no está disponible y es posible que el switch entre en estado de alarma debido a una avalancha de alertas críticas o de alto nivel.
  • La alta disponibilidad no está sincronizada si el switch no puede recuperar el demonio CALD.
  • CloudIQ deja de monitorear el switch

Errores:
Volcado de error: El síntoma es un estado de alarma de CALD de Fabric OS:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Ejemplos de PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Resultado de HADUMP:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

La salida de ps exfcl en support show:
CALD no se pudo reiniciar porque el demonio original entró en un estado inactivo, y cuando FOS intentó inicializar un nuevo demonio CALD, no pudo porque CALD tenía un estado que indicaba que todavía estaba activo.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Condición específica:
Secure Remote Services o Gateway de conexión segura que monitorean el switch

Cause

Esto se observó en FOS 8.2.3c1.
Subproceso sin condición de recursos como resultado de una pérdida de recursos con el subproceso de soporte remoto seguro en CALD, generado para enviar la salida show de soporte al servidor de Secure Remote Services.

El motivo por el que no se puede reiniciar CALD se debe a un defecto independiente.

Causa raíz:
CALD no se pudo reiniciar porque el demonio original entró en un estado difunto y, cuando FOS intentó inicializar un nuevo demonio cald, no pudo hacerlo porque CALD tenía un estado que indicaba que aún estaba activo. Esto provocó que FOS no pudiera poner el nuevo demonio CALD en un estado de funcionamiento.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

El equipo de ingeniería revierte ambas correcciones en 8.2.3e.

Resolution

Arreglar:
Actualizar a:

  • Fabric OS v8.2.3e o posterior
  • Fabric OS v9.1.1d o posterior
  • Fabric OS v9.2.0b o posterior
  • Fabric OS v9.2.1 o posterior

Solución:
El switch debe pasar por un arranque en frío para recuperarse y sincronizar los CP. En el switch, ejecute el siguiente comando y tire del cable de alimentación.

sysshutdown

Monitoree de cerca los switches en busca de alertas críticas y aborde las condiciones que las causan con prontitud, o quite el monitoreo del switch de Secure Remote Services o Gateway de conexión segura.

Additional Information

  • Si hay un proceso CALD secundario en ejecución, el switch aún debe pasar por el procedimiento de recuperación para intentar realizar una conmutación por error (preferentemente en una ventana de mantenimiento) y, si la alta disponibilidad no se sincroniza, se necesita un reinicio en frío.
Brocade DEFECTO FOS-853249
Brocade DEFECTO FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.