Connectrix B-serie switch panic or HA out of sync due switch running out of resources

Summary: Na failover van High Availability (HA) worden de controleprocessors (CP) niet gesynchroniseerd en het opnieuw opstarten van de stand-by-CP lost het probleem niet op.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Impact:

  • HA is niet gesynchroniseerd na failover. Het probleem is niet opgelost door de stand-by-CP opnieuw op te lossen.
  • CALD-proces (Common Access Layer daemon) reageert niet meer (beheerbaarheidsapplicaties gebruiken CALD)
  • Geen resources meer
  • Panic switch

Omgeving:

  • Dell Hardware: Connectrix ED-DCX7-4B
  • Dell Hardware: Connectrix ED-DCX7-8B
  • Dell Hardware: Connectrix ED-DCX6-4B
  • Dell Hardware: Connectrix ED-DCX6-8B
  • Dell Hardware: Connectrix ED-8510-8B
  • Dell Hardware: Connectrix ED-8510-4B
  • Dell Hardware: Connectrix DS-7730B
  • Dell Hardware: Connectrix DS-7720B
  • Dell Hardware: Connectrix DS-6630B
  • Dell Hardware: Connectrix DS-6620B
  • Dell Hardware: Connectrix DS-6610B
  • Dell Hardware: Connectrix DS-6520B
  • Dell Hardware: Connectrix DS-6510B
  • Dell Hardware: Connectrix DS-6505B
  • Dell Hardware: Connectrix MP-7810
  • Dell Software: Secure Connect Gateway
  • Dell Software: Beveiligde externe services
  • Dell Software: CloudIQ
  • Brocade Software: Fabric OS 8.x
  • Brocade Software: Fabric OS 9.x

Probleem:

  • De CALD-daemon wordt beëindigd of is niet beschikbaar en mogelijk paniek in de switch als gevolg van een stortvloed aan kritieke of waarschuwingen op hoog niveau.
  • HA is niet gesynchroniseerd als de switch de CALD-daemon niet kan herstellen.
  • CloudIQ stopt met het bewaken van de switch

Fouten:
Err dump: Symptoom is een Fabric OS CALD-panic:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Voorbeelden van PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

HADUMP-uitgang:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

ps exfcl output in de support show:
CALD kon niet opnieuw opstarten omdat de originele daemon in een ter ziele gegane staat ging, en toen de FOS probeerde een nieuwe CALD daemon te initialiseren, was dat niet mogelijk omdat CALD een status had die aangaf dat hij nog in leven was.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Specifieke voorwaarde:
Secure Remote Services en/of Secure Connect Gateway die de switch bewaakt

Cause

Dit werd gezien in FOS 8.2.3c1.
Thread uit bronconditie als gevolg van een bronlek met de Secure Remote Support-thread in CALD, voortgebracht voor het verzenden van de uitvoer van de ondersteuningsshow naar de Secure Remote Services-server.

De reden voor het mislukken van het opnieuw opstarten van CALD is te wijten aan een afzonderlijk defect.

Oorzaak:
CALD kon niet opnieuw opstarten omdat de originele daemon in een ter ziele gegane staat ging, en toen FOS probeerde een nieuwe cald-daemon te initialiseren, lukte dat niet omdat CALD een status had die aangaf dat hij nog in leven was. Dit had tot gevolg dat de FOS niet in staat was om de nieuwe CALD daemon in een werkende staat te brengen.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Engineering backports beide fixes in 8.2.3e.

Resolution

Fix:
Upgrade naar:

  • Fabric OS v8.2.3e of hoger
  • Fabric OS v9.1.1d of hoger
  • Fabric OS v9.2.0b of hoger
  • Fabric OS v9.2.1 of hoger

Oplossing:
De switch moet koud opstarten om te herstellen en de CP's gesynchroniseerd te krijgen. Voer op de switch de onderstaande opdracht uit en trek de voedingskabel over.

sysshutdown

Controleer switches nauwlettend op kritieke waarschuwingen en pak de omstandigheden aan die de kritieke waarschuwingen veroorzaken, of ontwaak de switch van Secure Remote Services of Secure Connect Gateway.

Additional Information

  • Als er een secundair CALD-proces wordt uitgevoerd, moet de switch nog steeds de herstelprocedure doorlopen voor een poging tot hafailover (bij voorkeur in een onderhoudsvenster) en als HA niet meer synchroon loopt, is COLD opnieuw opstarten nodig.
Brocade DEFECT FOS-853249
Brocade DEFECT FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.