Connectrix B-serie switch panic or HA out of sync due switch running out of resources
Summary: Na failover van High Availability (HA) worden de controleprocessors (CP) niet gesynchroniseerd en het opnieuw opstarten van de stand-by-CP lost het probleem niet op.
Symptoms
Impact:
- HA is niet gesynchroniseerd na failover. Het probleem is niet opgelost door de stand-by-CP opnieuw op te lossen.
- CALD-proces (Common Access Layer daemon) reageert niet meer (beheerbaarheidsapplicaties gebruiken CALD)
- Geen resources meer
- Panic switch
Omgeving:
- Dell Hardware: Connectrix ED-DCX7-4B
- Dell Hardware: Connectrix ED-DCX7-8B
- Dell Hardware: Connectrix ED-DCX6-4B
- Dell Hardware: Connectrix ED-DCX6-8B
- Dell Hardware: Connectrix ED-8510-8B
- Dell Hardware: Connectrix ED-8510-4B
- Dell Hardware: Connectrix DS-7730B
- Dell Hardware: Connectrix DS-7720B
- Dell Hardware: Connectrix DS-6630B
- Dell Hardware: Connectrix DS-6620B
- Dell Hardware: Connectrix DS-6610B
- Dell Hardware: Connectrix DS-6520B
- Dell Hardware: Connectrix DS-6510B
- Dell Hardware: Connectrix DS-6505B
- Dell Hardware: Connectrix MP-7810
- Dell Software: Secure Connect Gateway
- Dell Software: Beveiligde externe services
- Dell Software: CloudIQ
- Brocade Software: Fabric OS 8.x
- Brocade Software: Fabric OS 9.x
Probleem:
- De CALD-daemon wordt beëindigd of is niet beschikbaar en mogelijk paniek in de switch als gevolg van een stortvloed aan kritieke of waarschuwingen op hoog niveau.
- HA is niet gesynchroniseerd als de switch de CALD-daemon niet kan herstellen.
- CloudIQ stopt met het bewaken van de switch
Fouten:
Err dump: Symptoom is een Fabric OS CALD-panic:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Voorbeelden van PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP-uitgang:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl output in de support show:
CALD kon niet opnieuw opstarten omdat de originele daemon in een ter ziele gegane staat ging, en toen de FOS probeerde een nieuwe CALD daemon te initialiseren, was dat niet mogelijk omdat CALD een status had die aangaf dat hij nog in leven was.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Specifieke voorwaarde:
Secure Remote Services en/of Secure Connect Gateway die de switch bewaakt
Cause
Dit werd gezien in FOS 8.2.3c1.
Thread uit bronconditie als gevolg van een bronlek met de Secure Remote Support-thread in CALD, voortgebracht voor het verzenden van de uitvoer van de ondersteuningsshow naar de Secure Remote Services-server.
De reden voor het mislukken van het opnieuw opstarten van CALD is te wijten aan een afzonderlijk defect.
Oorzaak:
CALD kon niet opnieuw opstarten omdat de originele daemon in een ter ziele gegane staat ging, en toen FOS probeerde een nieuwe cald-daemon te initialiseren, lukte dat niet omdat CALD een status had die aangaf dat hij nog in leven was. Dit had tot gevolg dat de FOS niet in staat was om de nieuwe CALD daemon in een werkende staat te brengen.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Engineering backports beide fixes in 8.2.3e.
Resolution
Fix:
Upgrade naar:
- Fabric OS v8.2.3e of hoger
- Fabric OS v9.1.1d of hoger
- Fabric OS v9.2.0b of hoger
- Fabric OS v9.2.1 of hoger
Oplossing:
De switch moet koud opstarten om te herstellen en de CP's gesynchroniseerd te krijgen. Voer op de switch de onderstaande opdracht uit en trek de voedingskabel over.
sysshutdown
Controleer switches nauwlettend op kritieke waarschuwingen en pak de omstandigheden aan die de kritieke waarschuwingen veroorzaken, of ontwaak de switch van Secure Remote Services of Secure Connect Gateway.
Additional Information
- Als er een secundair CALD-proces wordt uitgevoerd, moet de switch nog steeds de herstelprocedure doorlopen voor een poging tot hafailover (bij voorkeur in een onderhoudsvenster) en als HA niet meer synchroon loopt, is COLD opnieuw opstarten nodig.
Brocade DEFECT FOS-854095