Panikk på svitsj i Connectrix B-serien eller HA usynkronisert på grunn av svitsj går tom for ressurser
Summary: Etter failover med høy tilgjengelighet (HA) er ikke kontrollprosessorene (CP) synkronisert, og omstart av standby-CP løser ikke problemet.
Symptoms
Innvirkning:
- HA er ikke synkronisert etter failover. Start CP-en i ventemodus på nytt løser ikke problemet.
- CALD-prosessen (Common Access Layer-bakgrunnsprosessen) slutter å svare (administrasjonsprogrammer bruker CALD)
- Bytt ut ressurser
- Bryterpanikk
Miljø:
- Dell-maskinvare: Connectrix ED-DCX7-4B
- Dell-maskinvare: Connectrix ED-DCX7-8B
- Dell-maskinvare: Connectrix ED-DCX6-4B
- Dell-maskinvare: Connectrix ED-DCX6-8B
- Dell-maskinvare: Connectrix ED-8510-8B
- Dell-maskinvare: Connectrix ED-8510-4B
- Dell-maskinvare: Connectrix DS-7730B
- Dell-maskinvare: Connectrix DS-7720B
- Dell-maskinvare: Connectrix DS-6630B
- Dell-maskinvare: Connectrix DS-6620B
- Dell-maskinvare: Connectrix DS-6610B
- Dell-maskinvare: Connectrix DS-6520B
- Dell-maskinvare: Connectrix DS-6510B
- Dell-maskinvare: Connectrix DS-6505B
- Dell-maskinvare: Connectrix MP-7810
- Dell-programvare: Gateway for sikker tilkobling
- Dell-programvare: Sikre eksterne tjenester
- Dell-programvare: CloudIQ
- Brocade-programvare: Fabric OS 8.x
- Brocade-programvare: Fabric OS 9.x
Problem:
- CALD-bakgrunnsprosessen avsluttes eller er utilgjengelig, og mulig bryterpanikk på grunn av en flom av kritiske varsler eller varsler på høyt nivå.
- HA er ikke synkronisert hvis svitsjen ikke er i stand til å gjenopprette CALD-demonen.
- CloudIQ slutter å overvåke svitsjen
Feil:
Feile dump: Symptomet er en Fabric OS CALD-panikk:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Eksempler på PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP-utgang:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl-utgang i støtteshowet:
CALD klarte ikke å starte på nytt fordi den opprinnelige bakgrunnsprosessen gikk inn i en nedlagt tilstand, og da FOS prøvde å initialisere en ny CALD-demon, kunne den ikke fordi CALD hadde en status som indikerte at den fortsatt var i live.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Spesifikk tilstand:
Sikre eksterne tjenester og/eller gateway for sikker tilkobling overvåke svitsjen
Cause
Dette ble sett i FOS 8.2.3c1.
Koble ut av ressurstilstanden som følge av en ressurslekkasje med Secure Remote Support-tråden i CALD, skapt for sending av utdata fra støtteshowet til Secure Remote Services-serveren.
Årsaken til at CALD ikke kan startes på nytt, skyldes en separat defekt.
Rotårsak:
CALD klarte ikke å starte på nytt fordi den opprinnelige bakgrunnsprosessen gikk inn i en nedlagt tilstand, og da FOS prøvde å initialisere en ny cald-demon, kunne den ikke fordi CALD hadde en status som indikerte at den fortsatt var i live. Dette resulterte i at FOS ikke klarte å sette den nye CALD-bakgrunnsprosessen i en fungerende tilstand.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Engineering backports begge reparasjonene i 8.2.3e.
Resolution
Fikse:
Oppgrader til:
- Fabric OS v8.2.3e eller nyere
- Fabric OS v9.1.1d eller nyere
- Fabric OS v9.2.0b eller nyere
- Fabric OS v9.2.1 eller nyere
Løsningen:
Bryteren må gå gjennom en kald oppstart for å gjenopprette og få CP-ene synkronisert. På bryteren utsteder du kommandoen nedenfor og trekker i strømkabelen.
sysshutdown
Overvåk svitsjene nøye for kritiske varsler og håndter forholdene som forårsaker de kritiske varslene raskt, eller fjern overvåkingen av svitsjen fra Secure Remote Services eller Secure Connect Gateway.
Additional Information
- Hvis det er en sekundær CALD-prosess som kjører, må bryteren fortsatt gå gjennom gjenopprettingsprosedyren for å prøve hafailover (helst i et vedlikeholdsvindu), og hvis HA kommer ut av synkronisering, er det nødvendig med KALD omstart.
Brokadedefekt FOS-854095