Connectrix B-serien Switch-panik eller HA er ikke synkroniseret, fordi Switch løber tør for ressourcer
Summary: Efter HA-failover (High Availability) synkroniseres kontrolprocessorerne (CP) ikke, og det løser ikke problemet at genstarte standby-CP'en.
Symptoms
Påvirkning:
- HA er ikke i synkronisering efter failover. Genstart af standby-CP løser ikke problemet.
- CALD-processen (Common Access Layer-dæmon) holder op med at reagere (administrationsprogrammer bruger CALD)
- Skift ud af ressourcer
- Skift panik
Miljø:
- Dell-hardware: Connectrix ED-DCX7-4B
- Dell-hardware: Connectrix ED-DCX7-8B
- Dell-hardware: Connectrix ED-DCX6-4B
- Dell-hardware: Connectrix ED-DCX6-8B
- Dell-hardware: Connectrix ED-8510-8B
- Dell-hardware: Connectrix ED-8510-4B
- Dell-hardware: Connectrix DS-7730B
- Dell-hardware: Connectrix DS-7720B
- Dell-hardware: Connectrix DS-6630B
- Dell-hardware: Connectrix DS-6620B
- Dell-hardware: Connectrix DS-6610B
- Dell-hardware: Connectrix DS-6520B
- Dell-hardware: Connectrix DS-6510B
- Dell-hardware: Connectrix DS-6505B
- Dell-hardware: Connectrix MP-7810
- Dell-software: Gateway til sikker forbindelse
- Dell-software: Secure Remote Services
- Dell-software: CloudIQ
- Brocade-software: Fabric OS 8.x
- Brocade-software: Fabric OS 9.x
Problem:
- CALD-dæmonen afsluttes eller er ikke tilgængelig og mulig switch-panik på grund af en strøm af kritiske advarsler eller advarsler på højt niveau.
- HA er ikke synkroniseret, hvis switchen ikke kan gendanne CALD-dæmonen.
- CloudIQ holder op med at overvåge switchen
Fejl:
Fejldump: Symptomet er en Fabric OS CALD-panik:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Eksempler på PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP udgang:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl-output i supportshowet:
CALD kunne ikke genstarte, fordi den originale dæmon gik i en nedlagt tilstand, og da FOS forsøgte at initialisere en ny CALD-dæmon, kunne den ikke, fordi CALD havde en status, der indikerede, at den stadig var i live.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Specifik betingelse:
Secure Remote Services og/eller Secure Connect Gateway overvåger switchen
Cause
Dette blev set i FOS 8.2.3c1.
Tråd ud af ressourcetilstand som følge af en ressourcelækage med Secure Remote Support-tråden i CALD, skabt til at sende supportshow-output til Secure Remote Services-serveren.
Årsagen til, at CALD ikke genstartes, skyldes en separat defekt.
Årsagen:
CALD kunne ikke genstarte, fordi den oprindelige dæmon gik i en nedlagt tilstand, og da FOS forsøgte at initialisere en ny cald-dæmon, kunne den ikke, fordi CALD havde en status, der indikerede, at den stadig var i live. Dette resulterede i, at FOS ikke var i stand til at sætte den nye CALD-dæmon i en fungerende tilstand.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Teknisk backports begge rettelser til 8.2.3e.
Resolution
Lave:
Opgrader til:
- Fabric OS v8.2.3e eller nyere
- Fabric OS v9.1.1d eller nyere
- Fabric OS v9.2.0b eller nyere
- Fabric OS v9.2.1 eller nyere
Løsning:
Switchen skal gennemgå en koldstart for at gendanne og få CP'erne synkroniseret. På switchen skal du udstede nedenstående kommando og trække i strømkablet.
sysshutdown
Overvåg switche nøje for kritiske advarsler, og håndter straks de forhold, der forårsager de kritiske advarsler, eller fjern overvågningen af switchen fra Secure Remote Services eller Secure Connect Gateway.
Additional Information
- Hvis der kører en sekundær CALD-proces, skal switchen stadig gennemgå gendannelsesproceduren for forsøg på hafailover (helst i et vedligeholdelsesvindue), og hvis HA kommer ud af synkronisering, er COLD-genstart nødvendig.
Brocade DEFEKT FOS-854095