Panika přepínače Connectrix řady B nebo HA Out of Sync kvůli vyčerpání zdrojů přepínače Connectrix řady B
Summary: Po převzetí služeb při selhání vysokou dostupností (HA) se řídicí procesory (CP) nesynchronizují a restartování pohotovostního CP problém nevyřeší.
Symptoms
Dopad:
- Po převzetí služeb při selhání není HA v synchronizaci. Restartování pohotovostního CP problém nevyřeší.
- Proces CALD (Common Access Layer Daemon) přestal reagovat (aplikace pro správu používají CALD)
- Vypnutí prostředků
- Panika přepínače
Prostředí:
- Hardware Dell: Connectrix ED-DCX7-4B
- Hardware Dell: Connectrix ED-DCX7-8B
- Hardware Dell: Connectrix ED-DCX6-4B
- Hardware Dell: Connectrix ED-DCX6-8B
- Hardware Dell: Connectrix ED-8510-8B
- Hardware Dell: Connectrix ED-8510-4B
- Hardware Dell: Connectrix DS-7730B
- Hardware Dell: Connectrix DS-7720B
- Hardware Dell: Connectrix DS-6630B
- Hardware Dell: Connectrix DS-6620B
- Hardware Dell: Connectrix DS-6610B
- Hardware Dell: Connectrix DS-6520B
- Hardware Dell: Connectrix DS-6510B
- Hardware Dell: Connectrix DS-6505B
- Hardware Dell: Connectrix MP-7810
- Software Dell: Secure Connect Gateway
- Software Dell: Secure Remote Services
- Software Dell: CloudIQ
- Software Brocade: Fabric OS 8.x
- Software Brocade: Fabric OS 9.x
Problém:
- Démon CALD se ukončí nebo je nedostupný a může dojít k panice přepínače z důvodu záplavy kritických výstrah nebo výstrah vysoké úrovně.
- Pokud přepínač nedokáže obnovit démona CALD, dojde k nesynchronizaci.
- Aplikace CloudIQ přestane přepínač sledovat
Chyby:
Výpis chyb: Příznakem je panika CALD systému Fabric OS:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Příklady PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Výstup HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl výstup v zobrazení podpory:
CALD se nepodařilo restartovat, protože původní démon přešel do nefunkčního stavu, a když se FOS pokusil inicializovat nového démona CALD, nepodařilo se mu to, protože CALD měl stav, který indikoval, že je stále naživu.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Specifický stav:
Secure Remote Services nebo Secure Connect Gateway monitorující přepínač
Cause
To bylo pozorováno v systému FOS 8.2.3c1.
Vlákno mimo stav prostředku v důsledku nevrácení prostředku s vláknem Secure Remote Support v CALD, které se vytvořilo pro odeslání výstupu show support na server Secure Remote Services.
Důvodem, proč se nepodaří restartovat CALD, je samostatná závada.
Příčinou:
CALD se nepodařilo restartovat, protože původní démon přešel do nefunkčního stavu, a když se FOS pokusil inicializovat nového démona cald, nepodařilo se to, protože CALD měl stav, který indikoval, že je stále naživu. To mělo za následek, že FOS nebyl schopen uvést nového démona CALD do funkčního stavu.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Technický backport obou oprav do verze 8.2.3e.
Resolution
Opravit:
Proveďte upgrade na:
- Fabric OS v8.2.3e nebo novější
- Fabric OS v9.1.1d nebo novější
- Fabric OS v9.2.0b nebo novější
- Fabric OS v9.2.1 nebo novější
Řešení:
Přepínač musí projít studeným restartem, aby se obnovil a synchronizoval CP. Na přepínači zadejte níže uvedený příkaz a zatáhněte za napájecí kabel.
sysshutdown
Pečlivě sledujte kritické výstrahy na přepínačích a ihned řešte podmínky, které tyto kritické výstrahy způsobují, nebo zrušte sledování přepínače ze služeb Secure Remote Services nebo Secure Connect Gateway.
Additional Information
- Pokud je spuštěný sekundární proces CALD, přepínač musí stále projít procedurou obnovení při pokusu o převzetí služeb hafailover (nejlépe v okně údržby), a pokud se HA nesynchronizuje, je nutný studený restart.
VADA BROCADE FOS-854095