Awaria przełącznika Connectrix z serii B lub brak synchronizacji HA z powodu wyczerpania zasobów przełącznika
Summary: Po przełączeniu awaryjnym High Availability (HA) procesory sterujące (CP) nie są zsynchronizowane, a ponowne uruchomienie rezerwowego CP nie rozwiązuje problemu.
Symptoms
Skutek:
- HA nie jest w synchronizacji po przejściu w tryb failover. Ponowne uruchomienie CP w trybie gotowości nie rozwiązuje problemu.
- Proces demona Common Access Layer (CALD) przestaje odpowiadać (aplikacje do zarządzania korzystają z CALD)
- Wyłączanie zasobów
- Panika przełącznika
Środowisko:
- Sprzęt firmy Dell: Connectrix ED-DCX7-4B
- Sprzęt firmy Dell: Connectrix ED-DCX7-8B
- Sprzęt firmy Dell: Connectrix ED-DCX6-4B
- Sprzęt firmy Dell: Connectrix ED-DCX6-8B
- Sprzęt firmy Dell: Connectrix ED-8510-8B
- Sprzęt firmy Dell: Connectrix ED-8510-4B
- Sprzęt firmy Dell: Connectrix DS-7730B
- Sprzęt firmy Dell: Connectrix DS-7720B
- Sprzęt firmy Dell: Connectrix DS-6630B
- Sprzęt firmy Dell: Connectrix DS-6620B
- Sprzęt firmy Dell: Connectrix DS-6610B
- Sprzęt firmy Dell: Connectrix DS-6520B
- Sprzęt firmy Dell: Connectrix DS-6510B
- Sprzęt firmy Dell: Connectrix DS-6505B
- Sprzęt firmy Dell: Connectrix MP-7810
- Oprogramowanie firmy Dell: Secure Connect Gateway
- Oprogramowanie firmy Dell: Usługi Secure Remote Services
- Oprogramowanie firmy Dell: CloudIQ
- Oprogramowanie Brocade: System operacyjny Fabric OS 8.x
- Oprogramowanie Brocade: System operacyjny Fabric 9.x
Problem:
- Demon CALD kończy działanie lub jest niedostępny i może wystąpić błąd przełącznika z powodu zalewu alertów krytycznych lub wysokiego poziomu.
- HA nie jest zsynchronizowany, jeśli przełącznik nie jest w stanie odzyskać demona CALD.
- CloudIQ przestaje monitorować przełącznik
Błędy:
Zrzut błędu: Objawem jest błąd CALD systemu operacyjnego sieci szkieletowej:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Przykłady PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Dane wyjściowe HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
Dane wyjściowe ps exfcl w obsłudze pokazują:
CALD nie zdołał się ponownie uruchomić, ponieważ oryginalny demon przeszedł w stan nieaktywny, a gdy FOS próbował zainicjować nowego demona CALD, nie był w stanie tego zrobić, ponieważ CALD miał stan wskazujący, że nadal działa.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Szczególny warunek:
Przełącznik jest monitorowany przez usługę Secure Remote Services i/lub bramkę zabezpieczeń.
Cause
Było to widoczne w FOS 8.2.3c1.
Wątek poza stanem zasobu w wyniku wycieku zasobów z wątkiem Secure Remote Support w CALD, zduplikowanym w celu wysłania danych wyjściowych support show do serwera Secure Remote Services.
Przyczyną niepowodzenia ponownego uruchomienia CALD jest inna wada.
Przyczynę:
Ponowne uruchomienie CALD nie powiodło się, ponieważ oryginalny demon przestał działać, a gdy FOS próbował zainicjować nowego demona cald, nie był w stanie tego zrobić, ponieważ CALD miał stan wskazujący, że nadal działa. Spowodowało to, że FOS nie był w stanie przełączyć nowego demona CALD w stan pracy.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Inżynierowie przenieśli obie poprawki do wersji 8.2.3e.
Resolution
Naprawić:
Uaktualnij do:
- System operacyjny Fabric w wersji 8.2.3e lub nowszej
- System operacyjny Fabric w wersji 9.1.1d lub nowszej
- System operacyjny Fabric w wersji 9.2.0b lub nowszej
- System operacyjny Fabric w wersji 9.2.1 lub nowszej
Obejście:
Przełącznik musi przejść zimny rozruch w celu odzyskania i zsynchronizowania CP. Na przełączniku wydaj poniższe polecenie i pociągnij za kabel zasilania.
sysshutdown
Uważnie monitoruj przełączniki pod kątem alertów krytycznych i niezwłocznie rozwiązuj warunki powodujące alerty krytyczne lub odłącz monitorowanie przełącznika od poziomu usług Secure Remote Services lub bramki zabezpieczeń.
Additional Information
- Jeśli uruchomiony jest pomocniczy proces CALD, przełącznik nadal musi przejść przez procedurę odzyskiwania, próbując hafailover (najlepiej w oknie konserwacji), a jeśli HA nie jest zsynchronizowany, wymagany jest ZIMNY ponowny rozruch.
Brokat WADA FOS-854095