Awaria przełącznika Connectrix z serii B lub brak synchronizacji HA z powodu wyczerpania zasobów przełącznika

Summary: Po przełączeniu awaryjnym High Availability (HA) procesory sterujące (CP) nie są zsynchronizowane, a ponowne uruchomienie rezerwowego CP nie rozwiązuje problemu.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Skutek:

  • HA nie jest w synchronizacji po przejściu w tryb failover. Ponowne uruchomienie CP w trybie gotowości nie rozwiązuje problemu.
  • Proces demona Common Access Layer (CALD) przestaje odpowiadać (aplikacje do zarządzania korzystają z CALD)
  • Wyłączanie zasobów
  • Panika przełącznika

Środowisko:

  • Sprzęt firmy Dell: Connectrix ED-DCX7-4B
  • Sprzęt firmy Dell: Connectrix ED-DCX7-8B
  • Sprzęt firmy Dell: Connectrix ED-DCX6-4B
  • Sprzęt firmy Dell: Connectrix ED-DCX6-8B
  • Sprzęt firmy Dell: Connectrix ED-8510-8B
  • Sprzęt firmy Dell: Connectrix ED-8510-4B
  • Sprzęt firmy Dell: Connectrix DS-7730B
  • Sprzęt firmy Dell: Connectrix DS-7720B
  • Sprzęt firmy Dell: Connectrix DS-6630B
  • Sprzęt firmy Dell: Connectrix DS-6620B
  • Sprzęt firmy Dell: Connectrix DS-6610B
  • Sprzęt firmy Dell: Connectrix DS-6520B
  • Sprzęt firmy Dell: Connectrix DS-6510B
  • Sprzęt firmy Dell: Connectrix DS-6505B
  • Sprzęt firmy Dell: Connectrix MP-7810
  • Oprogramowanie firmy Dell: Secure Connect Gateway
  • Oprogramowanie firmy Dell: Usługi Secure Remote Services
  • Oprogramowanie firmy Dell: CloudIQ
  • Oprogramowanie Brocade: System operacyjny Fabric OS 8.x
  • Oprogramowanie Brocade: System operacyjny Fabric 9.x

Problem:

  • Demon CALD kończy działanie lub jest niedostępny i może wystąpić błąd przełącznika z powodu zalewu alertów krytycznych lub wysokiego poziomu.
  • HA nie jest zsynchronizowany, jeśli przełącznik nie jest w stanie odzyskać demona CALD.
  • CloudIQ przestaje monitorować przełącznik

Błędy:
Zrzut błędu: Objawem jest błąd CALD systemu operacyjnego sieci szkieletowej:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Przykłady PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Dane wyjściowe HADUMP:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

Dane wyjściowe ps exfcl w obsłudze pokazują:
CALD nie zdołał się ponownie uruchomić, ponieważ oryginalny demon przeszedł w stan nieaktywny, a gdy FOS próbował zainicjować nowego demona CALD, nie był w stanie tego zrobić, ponieważ CALD miał stan wskazujący, że nadal działa.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Szczególny warunek:
Przełącznik jest monitorowany przez usługę Secure Remote Services i/lub bramkę zabezpieczeń.

Cause

Było to widoczne w FOS 8.2.3c1.
Wątek poza stanem zasobu w wyniku wycieku zasobów z wątkiem Secure Remote Support w CALD, zduplikowanym w celu wysłania danych wyjściowych support show do serwera Secure Remote Services.

Przyczyną niepowodzenia ponownego uruchomienia CALD jest inna wada.

Przyczynę:
Ponowne uruchomienie CALD nie powiodło się, ponieważ oryginalny demon przestał działać, a gdy FOS próbował zainicjować nowego demona cald, nie był w stanie tego zrobić, ponieważ CALD miał stan wskazujący, że nadal działa. Spowodowało to, że FOS nie był w stanie przełączyć nowego demona CALD w stan pracy.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Inżynierowie przenieśli obie poprawki do wersji 8.2.3e.

Resolution

Naprawić:
Uaktualnij do:

  • System operacyjny Fabric w wersji 8.2.3e lub nowszej
  • System operacyjny Fabric w wersji 9.1.1d lub nowszej
  • System operacyjny Fabric w wersji 9.2.0b lub nowszej
  • System operacyjny Fabric w wersji 9.2.1 lub nowszej

Obejście:
Przełącznik musi przejść zimny rozruch w celu odzyskania i zsynchronizowania CP. Na przełączniku wydaj poniższe polecenie i pociągnij za kabel zasilania.

sysshutdown

Uważnie monitoruj przełączniki pod kątem alertów krytycznych i niezwłocznie rozwiązuj warunki powodujące alerty krytyczne lub odłącz monitorowanie przełącznika od poziomu usług Secure Remote Services lub bramki zabezpieczeń.

Additional Information

  • Jeśli uruchomiony jest pomocniczy proces CALD, przełącznik nadal musi przejść przez procedurę odzyskiwania, próbując hafailover (najlepiej w oknie konserwacji), a jeśli HA nie jest zsynchronizowany, wymagany jest ZIMNY ponowny rozruch.
Brokat WADA FOS-853249
Brokat WADA FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.