스위치 리소스 부족으로 인해 Connectrix B-Series 스위치 패닉 또는 HA 동기화 중단

Summary: HA(High Availability) 페일오버 후 CP(Control Processor)가 동기화되지 않고 대기 CP를 재부팅해도 문제가 해결되지 않습니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

영향:

  • 페일오버 후 HA가 동기화되지 않습니다. 대기 CP를 재부팅해도 문제가 해결되지 않습니다.
  • CALD(Common Access Layer daemon) 프로세스가 응답하지 않음(관리 용이성 애플리케이션에서 CALD를 사용함)
  • 리소스에서 전환
  • 스위치 패닉

환경:

  • Dell 하드웨어: Connectrix ED-DCX7-4B
  • Dell 하드웨어: Connectrix ED-DCX7-8B
  • Dell 하드웨어: Connectrix ED-DCX6-4B
  • Dell 하드웨어: Connectrix ED-DCX6-8B
  • Dell 하드웨어: Connectrix ED-8510-8B
  • Dell 하드웨어: Connectrix ED-8510-4B
  • Dell 하드웨어: Connectrix DS-7730B
  • Dell 하드웨어: Connectrix DS-7720B
  • Dell 하드웨어: Connectrix DS-6630B
  • Dell 하드웨어: Connectrix DS-6620B
  • Dell 하드웨어: Connectrix DS-6610B
  • Dell 하드웨어: Connectrix DS-6520B
  • Dell 하드웨어: Connectrix DS-6510B
  • Dell 하드웨어: Connectrix DS-6505B
  • Dell 하드웨어: Connectrix MP-7810
  • Dell 소프트웨어: 보안 연결 게이트웨이:
  • Dell 소프트웨어: 보안 원격 서비스
  • Dell 소프트웨어: CloudIQ
  • Brocade 소프트웨어: 패브릭 OS 8.x
  • Brocade 소프트웨어: 패브릭 OS 9.x

문제:

  • CALD 데몬이 종료되거나 사용할 수 없고 위험 또는 상위 수준 알림의 폭주로 인해 스위치 패닉이 발생할 수 있습니다.
  • 스위치가 CALD 데몬을 복구할 수 없는 경우 HA가 동기화되지 않습니다.
  • CloudIQ가 스위치 모니터링을 중지함

오류:
오류 덤프: 증상은 패브릭 OS CALD 패닉입니다.

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

PDshow의 예:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

HADUMP 출력:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

지원 쇼의 ps exfcl 출력:
CALD는 원래 데몬이 소멸 상태로 전환되었기 때문에 다시 시작하지 못했으며 FOS가 새 CALD 데몬을 초기화하려고 시도했을 때 CALD에 여전히 활성 상태임을 나타내는 상태가 있기 때문에 다시 시작할 수 없었습니다.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

특정 조건:
스위치를 모니터링하는 Secure Remote Services 및/또는 보안 연결 게이트웨이

Cause

이 문제는 FOS 8.2.3c1에서 확인되었습니다.
Support show 출력을 Secure Remote Services 서버로 보내기 위해 생성된 CALD의 Secure Remote Support 스레드에서 리소스 누수가 발생하여 스레드 부족 상태가 되었습니다.

CALD를 다시 시작하지 못하는 이유는 별도의 결함 때문입니다.

근본 원인:
원래 데몬이 소멸 상태로 전환되어 CALD를 다시 시작하지 못했으며 FOS가 새 cald 데몬을 초기화하려고 시도했지만 CALD에 여전히 활성 상태임을 나타내는 상태가 있었기 때문에 초기화할 수 없었습니다. 이로 인해 FOS가 새 CALD 데몬을 작업 상태로 전환할 수 없었습니다.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

엔지니어링 팀은 두 수정 사항을 모두 8.2.3e로 백포트합니다.

Resolution

수정:
업그레이드 후:

  • Fabric OS v8.2.3e 이상
  • Fabric OS v9.1.1d 이상
  • Fabric OS v9.2.0b 이상
  • Fabric OS v9.2.1 이상

해결:
CP를 복구하고 동기화하려면 스위치가 콜드 부팅을 거쳐야 합니다. 스위치에서 아래 명령을 실행하여 전원 케이블을 당깁니다.

sysshutdown

스위치에 중요 알림이 있는지 면밀히 모니터링하고 심각한 알림의 원인이 되는 조건을 즉시 해결하거나 Secure Remote Services 또는 보안 연결 게이트웨이에서 스위치 모니터링을 해제합니다.

Additional Information

  • 보조 CALD 프로세스가 실행 중인 경우 스위치는 여전히 hafailover를 시도하는 복구 절차를 거쳐야 하며(가급적 유지 관리 기간에) HA가 동기화되지 않으면 COLD 재부팅이 필요합니다.
Brocade 결함 FOS-853249
Brocade 결함 FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.