스위치 리소스 부족으로 인해 Connectrix B-Series 스위치 패닉 또는 HA 동기화 중단
Summary: HA(High Availability) 페일오버 후 CP(Control Processor)가 동기화되지 않고 대기 CP를 재부팅해도 문제가 해결되지 않습니다.
Symptoms
영향:
- 페일오버 후 HA가 동기화되지 않습니다. 대기 CP를 재부팅해도 문제가 해결되지 않습니다.
- CALD(Common Access Layer daemon) 프로세스가 응답하지 않음(관리 용이성 애플리케이션에서 CALD를 사용함)
- 리소스에서 전환
- 스위치 패닉
환경:
- Dell 하드웨어: Connectrix ED-DCX7-4B
- Dell 하드웨어: Connectrix ED-DCX7-8B
- Dell 하드웨어: Connectrix ED-DCX6-4B
- Dell 하드웨어: Connectrix ED-DCX6-8B
- Dell 하드웨어: Connectrix ED-8510-8B
- Dell 하드웨어: Connectrix ED-8510-4B
- Dell 하드웨어: Connectrix DS-7730B
- Dell 하드웨어: Connectrix DS-7720B
- Dell 하드웨어: Connectrix DS-6630B
- Dell 하드웨어: Connectrix DS-6620B
- Dell 하드웨어: Connectrix DS-6610B
- Dell 하드웨어: Connectrix DS-6520B
- Dell 하드웨어: Connectrix DS-6510B
- Dell 하드웨어: Connectrix DS-6505B
- Dell 하드웨어: Connectrix MP-7810
- Dell 소프트웨어: 보안 연결 게이트웨이:
- Dell 소프트웨어: 보안 원격 서비스
- Dell 소프트웨어: CloudIQ
- Brocade 소프트웨어: 패브릭 OS 8.x
- Brocade 소프트웨어: 패브릭 OS 9.x
문제:
- CALD 데몬이 종료되거나 사용할 수 없고 위험 또는 상위 수준 알림의 폭주로 인해 스위치 패닉이 발생할 수 있습니다.
- 스위치가 CALD 데몬을 복구할 수 없는 경우 HA가 동기화되지 않습니다.
- CloudIQ가 스위치 모니터링을 중지함
오류:
오류 덤프: 증상은 패브릭 OS CALD 패닉입니다.
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
PDshow의 예:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP 출력:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
지원 쇼의 ps exfcl 출력:
CALD는 원래 데몬이 소멸 상태로 전환되었기 때문에 다시 시작하지 못했으며 FOS가 새 CALD 데몬을 초기화하려고 시도했을 때 CALD에 여전히 활성 상태임을 나타내는 상태가 있기 때문에 다시 시작할 수 없었습니다.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
특정 조건:
스위치를 모니터링하는 Secure Remote Services 및/또는 보안 연결 게이트웨이
Cause
이 문제는 FOS 8.2.3c1에서 확인되었습니다.
Support show 출력을 Secure Remote Services 서버로 보내기 위해 생성된 CALD의 Secure Remote Support 스레드에서 리소스 누수가 발생하여 스레드 부족 상태가 되었습니다.
CALD를 다시 시작하지 못하는 이유는 별도의 결함 때문입니다.
근본 원인:
원래 데몬이 소멸 상태로 전환되어 CALD를 다시 시작하지 못했으며 FOS가 새 cald 데몬을 초기화하려고 시도했지만 CALD에 여전히 활성 상태임을 나타내는 상태가 있었기 때문에 초기화할 수 없었습니다. 이로 인해 FOS가 새 CALD 데몬을 작업 상태로 전환할 수 없었습니다.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
엔지니어링 팀은 두 수정 사항을 모두 8.2.3e로 백포트합니다.
Resolution
수정:
업그레이드 후:
- Fabric OS v8.2.3e 이상
- Fabric OS v9.1.1d 이상
- Fabric OS v9.2.0b 이상
- Fabric OS v9.2.1 이상
해결:
CP를 복구하고 동기화하려면 스위치가 콜드 부팅을 거쳐야 합니다. 스위치에서 아래 명령을 실행하여 전원 케이블을 당깁니다.
sysshutdown
스위치에 중요 알림이 있는지 면밀히 모니터링하고 심각한 알림의 원인이 되는 조건을 즉시 해결하거나 Secure Remote Services 또는 보안 연결 게이트웨이에서 스위치 모니터링을 해제합니다.
Additional Information
- 보조 CALD 프로세스가 실행 중인 경우 스위치는 여전히 hafailover를 시도하는 복구 절차를 거쳐야 하며(가급적 유지 관리 기간에) HA가 동기화되지 않으면 COLD 재부팅이 필요합니다.
Brocade 결함 FOS-854095