Connectrix B 系列交換器發生錯誤或 HA 未同步,因為交換器資源不足
Summary: 在高可用性 (HA) 容錯移轉後,控制處理器 (CP) 不會同步,而將待機 CP 重新開機無法解決問題。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
影響:
- 容錯移轉後,HA 未處於同步狀態。將待機 CP 重新開機無法解決問題。
- 通用存取層精靈 (CALD) 程式停止回應 (可管理性應用程式使用 CALD)
- 切換退出資源
- 交換器錯誤
環境:
- Dell 硬體:Connectrix ED-DCX7-4B
- Dell 硬體:Connectrix ED-DCX7-8B
- Dell 硬體:Connectrix ED-DCX6-4B
- Dell 硬體:Connectrix ED-DCX6-8B
- Dell 硬體:Connectrix ED-8510-8B
- Dell 硬體:Connectrix ED-8510-4B
- Dell 硬體:Connectrix DS-7730B
- Dell 硬體:Connectrix DS-7720B
- Dell 硬體:Connectrix DS-6630B
- Dell 硬體:Connectrix DS-6620B
- Dell 硬體:Connectrix DS-6610B
- Dell 硬體:Connectrix DS-6520B
- Dell 硬體:Connectrix DS-6510B
- Dell 硬體:Connectrix DS-6505B
- Dell 硬體:Connectrix MP-7810
- Dell 軟體:安全連線閘道
- Dell 軟體:Secure Remote Services
- Dell 軟體:CloudIQ
- Brocade 軟體:Fabric OS 8.x
- Brocade 軟體:Fabric OS 9.x
問題:
- 由於大量嚴重或高層級警示,CALD 精靈終止或無法使用,且可能導致交換器當機。
- 如果交換器無法復原 CALD 精靈,HA 未同步。
- CloudIQ 停止監控交換器
錯誤:
錯誤傾印:症狀是 Fabric OS CALD 錯誤:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
PDshow 範例:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP 輸出:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
支援中的 ps exfcl 輸出顯示:
CALD 無法重新啟動,因為原始守護程式已失效狀態,而當 FOS 嘗試初始化新的 CALD 守護程式時,無法重新啟動,因為 CALD 的狀態指示其仍上線。
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
特定條件:
安全遠端服務和/或安全連線閘道監控交換器
Cause
這可在 FOS 8.2.3c1 中出現。
由於 CALD 中的 Secure Remote Support 執行緒發生資源洩漏,導致執行緒超出資源狀況,產生來將支援顯示輸出傳送至 Secure Remote Services 伺服器。
無法重新啟動 CALD 的原因是由於另一個缺陷。
根本原因:
CALD 無法重新啟動,因為原始守護程式已失效,而當 FOS 嘗試初始化新的 cald 守護程式時,無法重新啟動,因為 CALD 的狀態指示其仍可活動。這會導致 FOS 無法讓新的 CALD 精靈進入工作狀態。
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
工程部門將這兩個修正向後包含至 8.2.3e。
Resolution
修正:
升級至:
- Fabric OS v8.2.3e 或更新版本
- Fabric OS v9.1.1d 或更新版本
- Fabric OS v9.2.0b 或更新版本
- Fabric OS v9.2.1 或更新版本
因應措施:
交換器必須經過冷開機,才能復原並使 CP 同步。在交換器上發出以下命令,然後拔出電源線。
sysshutdown
密切監控交換器中的嚴重警示,並及時解決導致嚴重警示的情況,或是從 Secure Remote Services 或安全連線閘道取消監控交換器。
Additional Information
- 如果有執行次要 CALD 程序,交換器仍須經歷嘗試 hafailover 的復原程序 (最好是在維護時段),如果 HA 未同步,則需要冷重新開機。
Brocade 瑕疵 FOS-854095
Affected Products
Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote ServicesArticle Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version: 7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.