Connectrix B 系列交换机因交换机资源不足而死机或 HA 不同步

Summary: 高可用性 (HA) 故障切换后,控制处理器 (CP) 未同步,重新启动备用 CP 无法解决问题。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

影响:

  • 故障切换后 HA 未同步。重新启动备用 CP 无法解决该问题。
  • 通用访问层守护程序 (CALD) 进程停止响应(可管理性应用程序使用 CALD)
  • 切换资源
  • 交换机死机

环境:

  • 戴尔硬件:Connectrix ED-DCX7-4B
  • 戴尔硬件:Connectrix ED-DCX7-8B
  • 戴尔硬件:Connectrix ED-DCX6-4B
  • 戴尔硬件:Connectrix ED-DCX6-8B
  • 戴尔硬件:Connectrix ED-8510-8B
  • 戴尔硬件:Connectrix ED-8510-4B
  • 戴尔硬件:Connectrix DS-7730B
  • 戴尔硬件:Connectrix DS-7720B
  • 戴尔硬件:Connectrix DS-6630B
  • 戴尔硬件:Connectrix DS-6620B
  • 戴尔硬件:Connectrix DS-6610B
  • 戴尔硬件:Connectrix DS-6520B
  • 戴尔硬件:Connectrix DS-6510B
  • 戴尔硬件:Connectrix DS-6505B
  • 戴尔硬件:Connectrix MP-7810
  • 戴尔软件:安全连接网关
  • 戴尔软件:Secure Remote Services
  • 戴尔软件:CloudIQ
  • Brocade 软件:Fabric OS 8.x
  • Brocade 软件:Fabric OS 9.x

问题:

  • CALD 守护程序终止或不可用,并且可能由于大量严重或高级警报而导致交换机死机。
  • 如果交换机无法恢复 CALD 守护程序,则 HA 不同步。
  • CloudIQ 停止监视交换机

错误:
错误转储:症状是结构操作系统 CALD 崩溃:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

PDshow 示例:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

HADUMP 输出:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

支持中的 ps exfcl 输出显示:
CALD 无法重新启动,因为原始守护程序进入失效状态,并且当 FOS 尝试初始化新的 CALD 守护程序时,它无法重新启动,因为 CALD 的状态指示它仍处于活动状态。

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

特定条件:
Secure Remote Services 和/或安全连接网关监控交换机

Cause

此问题见于 FOS 8.2.3c1。
由于 CALD 中的 Secure Remote Support 线程发生资源泄漏而导致线程脱离资源状况,该线程是为将 support show 输出发送到 Secure Remote Services 服务器而产生的。

随后重新启动 CALD 失败的原因是由于单独的缺陷。

根源:
CALD 无法重新启动,因为原始守护程序已进入失效状态,并且当 FOS 尝试初始化新的 cald 守护程序时,它无法重新启动,因为 CALD 的状态指示它仍处于活动状态。这导致 FOS 无法将新的 CALD 守护程序置于工作状态。

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

工程部门将两个修复向后移植到 8.2.3e 中。

Resolution

修复:
升级到:

  • Fabric OS v8.2.3e 或更高版本
  • Fabric OS v9.1.1d 或更高版本
  • Fabric OS v9.2.0b 或更高版本
  • Fabric OS v9.2.1 或更高版本

解决 方案:
交换机必须经历冷启动才能恢复和同步 CP。在交换机上,发出以下命令并拉动电源线。

sysshutdown

密切监控交换机是否出现严重警报并及时解决导致严重警报的条件,或者从 Secure Remote Services 或安全连接网关取消监控交换机。

Additional Information

  • 如果有辅助 CALD 进程正在运行,交换机仍必须完成尝试 hafailover 的恢复过程(最好在维护窗口中),如果 HA 不同步,则需要冷重新启动。
Brocade DEFECT FOS-853249
Brocade DEFECT FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.