Symptoms
受影响
的产品在版本 Brocade FOS v9.1.1c、v9.2.0a 和更高版本
中
,运行 FOS v9.1.x 或 FOS v9.2.0 的 Brocade X7-8、X7-4、7730 和 7720
已纠正 只有第 7 代产品面临风险。
安装了 FC64-48 和/或 FC32-X7-48 端口刀片的第 7 代控制器(X7-8 和 X7-4)有遇到溢出和“验证”错误的风险。安装在第 7 代控制器中的 FC32-64 和 FC32-48 端口刀片式服务器不会遇到任一故障的风险。
第 7 代交换机(G730 和 G720)只有遇到缓冲区溢出故障的风险。这些交换机不会公开,也不会面临遇到“验证”错误故障情况的风险。
为了进一步面临风险,结构必须遇到严重的拥塞,从而导致流量
优化器超额订阅管理。如果遇到此响应级别,将观察到以下 RASlog 消息:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, 流目的地为 dev02 设备已移至 PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, 行:1470,comp:cfsd,ltime:2023/05/17-06:15:33:923058
Traffic Optimizer 的超额订阅管理操作仅存在于 FOS v9.1.x 固件中。
在 FOS v9.0.x 上运行的第 7 代产品
不会面临任何故障条件的风险。
缓冲区溢出故障风险条件
要发生缓冲区溢出情况,除了需要一段时间的严重拥塞外,第 7
代控制器或交换机上的 F 端口还需要从默认值配置为更多缓冲区。默认情况下,FOS 最多分配
28 个缓冲区。
任何具有最大 F 端口缓冲区计数超过 FOS 使用的
默认值的第 7 代控制器或交换机都有可能面临风险,并且以前运行 FOS v9.0.x 的任何 X7-8 或 X7-4 控制器都可能会面临遇到“验证”错误的风险
。在这两种情况下,Traffic Optimizer 还必须尝试管理帧的路由,以
响应在严重拥塞期间导致的超额订阅事件。
要确定可能存在风险的控制器和交换机,请使用“portbuffershow”命令查看缓冲区使用情况
。如果同一 ASIC/芯片上同时分区的端口的所有缓冲区总使用量加在一起的值大于 256 个缓冲区,则如果严重拥塞事件需要来自 Traffic Optimizer 的超额订阅管理,则第 7 代交换机将被视为面临缓冲区溢出的风险。在每次超额订阅管理事件中都不会遇到故障,因为在发生事件时管理的缓冲区数量需要超过 256 个,而 Traffic Optimizer 管理超额订阅,但配置为可能处理超过 256 个缓冲区将使交换机面临风险。
在上面显示的示例输出中,如果所有 8 个 F 端口同时位于一个分区中,则交换机将面临遇到帧
缓冲区溢出的风险,而 Traffic Optimizer 则管理超额订阅情况,因为本示例中的总缓冲区使用计数为 360。
但是,在下面的示例中,F 端口并非全部分区在一起,因此此交换机不会面临风险,因为这两个分区(以绿色显示)总共分别多达 232 个缓冲区和 128 个缓冲区。
用于超额订阅管理的最大端口数为 8 个端口。如果在同一 ASIC/芯片中将 8 个以上的端口分区在一起,则总的 8 个端口具有最高的缓冲区使用率值,以确定风险。
注意:从未更改过 F 端口缓冲区计数的第 7 代控制器和交换机不会遇到此帧缓冲区溢出问题的风险。对于第 7 代产品,用作最大/保留缓冲区默认设置的最大值为 28,但可以根据交换机类型和光纤速度分配更少的缓冲区。从未从默认情况下增加其最大/保留缓冲区数量的客户
不会遇到缓冲区溢出
问题。即使 8 个端口分区在一起,使用每个端口的最大默认分配 28 个缓冲区,最大缓冲区使用量的总值
也只有 224 帧。
“验证”故障风险条件
除了缓冲区溢出问题之外,如果按此顺序满足以下条件,X7-8 和 X7-4 控制器还可能会面临“验证”错误消息的风险:
- 以前在 FOS v9.0.x 上运行的 X7-8 或 X7-4 控制器
- 然后,控制器升级到FOX v9.1.x
- 然后,控制器具有 F 端口,可在 v9.1.x 版本中注销并登录
- 然后,控制器遇到超额订阅事件,需要从 Traffic Optimizer 进行管理
- 然后,控制器执行 HA 故障切换(固件升级会导致故障切换)
- 控制器遇到另一个超额订阅事件,需要从 Traffic Optimizer 进行管理
在流量优化器的超额订阅管理过程中,按照指定顺序满足所有这些条件的 X7-8 或 X7-4 控制器可能会面临“验证”错误的风险。
- 仅在 FOS v9.1.x 固件上运行过的 X7-8 或 X7-4 控制器不会面临遇到“验证”错误的风险,因为所有端口仅使用 v9.1 编程模型。第 7 代控制器必须以前使用 FOS v9.0.x 运行,才能容易受到此问题的影响。
- 在 FOS v9.1.x 固件上运行时已冷启动/重启电源的 X7-8 或 X7-4 控制器也不会遇到“验证”错误的风险,因为所有端口在重新启动后都将使用 v9.1 编程
症状
遇到超额订阅管理事件的第 7 代控制器和交换机将观察以下
Traffic Optimizer RASlog:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, 流目的地为 b1a02 设备已移至 PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, 行:1470,comp:cfsd,ltime:2023/05/17-06:15:33:923058
由于这些已识别的问题可能出现的其他症状可能是:
- 在更换光纤/电缆时,可能会观察到链路上未修复的大量 CRC 错误
- 帧可能会被丢弃,链路上的信用可能会丢失
- 端口可能出现故障,ASIC 可能会停止并出现故障
- 控制器可能会观察到意外的 HA 故障切换,甚至控制器冷重启
- 交换机可能会观察到冷重启
Cause
在特定条件下,流量优化器功能的超额订阅管理可能会导致发生故障,
从而影响受管帧或端口的传输。在严重拥塞情形下,这些故障还
可能会影响交换机上处于活动状态的其他结构操作系统 (FOS) 守护程序的性能,从而导致软件监护程序超
时,从而导致高可用性故障切换或交换机死机。
第 7 代控制器和交换机(X7-8、X7-4、7730 和 7720)在尝试
管理和重新路由超额订阅的流以响应严重拥塞事件时遇到帧缓冲区溢出可能会导致意外错误。如果
帧数量溢出用于管理超额订阅处理的缓冲区,则在 Traffic Optimizer 处理过程中可能会
遗漏这些多余的帧。如果覆盖标头信息,这些多余的帧可能会被其他帧覆盖,从而导致
帧 CRC 错误甚至端口故障。在严重拥塞情况下,对这些溢出/多余帧的管理可能导致阻止其他 FOS 守护程序,从而导致
监督者超时。超时的关键守护程序将导致高可用性故障切换或中断交换机重新启动。
除了潜在的帧溢出处理之外,以前在 FOS v9.0.x 上运行后升级到 FOS v9.1.x 的 X7-8 和 X7-4 控制器在高可用性故障切换(包括固件升级到更高版本的 v9.1.x)后可能会遇到验证错误。由于在 v9.1.x 上重置某些端口但并非所有端口时创建的端口编程冲突,流量优化器在超额订阅管理期间会观察到多个“验证”错误消息。在 v9.0.x 和更高版本中,在 v9.1.x 上重置的端口上的拥塞管理编程之间的冲突可能会在高可用性故障切换事件后出现。
Resolution
解决方法
”“面临风险”的控制器和交换机可以禁用 Traffic Optimizer 超额订阅管理操作。
从维护帐户发出以下 CLI 命令,以禁用 Traffic Optimizer 中的超额订阅
管理操作行为
maintenance> serviceexec trafoptdebug --enableosclassification 0
提醒:维护命令需要在机箱中的所有逻辑交换机上运行。
注意:此设置将在故障切换和电源关闭后重启
中持续进行
纠正操作
FOS v9.1.1c 及更高版本中提供的软件解决方案将防止这些故障。FOS v9.2.0a 和更高版本的 FOS v9.2.x 中也提供了
相同的解决方案。升级到这些版本的 FOS 将防止由于超额订阅管理而导致帧溢出
,还会防止 X7 控制器上出现“验证”错误。
对于仍在运行 FOS v9.0.x 版本且可能“面临风险”
的任何第 7 代控制器或交换机(X7-8、X7-4、7730 和 7720),建议在升级之前等待 FOS v9.1.1c 的发布。
当前在 v9.1.x 或 v9.2.0 版本上运行且确定存在风险
的第 7 代控制器和交换机应实施解决方法。停用 Traffic Optimizer 超额订阅管理操作将防止
缓冲区溢出和“验证”错误发生。升级到 v9.1.1c 或 v9.2.0a 后,可以通过以下命令重新启用超额订阅
管理操作:
从维护帐户发出以下 CLI 命令,以在 Traffic Optimizer 中重新启用超额订阅管理操作行为
maintenance> serviceexec trafoptdebug --enableosclassification 1
提醒:维护命令需要在机箱中的所有逻辑交换机上运行。
任何已经遇到“缓冲区溢出”故障的第 7 代控制器或交换机都需要执行冷重新启动
,以完全从故障状况中恢复:
董事:受影响的端口刀片
式交换机的插槽电源关闭/打开:重新启动(冷重新启动)交换机
选项 1:执行上面显示的重新启动操作,然后实施解决方法,以从 Traffic Optimizer
选项 2 中禁用超额订阅管理操作:使用解决方案升级到 FOS 版本,然后执行上面所示的重新启动操作。
使用提供的解决方案升级到 FOS 版本将防止发生“缓冲区溢出”故障,但
一旦遇到故障情况,只有 ASIC 冷重新启动将解决故障情况。
使用提供的解决方案升级到 FOS 版本将阻止并自动从“验证”错误
情况中恢复,而无需采取任何进一步操作。
升级到包含解决方案的 FOS 版本后,将执行内部内存检查,以确定控制器或交换机之前是否遇到过故障,并且需要重新启动才能从错误情况恢复。
如果在使用解决方案将 FOS 升级到版本后检测到故障情况,将显示以下 RASlog:
2023/06/01-17:07:50 (GMT),[C5-1057],5,插槽 2 |机箱,严重,Switch_3,S10,C0
:硬件 ASIC 芯片处于不一致状态 = 0x1002。
如果在升级 FOS 后观察到上述 RASlog,则控制器或交换机在升级之前遇到“缓冲
区溢出”故障,并且需要执行冷重新启动以完全从故障情况中恢复:
董事:受影响的端口刀片
式交换机的插槽电源关闭/打开:重新启动(冷重新启动)交换机
Affected Products
Connectrix DS-7720B, Connectrix DS-7730B, Connectrix ED-DCX7-4B, Connectrix ED-DCX7-8B