Connectrix:如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理,自助。
Summary: 本文介绍如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理。
Symptoms
如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理?
主动更换过多的 SFP
链路故障
G 端口
无指示灯
非操作序列 (NOS)
离线序列 (OLS)
信号丢失
SFP 故障
对 FC 端口进行故障处理
FC 端口上的错误
Cause
当问题不是出在 SFP 或交换机上时,您主动更换过多 SFP。
Resolution
要解决此问题:
- 确定通信故障中涉及的节点和交换机端口。
- 验证交换机端口是否已通过管理方式启动(未阻止、未关闭)或启用。
- 确保连接的设备有冗余路径可用,然后再继续。
- 要排除 SFP 的问题,请执行以下操作:
- 检查交换机上是否有空闲端口。
- 禁用交换机上已确定的空闲端口。
- 将线缆从要调查的端口移至上一步中新禁用的空闲端口。
- 将禁用的端口更改为启用状态(或通过管理方式启动),并使设备重新联机。
- 将交换机上的统计信息/计数器清除/重置为零。
对于 Brocade,请参阅知识库文章:
Connectrix B 系列 Brocade:如何清除 Connectrix Brocade B 系列交换机与控制器上的接口和 ASIC 计数器
对于 Cisco,请参阅知识库文章:
Connectrix - MDS 系列 Cisco:如何清除 MDS 上的接口和 ASIC 计数器
- 使用相应的命令监视端口 4-6 小时。
结果:
- 如果错误计数器的数值增加,则问题不是出在交换机上,您必须建议客户/用户/SAN 管理员执行以下操作:
-
- 新端口 SFP 和线缆需要清洁。(为防止脏线缆污染 SFP,请考虑使用专业清洁套件。)
- 连接的设备必须由支持该设备的人员进一步调查。
- 在 Cisco 交换机上,如果“errdisabled”状态返回时计数器的数值没有增加,则您必须创建 SR,以便进一步调查后端。
- 如果错误没有增加(或者 Cisco 交换机上的“Errdisabled”状态没有返回),则上一个端口上的 SFP 有缺陷,请提交申请 SFP 更换的 SR,并提供上述分析结果,其中包括日志输出、SFP 详细信息(SM 或 MM 和速度等)
Additional Information
通过对问题应用简单的算法,您可以轻松找出硬件故障;如果不是这块硬件出故障,那么就是另一块硬件出故障。不断地循环,直至找出指向问题硬件的故障。
BROCADE 示例:
Connectrix B 系列:如何解释 Brocade porterrshow 输出以及计数器的含义。自助
示例 1 具有 LINK FAIL 和 LOSS SYNC 的 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
从错误中,我们可以看到 link fail 和 loss sync 以及 enc out 错误,还可能包括 loss sig 错误。
这些错误组合通常表示主机重新启动或交换机外部的链路重置。enc out 错误是在链路初始化中的速度协商过程中发生的。
预期操作:验证连接到端口的设备是否具有离线和/或联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。
示例 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
没有任何关联错误的 enc out 错误表示线缆脏污。
预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。
示例 3 CRC 和 CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
帧进入交换机端口时 CRC 损坏,但帧的末尾仍标记为正常。
这表明这是第一个注册坏帧的端口,因此问题在于此特定端口上的 SFP/线缆/连接设备接口。
预期操作:
请参阅解决方案中的默认操作。
对于 ISL 端口,使用 statsclear 和 slotstatsclear 命令清除统计信息,等待 4-6 小时,然后从两个交换机收集 supportsaves 并创建 SR 以进行正常的故障处理。
示例 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
端口正在记录一个进入交换机并具有坏 CRC 帧的数据帧,但该帧已标记为损坏。通常会在 ISL 和 NPIV F 端口上看到此信息。
预期操作:
如果在 NPIV 端口上记录 CRC 错误,请通过维护供应商来调查设备!
对于 ISL 端口,检查光纤中的所有端口,看看是否有任何端口记录 crc g_oef 和操作,如示例 3 所示。
示例 5 具有 LINK FAIL 和 LOSS SYNC 的 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
这仅适用于支持 10 Gbps 或 16 Gbps 端口及更高版本 (6505/6510/6520/DCX-8510) 的平台,随 GEN5 平台 Condor3 ASIC 引入。
ER_PCS_BLK 显示物理编码子层 (PCS) 块错误的数量。此计数器相当于 8Gb/4Gb 链路的 enc_out,仅用于 10GB 和 16Gb 速度及更高速度。
从错误中,我们可以看到 link fail 和 loss of sync 以及 pcs err 错误,也可能包括 loss sig 错误。
这些错误组合通常代表交换机外部的主机重新启动或链路重置。
pcs err 错误是在链路初始化中的速度协商过程中发生的。
预期操作:验证连接到端口的设备是否具有离线/联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。
示例 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
没有任何关联错误的 PCS ERR 错误表示线缆脏污。
预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。
CISCO 示例:
示例 1 Errdisabled:
Errdisabled — 接口错误没有递增
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
一般原因:
接口的“Errdisabled”状态可能有点误导性,因为前端的接口计数器可能是空白的,交换机似乎在“errdisabled”状态下关闭了该端口,而后端(ASIC/内部/线卡)上的错误计数器的数值则在增加。
预期操作:
请参阅解决方案中的默认操作。如果再次发生该情况,请收集技术支持详细信息输出并创建 SR。
- 线缆故障或损坏
- SFP 故障或损坏
- SFP 的指定运行速度为 1 Gbps,但实际使用时的运行速度为 2 Gbps。
- SFP 的指定运行速度为 2 Gbps,但实际使用时的运行速度为 4 Gbps。
- 短途线缆用于长途场景,或长途线缆用于短途场景。
- 瞬间失去同步
- 一端或两端的线缆连接松动
- 一端或两端的 SFP 连接不正确
当 5 分钟内爆发 15 个错误时,将会检测到比特错误率阈值。默认情况下,当达到阈值时,交换机将禁用该接口。您可以按顺序输入以下命令以重新启用该接口。
shutdown
no shutdown 您可以将交换机配置为在超过阈值时不禁用该接口。
默认情况下,达到阈值时会禁用该接口。
示例 2: CRC
CRC 递增
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
一般原因:
端口记录了进入交换机的帧,其 CRC 错误,但帧结束良好。CRC 计数器仅在记录错误的特定入口端口上递增,因此您应在此物理链路上执行任何调查。
预期操作:
请参阅解决方案中的默认操作。
请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。
示例 3:NOS
非操作序列 (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
一般原因:
在链路协商前失去连接。
预期操作:
检查第 1 层(物理层)和源设备。