Connectrix:如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理,自助。

Summary: 本文介绍如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理?

主动更换过多的 SFP
链路故障
G 端口
无指示灯
非操作序列 (NOS)
离线序列 (OLS)
信号丢失
SFP 故障
对 FC 端口进行故障处理
FC 端口上的错误

Cause

当问题不是出在 SFP 或交换机上时,您主动更换过多 SFP。

Resolution

要解决此问题:

  1. 确定通信故障中涉及的节点和交换机端口。
  2. 验证交换机端口是否已通过管理方式启动(未阻止、未关闭)或启用。
  3. 确保连接的设备有冗余路径可用,然后再继续。

 

警告:在继续操作之前,请确保您知道节点在获得新的 FCID 时会如何反应。由于 FCID 内置于存储设备的硬件路径中,因此 AIX 和 HP-UX 的某些操作系统版本对此类更改反应不佳。如果您移动线缆,则可能会导致数据不可用。如有任何疑问,请咨询 EMC 技术支持工程师。

 

  1. 要排除 SFP 的问题,请执行以下操作:
提醒:  如果 SFP 出现问题,此过程是使设备重新联机的最快方法。

 

  1. 检查交换机上是否有空闲端口。
  2. 禁用交换机上已确定的空闲端口。
  3. 将线缆从要调查的端口移至上一步中新禁用的空闲端口。
  4. 将禁用的端口更改为启用状态(或通过管理方式启动),并使设备重新联机。
  5. 将交换机上的统计信息/计数器清除/重置为零。

对于 Brocade,请参阅知识库文章: 

Connectrix B 系列 Brocade:如何清除 Connectrix Brocade B 系列交换机与控制器上的接口和 ASIC 计数器 

对于 Cisco,请参阅知识库文章: 

Connectrix - MDS 系列 Cisco:如何清除 MDS 上的接口和 ASIC 计数器

 

  1. 使用相应的命令监视端口 4-6 小时。

 

结果:

  • 如果错误计数器的数值增加,则问题不是出在交换机上,您必须建议客户/用户/SAN 管理员执行以下操作:

 

    • 新端口 SFP 和线缆需要清洁。(为防止脏线缆污染 SFP,请考虑使用专业清洁套件。)
    • 连接的设备必须由支持该设备的人员进一步调查。
    • 在 Cisco 交换机上,如果“errdisabled”状态返回时计数器的数值没有增加,则您必须创建 SR,以便进一步调查后端。

 

  • 如果错误没有增加(或者 Cisco 交换机上的“Errdisabled”状态没有返回),则上一个端口上的 SFP 有缺陷,请提交申请 SFP 更换的 SR,并提供上述分析结果,其中包括日志输出、SFP 详细信息(SM 或 MM 和速度等)

 

提醒:如果您更换了线缆和/或连接的设备,则可以通过检查计数器从步骤 6 开始执行相同的过程。

 

Additional Information

提醒:大多数时候,如果 SFP 光学收发器确实出现故障,您将在事件日志中看到明显的光学故障。


通过对问题应用简单的算法,您可以轻松找出硬件故障;如果不是这块硬件出故障,那么就是另一块硬件出故障。不断地循环,直至找出指向问题硬件的故障。


BROCADE 示例:

提醒:有关 porterrshow 中计数器的说明或描述,请参阅自助知识库文章 (KBA):(下面突出显示的示例。)
Connectrix B 系列:如何解释 Brocade porterrshow 输出以及计数器的含义。自助



示例 1 具有 LINK FAIL 和 LOSS SYNC 的 ENC OUT:

 

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     4     6     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

从错误中,我们可以看到 link fail 和 loss sync 以及 enc out 错误,还可能包括 loss sig 错误。
这些错误组合通常表示主机重新启动或交换机外部的链路重置。enc out 错误是在链路初始化中的速度协商过程中发生的。

预期操作:验证连接到端口的设备是否具有离线和/或联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。


示例 2 ENC OUT:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

没有任何关联错误的 enc out 错误表示线缆脏污。

预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。


示例 3 CRC 和 CRC G_EOF:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 1.2k   0     0     0    0     0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

帧进入交换机端口时 CRC 损坏,但帧的末尾仍标记为正常。
这表明这是第一个注册坏帧的端口,因此问题在于此特定端口上的 SFP/线缆/连接设备接口。

预期操作:
请参阅解决方案中的默认操作。

对于 ISL 端口,使用 statsclear 和 slotstatsclear 命令清除统计信息,等待 4-6 小时,然后从两个交换机收集 supportsaves 并创建 SR 以进行正常的故障处理。

 

示例 4     CRC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 0      0     0     0    0     0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

端口正在记录一个进入交换机并具有坏 CRC 帧的数据帧,但该帧已标记为损坏。通常会在 ISL 和 NPIV F 端口上看到此信息。

预期操作:
如果在 NPIV 端口上记录 CRC 错误,请通过维护供应商来调查设备!
对于 ISL 端口,检查光纤中的所有端口,看看是否有任何端口记录 crc g_oef 和操作,如示例 3 所示。


示例 5 具有 LINK FAIL 和 LOSS SYNC 的 PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     4     4     0     0     0     0      0     466


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

这仅适用于支持 10 Gbps 或 16 Gbps 端口及更高版本 (6505/6510/6520/DCX-8510) 的平台,随 GEN5 平台 Condor3 ASIC 引入。

ER_PCS_BLK 显示物理编码子层 (PCS) 块错误的数量。此计数器相当于 8Gb/4Gb 链路的 enc_out,仅用于 10GB 和 16Gb 速度及更高速度。
从错误中,我们可以看到 link fail 和 loss of sync 以及 pcs err 错误,也可能包括 loss sig 错误。
这些错误组合通常代表交换机外部的主机重新启动或链路重置。
pcs err 错误是在链路初始化中的速度协商过程中发生的。

预期操作:验证连接到端口的设备是否具有离线/联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。


示例 6 PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     0     0     0     0     0     0      0     466


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

没有任何关联错误的 PCS ERR 错误表示线缆脏污。

预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。

 


CISCO 示例:

示例 1 Errdisabled:

Errdisabled — 接口错误没有递增
 

fc1/1 is down (Error disabled - bit error rate too high)
    Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN).
    5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
    5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
      179 frames input, 7668 bytes
        0 discards, 0 errors
        0 CRC,  0 unknown class
        0 too long, 0 too short
      23 frames output, 1320 bytes
        0 discards, 0 errors
      1 input OLS, 1 LRR, 0 NOS, 1 loop inits
      2 output OLS, 0 LRR, 0 NOS, 1 loop inits
    Interface last changed at Thu Jun  5 01:51:00 2014

 

一般原因:
接口的“Errdisabled”状态可能有点误导性,因为前端的接口计数器可能是空白的,交换机似乎在“errdisabled”状态下关闭了该端口,而后端(ASIC/内部/线卡)上的错误计数器的数值则在增加。

预期操作:
请参阅解决方案中的默认操作。如果再次发生该情况,请收集技术支持详细信息输出并创建 SR。
 

提醒:来自 Cisco 的有关“Errdisabled”状态的信息:出现比特错误的原因如下:
  • 线缆故障或损坏
  • SFP 故障或损坏
  • SFP 的指定运行速度为 1 Gbps,但实际使用时的运行速度为 2 Gbps。
  • SFP 的指定运行速度为 2 Gbps,但实际使用时的运行速度为 4 Gbps。
  • 短途线缆用于长途场景,或长途线缆用于短途场景。
  • 瞬间失去同步
  • 一端或两端的线缆连接松动
  • 一端或两端的 SFP 连接不正确


当 5 分钟内爆发 15 个错误时,将会检测到比特错误率阈值。默认情况下,当达到阈值时,交换机将禁用该接口。您可以按顺序输入以下命令以重新启用该接口。

shutdown
no shutdown
您可以将交换机配置为在超过阈值时不禁用该接口。


默认情况下,达到阈值时会禁用该接口。


示例 2:   CRC

CRC 递增
 

fc13/1 is down (Initializing)
    Port description is ***
    Hardware is Fibre Channel, SFP is long wave laser cost reduced.
    5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
    5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
      162 frames input, 6136 bytes
        0 discards, 17 errors
        17 CRC,  0 unknown class
        0 too long, 17 too short
      74 frames output, 6304 bytes
        2 discards, 0 errors
      108 input OLS, 54 LRR, 2 NOS, 0 loop inits
      83 output OLS, 26 LRR, 56 NOS, 0 loop inits
    Interface last changed at Tue May 27 08:37:20 2014


一般原因:

端口记录了进入交换机的帧,其 CRC 错误,但帧结束良好。CRC 计数器仅在记录错误的特定入口端口上递增,因此您应在此物理链路上执行任何调查。

预期操作:
请参阅解决方案中的默认操作。

请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

 

示例 3:NOS

非操作序列 (NOS)

show int fc1/1 counters
fc1/1
    5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
    5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
    2741512190 frames input, 2542476084276 bytes
      0 class-2 frames, 0 bytes
      2741512190 class-3 frames, 2542476084276 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors, 0 CRC
      0 unknown class, 0 too long, 0 too short
    3410405365 frames output, 5164364339412 bytes
      0 class-2 frames, 0 bytes
      3410405365 class-3 frames, 5164364339412 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors
    1 input OLS, 1 LRR, 0 NOS, 307 loop inits
    289 output OLS, 289 LRR, 289 NOS, 289 loop inits
    0 link failures, 0 sync losses, 0 signal losses
     48276 BB credit transitions from zero
      16 receive B2B credit remaining
      3 transmit B2B credit remaining
      3 low priority transmit B2B credit remaining

 

一般原因:

在链路协商前失去连接。


预期操作:
检查第 1 层(物理层)和源设备。

Affected Products

Connectrix

Products

Connectrix, Connectrix B-Series Hardware, Connectrix MDS-Series Hardware
Article Properties
Article Number: 000028863
Article Type: Solution
Last Modified: 29 Jul 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.