Connectrix:如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理,自助。

摘要: 本文介绍如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

如何通过消除方式对光纤通道节点到交换机端口或 SFP 的通信问题进行故障处理?

主动更换过多的 SFP
链路故障
G 端口
无指示灯
非操作序列 (NOS)
离线序列 (OLS)
信号丢失
SFP 故障
对 FC 端口进行故障处理
FC 端口上的错误

原因

当问题不是出在 SFP 或交换机上时,您主动更换过多 SFP。

解决方案

要解决此问题:

  1. 确定通信故障中涉及的节点和交换机端口。
  2. 验证交换机端口是否已通过管理方式启动(未阻止、未关闭)或启用。
  3. 确保连接的设备有冗余路径可用,然后再继续。

 

警告:在继续操作之前,请确保您知道节点在获得新的 FCID 时会如何反应。由于 FCID 内置于存储设备的硬件路径中,因此 AIX 和 HP-UX 的某些操作系统版本对此类更改反应不佳。如果您移动线缆,则可能会导致数据不可用。如有任何疑问,请咨询 EMC 技术支持工程师。

 

  1. 要排除 SFP 的问题,请执行以下操作:
提醒:  如果 SFP 出现问题,此过程是使设备重新联机的最快方法。

 

  1. 检查交换机上是否有空闲端口。
  2. 禁用交换机上已确定的空闲端口。
  3. 将线缆从要调查的端口移至上一步中新禁用的空闲端口。
  4. 将禁用的端口更改为启用状态(或通过管理方式启动),并使设备重新联机。
  5. 将交换机上的统计信息/计数器清除/重置为零。

对于 Brocade,请参阅知识库文章: 

Connectrix B 系列 Brocade:如何清除 Connectrix Brocade B 系列交换机与控制器上的接口和 ASIC 计数器 

对于 Cisco,请参阅知识库文章: 

Connectrix - MDS 系列 Cisco:如何清除 MDS 上的接口和 ASIC 计数器

 

  1. 使用相应的命令监视端口 4-6 小时。

 

结果:

  • 如果错误计数器的数值增加,则问题不是出在交换机上,您必须建议客户/用户/SAN 管理员执行以下操作:

 

    • 新端口 SFP 和线缆需要清洁。(为防止脏线缆污染 SFP,请考虑使用专业清洁套件。)
    • 连接的设备必须由支持该设备的人员进一步调查。
    • 在 Cisco 交换机上,如果“errdisabled”状态返回时计数器的数值没有增加,则您必须创建 SR,以便进一步调查后端。

 

  • 如果错误没有增加(或者 Cisco 交换机上的“Errdisabled”状态没有返回),则上一个端口上的 SFP 有缺陷,请提交申请 SFP 更换的 SR,并提供上述分析结果,其中包括日志输出、SFP 详细信息(SM 或 MM 和速度等)

 

提醒:如果您更换了线缆和/或连接的设备,则可以通过检查计数器从步骤 6 开始执行相同的过程。

 

其他信息

提醒:大多数时候,如果 SFP 光学收发器确实出现故障,您将在事件日志中看到明显的光学故障。


通过对问题应用简单的算法,您可以轻松找出硬件故障;如果不是这块硬件出故障,那么就是另一块硬件出故障。不断地循环,直至找出指向问题硬件的故障。


BROCADE 示例:

提醒:有关 porterrshow 中计数器的说明或描述,请参阅自助知识库文章 (KBA):(下面突出显示的示例。)
Connectrix B 系列:如何解释 Brocade porterrshow 输出以及计数器的含义。自助



示例 1 具有 LINK FAIL 和 LOSS SYNC 的 ENC OUT:

 

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     4     6     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

从错误中,我们可以看到 link fail 和 loss sync 以及 enc out 错误,还可能包括 loss sig 错误。
这些错误组合通常表示主机重新启动或交换机外部的链路重置。enc out 错误是在链路初始化中的速度协商过程中发生的。

预期操作:验证连接到端口的设备是否具有离线和/或联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。


示例 2 ENC OUT:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

没有任何关联错误的 enc out 错误表示线缆脏污。

预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。


示例 3 CRC 和 CRC G_EOF:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 1.2k   0     0     0    0     0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

帧进入交换机端口时 CRC 损坏,但帧的末尾仍标记为正常。
这表明这是第一个注册坏帧的端口,因此问题在于此特定端口上的 SFP/线缆/连接设备接口。

预期操作:
请参阅解决方案中的默认操作。

对于 ISL 端口,使用 statsclear 和 slotstatsclear 命令清除统计信息,等待 4-6 小时,然后从两个交换机收集 supportsaves 并创建 SR 以进行正常的故障处理。

 

示例 4     CRC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 0      0     0     0    0     0     0     0     0     0     0     0      0     0


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

端口正在记录一个进入交换机并具有坏 CRC 帧的数据帧,但该帧已标记为损坏。通常会在 ISL 和 NPIV F 端口上看到此信息。

预期操作:
如果在 NPIV 端口上记录 CRC 错误,请通过维护供应商来调查设备!
对于 ISL 端口,检查光纤中的所有端口,看看是否有任何端口记录 crc g_oef 和操作,如示例 3 所示。


示例 5 具有 LINK FAIL 和 LOSS SYNC 的 PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     4     4     0     0     0     0      0     466


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

这仅适用于支持 10 Gbps 或 16 Gbps 端口及更高版本 (6505/6510/6520/DCX-8510) 的平台,随 GEN5 平台 Condor3 ASIC 引入。

ER_PCS_BLK 显示物理编码子层 (PCS) 块错误的数量。此计数器相当于 8Gb/4Gb 链路的 enc_out,仅用于 10GB 和 16Gb 速度及更高速度。
从错误中,我们可以看到 link fail 和 loss of sync 以及 pcs err 错误,也可能包括 loss sig 错误。
这些错误组合通常代表交换机外部的主机重新启动或链路重置。
pcs err 错误是在链路初始化中的速度协商过程中发生的。

预期操作:验证连接到端口的设备是否具有离线/联机(即主机重新启动)的合法理由。例如,主机重新启动。如果没有,请提交 SR。


示例 6 PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     0     0     0     0     0     0      0     466


一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

没有任何关联错误的 PCS ERR 错误表示线缆脏污。

预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。

 


CISCO 示例:

示例 1 Errdisabled:

Errdisabled — 接口错误没有递增
 

fc1/1 is down (Error disabled - bit error rate too high)
    Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN).
    5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
    5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
      179 frames input, 7668 bytes
        0 discards, 0 errors
        0 CRC,  0 unknown class
        0 too long, 0 too short
      23 frames output, 1320 bytes
        0 discards, 0 errors
      1 input OLS, 1 LRR, 0 NOS, 1 loop inits
      2 output OLS, 0 LRR, 0 NOS, 1 loop inits
    Interface last changed at Thu Jun  5 01:51:00 2014

 

一般原因:
接口的“Errdisabled”状态可能有点误导性,因为前端的接口计数器可能是空白的,交换机似乎在“errdisabled”状态下关闭了该端口,而后端(ASIC/内部/线卡)上的错误计数器的数值则在增加。

预期操作:
请参阅解决方案中的默认操作。如果再次发生该情况,请收集技术支持详细信息输出并创建 SR。
 

提醒:来自 Cisco 的有关“Errdisabled”状态的信息:出现比特错误的原因如下:
  • 线缆故障或损坏
  • SFP 故障或损坏
  • SFP 的指定运行速度为 1 Gbps,但实际使用时的运行速度为 2 Gbps。
  • SFP 的指定运行速度为 2 Gbps,但实际使用时的运行速度为 4 Gbps。
  • 短途线缆用于长途场景,或长途线缆用于短途场景。
  • 瞬间失去同步
  • 一端或两端的线缆连接松动
  • 一端或两端的 SFP 连接不正确


当 5 分钟内爆发 15 个错误时,将会检测到比特错误率阈值。默认情况下,当达到阈值时,交换机将禁用该接口。您可以按顺序输入以下命令以重新启用该接口。

shutdown
no shutdown
您可以将交换机配置为在超过阈值时不禁用该接口。


默认情况下,达到阈值时会禁用该接口。


示例 2:   CRC

CRC 递增
 

fc13/1 is down (Initializing)
    Port description is ***
    Hardware is Fibre Channel, SFP is long wave laser cost reduced.
    5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
    5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
      162 frames input, 6136 bytes
        0 discards, 17 errors
        17 CRC,  0 unknown class
        0 too long, 17 too short
      74 frames output, 6304 bytes
        2 discards, 0 errors
      108 input OLS, 54 LRR, 2 NOS, 0 loop inits
      83 output OLS, 26 LRR, 56 NOS, 0 loop inits
    Interface last changed at Tue May 27 08:37:20 2014


一般原因:

端口记录了进入交换机的帧,其 CRC 错误,但帧结束良好。CRC 计数器仅在记录错误的特定入口端口上递增,因此您应在此物理链路上执行任何调查。

预期操作:
请参阅解决方案中的默认操作。

请清除端口统计信息(如上文第 9 点所列)并检查计数器,并在 4-6 小时后重新获取数据。

 

示例 3:NOS

非操作序列 (NOS)

show int fc1/1 counters
fc1/1
    5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
    5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
    2741512190 frames input, 2542476084276 bytes
      0 class-2 frames, 0 bytes
      2741512190 class-3 frames, 2542476084276 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors, 0 CRC
      0 unknown class, 0 too long, 0 too short
    3410405365 frames output, 5164364339412 bytes
      0 class-2 frames, 0 bytes
      3410405365 class-3 frames, 5164364339412 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors
    1 input OLS, 1 LRR, 0 NOS, 307 loop inits
    289 output OLS, 289 LRR, 289 NOS, 289 loop inits
    0 link failures, 0 sync losses, 0 signal losses
     48276 BB credit transitions from zero
      16 receive B2B credit remaining
      3 transmit B2B credit remaining
      3 low priority transmit B2B credit remaining

 

一般原因:

在链路协商前失去连接。


预期操作:
检查第 1 层(物理层)和源设备。

受影响的产品

Connectrix

产品

Connectrix, Connectrix B-Series Hardware, Connectrix MDS-Series Hardware
文章属性
文章编号: 000028863
文章类型: Solution
上次修改时间: 29 7月 2025
版本:  9
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。