PowerVault ME5:主机链路 PHY 错误计数大于错误阈值

Summary: 使用连接到主机或交换机的光纤通道或 SAS 控制器前端端口时,PowerVault ME5 操作员可能会在事件历史记录日志中偶尔观察到事件 663 主机链路 PHY 错误计数消息。 ME5 固件版本 ME5.1.2.1.0 及更高版本中引入了此事件。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

根据 PowerVault ME5 系列控制器模块配置,转至本文中的相应部分。

使用光纤通道 (FC) 前端端口的控制器

使用光纤通道 (FC) SFP 收发器连接控制器模块的 PowerVault ME5 系列阵列操作员可能需要采取纠正措施来解决此症状。这通常不会影响 I/O 处理,但是,该消息是出现配置问题、潜在硬件问题、SFP 收发器连接问题或光纤线缆连接问题的早期征兆。

在大多数情况下,通过正确清洁光纤线缆上 LC 接头的端面,将妨碍光折射的灰尘或其他污垢清除,就可以轻松解决此问题。有关如何检查和清洁光纤线缆接头端面的说明,请按照以下知识库文章中的指导进行操作:光纤线缆接头端面上的灰尘等污垢导致 IO 性能不佳

A41844     2024-08-12 10:45:54  112   INFORMATIONAL  Host link down. (port: 1)
A41853     2024-08-12 10:46:30  111   INFORMATIONAL  Host link up. (port: 1, speed: 32 Gbps, point-to-point, fabric)

A42131     2024-10-13 18:44:37  663   ERROR          The host link PHY error count is greater than the error threshold. (port: 1, type: )
A42132     2024-10-13 18:46:44  663   RESOLVED       The host link PHY error count has been resolved. (port: 1, type: resolved)

PowerVault ME5 阵列固件版本 ME5.1.2.1.0 及更高版本会监控 FC 端口 Invalid Transmission Word Count 指标。此计数器值表示字词未成功传输,从而导致编码错误。PowerVault Manager 或 CLI 中不显示此计数器值,但每个存储控制器 (SC) 调试日志中都会记录它。控制器 SC 调试日志收集在 PowerVault ME 支持包中。请参阅 PowerVault ME5:如何收集 PowerVault 支持日志

如果经常看到此错误消息,操作员可以采取以下措施:

  1. 检查光纤线缆安装,正确清洁光纤线缆接头端面,并监控事件历史记录日志,以了解事件 663 是否反复出现。请参阅光纤线缆接头端面上的灰尘等污垢导致 IO 性能不佳

  2. 如果清洁光纤线缆接头不能解决该问题,请换上已知良好的收发器和光纤线缆。确保部件没有损坏,并得到正确处理。

  3. 如果更换收发器不能解决该症状,操作员应使用 Dell PowerVault ME5 系列存储系统支持矩阵中列出的经验证的收发器,否则请联系其供应商以获得支持。

  4. 在极少数情况下,使用老一代 8 Gb FC 交换机的操作员可能需要调整其交换机 portCfgFillword 设置。请参阅下面的“其他信息”部分。

使用串行连接 SCSI (SAS) 前端端口的控制器

每个主机到控制器的 SAS 线缆连接形成一个包含多条物理链路 (PHY) 的 SAS 宽端口。每条物理链路由四根导线组成,用作两个差分信号对,允许同时在两个方向上传输数据。

这通常不会影响 I/O 处理,但是当 SAS 链路形成时,如果 SAS 线缆被插入,则预计会发生事件。在冗余控制器配置中,当连接的主机服务器启动并加载其主机操作系统 SAS 驱动程序时,事件 663 会同时记录在两个控制器上。操作员无需采取进一步行动。

更多注意事项:
在 PowerVault ME 控制器已连接到戴尔 SAS HBA355e 的情况下。更改服务器 SAS HBA 或使用的 SAS HBA 端口后,您可以按照 PowerVault ME5 系列报告在连接到戴尔 HBA355e SAS 控制器时主机端口降级中所述,对主机服务器端口连接进行分配。使用 PowerVault Manager 检查端口启动器 WWN ID 是否映射到正确的主机和卷。

轻轻拉扯 SAS 线缆的每一端,确保 SAS 线缆已牢固插入。如果 SAS 线缆从端口脱落,请正确地将其重新插入端口。当接头闩锁固定时,您可能会听到咔嗒声。如果您无法正确地固定 SAS 线缆接头,请检查主机服务器中使用的是哪个 PCI-e 插槽。机箱内 SAS HBA 的插槽位置可能会阻碍接头插入。有关详细信息,请参阅 PowerEdge 16G 型号:HBA355e PCI-e 插槽选择

SAS 连接的主机重新启动时的 PowerVault ME5 事件历史记录日志示例。两个控制器都记录事件,序列中的最后一个事件指示问题已解决。

B1473      2024-08-15 09:55:22  112   INFORMATIONAL  Host link down. (port: 2)
A3538      2024-08-15 09:55:26  112   INFORMATIONAL  Host link down. (port: 2)

B1483      2024-08-15 09:55:29  111   INFORMATIONAL  Host link up. (port: 2, type: SAS)
A3547      2024-08-15 09:55:32  111   INFORMATIONAL  Host link up. (port: 2, type: SAS)


A3911      2024-10-22 10:10:46  354   WARNING        Host SAS topology was changed. (host port: 2, 0 out of 4 PHYs are up, link speed: Autonegotiated)
B1640      2024-10-22 10:10:46  354   WARNING        Host SAS topology was changed. (host port: 2, 0 out of 4 PHYs are up, link speed: Autonegotiated)
A3912      2024-10-22 10:11:55  354   INFORMATIONAL  Host SAS topology was changed. (host port: 2, 4 out of 4 PHYs are up, link speed: 12 Gbps)
B1641      2024-10-22 10:11:55  354   INFORMATIONAL  Host SAS topology was changed. (host port: 2, 4 out of 4 PHYs are up, link speed: 12 Gbps)
A3913      2024-10-22 10:12:58  663   ERROR          The host link PHY error count is greater than the error threshold. (port: 2, type: disparity errors, lost dword count, invalid dword count)
B1642      2024-10-22 10:13:33  663   ERROR          The host link PHY error count is greater than the error threshold. (port: 2, type: disparity errors, lost dword count, invalid dword count)
A3914      2024-10-22 10:15:00  663   RESOLVED       The host link PHY error count has been resolved. (port: 2, type: resolved)

 

Additional Information

使用支持 8 Gb 的老一代 Connectrix 或 Brocade FC 交换机的操作员可通过 portCfgFillword 命令配置 fillword 设置。当 8 Gb 交换机引入时,采用 ARBff 而不是 IDLE,主要是因为它有助于降低比特误码率。随着 fillword 的变化,用于初始化的 IDLE 也更改为 ARBff。

继续在生产中使用老一代 FC 交换机的操作员可能会观察到 Invalid Transmission Word Count 计数器增加,并且需要将 portcfgfillword 值设置为“Always use ARBff”。在 Brocade 交换机上,以下是“portcfgfillword --help”的输出。

admin> portcfgfillword --help

Usage: portCfgFillWord [SlotNumber/]PortNumber Mode  [Passive]

Mode: 0/-idle-idle      - IDLE in Link Init, IDLE as fill word (default)

          1/-arbff-arbff   - ARBFF in Link Init, ARBFF as fill word

          2/-idle-arbff    - IDLE  inLink Init, ARBFF as fill word (SW)

          3/-aa-then-ia  - If ARBFF/ARBFF failed, then do IDLE/ARBFF

Passive: 0/1

admin>

0: Use IDLE for initialization as 4Gb switches do.

1: Always use ARBff.

2: Use IDLE for initialization and use ARBff for between data frames.

3: Use ARBff for initialization first. If it fails, use IDLE. Use ARBff for between data frames.

 

Affected Products

ME Series, PowerVault ME5012, PowerVault ME5024, PowerVault ME5084
Article Properties
Article Number: 000240288
Article Type: How To
Last Modified: 19 Nov 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.