Isilon: 第 6 代 DE 对等节点对(H400、A200、A2000)会生成事件和控制台消息,指示在更换或移动计算模块后其 NTB 链路出现问题
摘要: 第 6 代 DE 对等节点对(H400、A200、A2000)有时会开始生成错误消息,指示其 NTB 链路出现问题。错误可能包括重复的“NTB 链路启动/关闭”消息和链路速度协商错误。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
第 6 代 DE(H400、A200、A2000)对等节点对有时会开始生成错误消息,指示其 NTB 链路出现问题。错误可能包括重复的“链路正常/断开”消息以及链路速度协商错误,例如:
mnv0: HW link down event mnv0: HW link up event mnv0: Failed to negotiate PCIe lane speed; expected 3 lane speed, got 2. mnv0: transport link up mnv0: peer up
或者,日志和/或控制台可能只是将 NTB 链路显示为关闭,而不会出现。目前,此问题似乎有多种可能的原因,其中一些仍在调查中。如果最近将一个或两个受影响的节点移到不同的机箱插槽中,或者更换了其计算模块,则本知识库文章中记录的问题和解决方法可能适用。此问题不会影响 EP 节点(F800、H600、H500)。
原因
对等节点通过嵌入在机箱背板中的非透明桥接 (NTB) 的特殊通信通道相互通信。在正常操作中,对等对中的两个节点必须具有不同的 PPD 值,才能通过 NTB 相互通信。根据机箱中的节点插槽 ID 分配 PPD 值。此问题是由节点的 BIOS 在将节点或计算模块交换到与最初来自不同的插槽时保留节点的旧插槽 ID 而导致的,而不是检测到新的插槽 ID。这可能会导致 PPD 值设置不正确,从而导致冲突,导致节点无法建立 NTB 链路。
解决方案
在受影响的对等对中的两个节点上运行以下命令,以验证本知识库文章中记录的问题是否适用:
# sysctl dev.ntb_hw.0.debug_info.ppd
每个节点将响应以下任一:
dev.ntb_hw.0.debug_info.ppd:
73
或者:
dev.ntb_hw.0.debug_info.ppd:93
- 如果一对中的一个节点响应 73,而另一个节点响应 93,则这些节点当前不受本知识库文章中记录的问题的影响。
请联系 EMC Isilon 技术支持以获得进一步的帮助。
- 如果两个节点响应的数字 相同 ,无论是 73 还是 93,它们都会受到本知识库文章中记录的问题的影响。此问题已在 节点固件软件包 10.1.6 及更高版本中包含的更新节点固件以及 OneFS 8.1.0.4 及更高版本中包含的代码修复中得到解决。虽然每个更新都将单独修复该问题,但两个版本都包含其他重要的修复程序,因此建议同时安装这两个版本。
# sysctl dev.ntb_hw.0.debug_info.ppd
每个节点将响应以下任一:
dev.ntb_hw.0.debug_info.ppd:
73
或者:
dev.ntb_hw.0.debug_info.ppd:93
- 如果一对中的一个节点响应 73,而另一个节点响应 93,则这些节点当前不受本知识库文章中记录的问题的影响。
请联系 EMC Isilon 技术支持以获得进一步的帮助。
- 如果两个节点响应的数字 相同 ,无论是 73 还是 93,它们都会受到本知识库文章中记录的问题的影响。此问题已在 节点固件软件包 10.1.6 及更高版本中包含的更新节点固件以及 OneFS 8.1.0.4 及更高版本中包含的代码修复中得到解决。虽然每个更新都将单独修复该问题,但两个版本都包含其他重要的修复程序,因此建议同时安装这两个版本。
受影响的产品
Isilon, Isilon Gen6文章属性
文章编号: 000056963
文章类型: Solution
上次修改时间: 28 6月 2023
版本: 6
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。