PowerScale: 如何确定 PowerScale InfiniBand 构造的子网控制器
Samenvatting: 如何确定 PowerScale InfiniBand 构造的子网控制器。
Instructies
简介
OpenSM 提供 InfiniBand (IB) 子网管理器和管理的实施,并在 OpenIB 之上运行。OpenSM 必须正常运行,才能使依赖 OpenSM 的所有 InfiniBand (IB) 流量正常工作。如果发生 IB 问题,您可能需要查看 OpenSM 日志,为此,您必须知道要查看的日志。opensm 服务在所有节点上运行,并且每个节点都有自己的 OpenSM 日志。但是,只有 IB 构造的子网主节点会进行拓扑发现,因此只有其 OpenSM 日志具有完整且准确的信息。因此,为了能够确定哪个设备充当构造的子网主节点。
在双交换机配置中,您必须将 OpenSM 日志与其绑定到的接口相关联。opensm-1.topo 和 opensm-2.topo 文件并不总是直接关联到 internal-a (int-a) 和 internal-b (int-b) 接口。您可以使用 IB 接口链路层地址 (lladdr) 值来确定哪个文件与哪个接口关联。以下过程介绍了如何执行此作。
注意
启动与 IB 交换机的连接时,将生成一个 .topo 文件,该文件包含当时收集的信息。.log 文件将始终伴随 .topo 文件。.log文件包含有关 InfiniBand 连接的消息和拓扑信息。了解主节点后,您可以查看相应的 .日志文件 ,了解有关特定问题的信息。 只有 OpenSM 主节点上的拓扑文件才能获得结构的正确拓扑。 不应使用来自其他节点的拓扑文件。
流程
1.在群集中的任意节点上打开 SSH 连接,并使用“root”帐户登录。保持在同一节点上以执行此过程中的其余步骤。
2.确定每个交换机的 OpenSM 主节点:
isi_for_array -XI 'ps auxw | grep opensm' | grep master
在下面的示例中,对于具有单个 InfiniBand 交换机的环境,0xe41d2d0300bc8fc2对应于该节点的 Isilon NIC 的 lladdr,IsilonX210-S19-1 包含主节点的节点编号。
IsilonX210-S19-3# isi_for_array -XI 'ps auxw | grep opensm' | grep master
IsilonX210-S19-1: root 3757 0.0 0.0 28536 5036 - S 23Feb17 3:56.20 opensm: 0xe41d2d0300bc8fc2 master (opensm)
3.对于命令 2 中的每个结果,通过检查 ifconfig 输出中的 lladdr,确定上面的输出中引用了节点上的哪个接口。
isi_for_array -n <LNN> 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
For our example, the interface of the master would be ib1 (lladdr is separated by a dot in this output for clarity in reading and ends in bc.8f.c2, the same as from the example in command 2 above.)
IsilonX210-S19-3# isi_for_array -n 1 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
IsilonX210-S19-1: ib0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 4092
IsilonX210-S19-1: lladdr 0.0.0.48.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c1
IsilonX210-S19-1: status: inactive
IsilonX210-S19-1: ib1: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 2044
IsilonX210-S19-1: lladdr 0.0.0.49.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c2
IsilonX210-S19-1: status: active
Extra informatie
如果接口在步骤 3 中显示为非活动状态,则可以忽略其状态,因为它可能显示为主节点。
如果每个交换机有多个 OpenSM 主节点,并且额外的主节点不是由于网络接口卡 (NIC) 处于非活动状态,请联系 PowerScale 技术支持。
如果没有 OpenSM 主节点,请确认没有其他设备以物理方式连接到交换机,而这些设备不属于群集。 这包括已通电的节点(如果尚未添加到群集或从未从群集中删除)。 如果 InfiniBand 构造上没有其他连接,则交换机可能已充当主节点。
经过优化配置后,指定的子网主节点应是群集节点,而不是 IB 交换机或未配置的节点。
在极少数情况下,IB 交换机可能被配置为自己的子网主节点。这可能会导致难以诊断的问题。即 IB 接口未启动,交换机无法正确路由 IB 流量,甚至阻止节点加入群集。
如果 IB 交换机是主交换机,请联系 PowerScale 技术支持。