PowerScale: 如何判斷 PowerScale InfiniBand 網狀架構的子網路控制器
Samenvatting: 如何判斷 PowerScale InfiniBand 網狀架構的子網路控制器。
Instructies
簡介
OpenSM 提供 InfiniBand (IB) 子網路管理員和管理的實現,並在 OpenIB 上運行。OpenSM 必須正常運作,才能讓所有依賴 OpenSM 的 InfiniBand (IB) 流量正常運作。如果發生 IB 問題,您可能需要檢閱 OpenSM 記錄,若要這樣做,您必須知道要檢閱哪個記錄。opensm 服務在所有節點上執行,而且每個節點都有自己的 OpenSM 記錄。但是,只有 IB 網狀架構的子網主節點會進行拓撲探索,因此只有其 OpenSM 記錄具有完整且準確的資訊。因此,能夠識別哪個設備充當光纖的子網主機。
在雙交換器組態中,您必須將 OpenSM 記錄與其綁定的介面相關聯。opensm-1.topo 和 opensm-2.topo 檔案並不總是與 internal-a (int-a) 和 internal-b (int-b) 介面直接相關。您可以使用 IB 介面鏈路層位址 (lladdr) 值來確定哪個檔與哪個介面相關聯。以下過程描述了如何執行此操作。
注意
啟動與 IB 交換機的連接時會生成 .topo 檔,其中包含當時收集的資訊。.log 檔將始終隨附於 .topo 檔。.log檔包含有關 InfiniBand 連接的消息和地形資訊。瞭解母版后,可以查看相應的 .日誌 檔,瞭解有關特定問題的資訊。 只有 OpenSM 主節點上的拓撲檔才能獲得正確的結構拓撲。 不應使用來自其他節點的拓撲檔。
程序
1.在叢集的任何節點上開啟 SSH 連線,然後使用「root」帳戶登入。保持在同一個節點上,以執行本程序中的其餘步驟。
2.確定每個交換器的 OpenSM 主交換器:
isi_for_array -XI 'ps auxw | grep opensm' | grep master
在以下使用單一 InfiniBand 交換器的環境的範例中,0xe41d2d0300bc8fc2對應至該節點的 Isilon NIC lladdr,而 IsilonX210-S19-1 包含主節點的節點編號。
IsilonX210-S19-3# isi_for_array -XI 'ps auxw | grep opensm' | grep master
IsilonX210-S19-1: root 3757 0.0 0.0 28536 5036 - S 23Feb17 3:56.20 opensm: 0xe41d2d0300bc8fc2 master (opensm)
3.對於命令 2 中的每個結果,通過檢查 ifconfig 輸出中的 lladdr,確定從上面的輸出中引用節點上的哪個介面。
isi_for_array -n <LNN> 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
For our example, the interface of the master would be ib1 (lladdr is separated by a dot in this output for clarity in reading and ends in bc.8f.c2, the same as from the example in command 2 above.)
IsilonX210-S19-3# isi_for_array -n 1 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
IsilonX210-S19-1: ib0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 4092
IsilonX210-S19-1: lladdr 0.0.0.48.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c1
IsilonX210-S19-1: status: inactive
IsilonX210-S19-1: ib1: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 2044
IsilonX210-S19-1: lladdr 0.0.0.49.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c2
IsilonX210-S19-1: status: active
Extra informatie
如果介面在步驟 3 中顯示為非活動狀態,則可以忽略其狀態,因為它可能顯示為主介面。
如果每個交換器有多個 OpenSM 主站,而且額外的主站並非因為非使用中的網路介面卡 (NIC) 所導致,請聯絡 PowerScale 技術支援部門。
如果沒有 OpenSM 主設備,則確認沒有其他物理連接到交換機的設備,這些設備不屬於集群。 這包括尚未新增至叢集或從叢集移除時,會開啟電源的節點。 如果 InfiniBand 網狀架構上沒有其他連線,則交換器可能已擔任主交換器的角色。
最佳配置時,指定的主子網應該是集群節點,而不是IB交換機或未配置的節點。
在極少數情況下,IB 交換機可能會配置為其自己的主子網。這可能會導致難以診斷的問題。即 IB 介面未啟動,交換機無法正確路由 IB 流量,甚至阻止節點加入集群。
若 IB 交換器為主交換器,請聯絡 PowerScale 技術支援部門。