PowerScale: PowerScale InfiniBandファブリックのサブネット コントローラーを特定する方法
Samenvatting: PowerScale InfiniBandファブリックのサブネット コントローラーを特定する方法について説明します。
Instructies
概要
OpenSMは、InfiniBand(IB)サブネット マネージャーおよび管理の実装を提供し、OpenIB上で実行されます。OpenSMに依存するすべてのInfiniBand(IB)トラフィックが正常に機能するためには、OpenSMが正常に機能している必要があります。IBの問題が発生した場合は、OpenSMログを確認する必要があります。そのためには、確認するログを把握しておく必要があります。opensmサービスはすべてのノードで実行され、各ノードには独自のOpenSMログがあります。ただし、トポロジー検出を行うのはIBファブリックのサブネット マスターのみであるため、完全で正確な情報があるのはそのサブネット マスターのOpenSMログのみです。したがって、ファブリックのサブネット マスターとして機能しているデバイスを特定できるようにします。
デュアル スイッチ構成では、OpenSMログをバインド先のインターフェイスに関連づける必要があります。opensm-1.topo ファイルと opensm-2.topo ファイルは、必ずしも internal-a (int-a) および internal-b (int-b) インターフェイスに直接相関するとは限りません。IB インターフェース・リンク層アドレス (lladdr) 値を使用して、どのファイルがどのインターフェースに関連付けられているかを判別できます。次の手順では、その方法について説明します。
メモ
.topo ファイルは、IB スイッチへの接続が開始されたときに生成され、その時点で収集された情報が含まれています。.log ファイルは常に .topo ファイルに付随します。.logファイルには、InfiniBand接続に関するメッセージとトポグラフィー情報が含まれています。マスターがわかったら、適切な .特定の問題に関する情報のログ ファイル。 ファブリックの正しいトポロジーについては、OpenSMマスターのノード上のtopoファイルのみを信頼できます。 他のノードからのトポファイルは使用しないでください。
手順
1.クラスター内の任意のノードでSSH接続を開き、「root」アカウントを使用してログインします。同じノードにとどまり、この手順の残りのステップを実行します。
2.各スイッチのOpenSMマスターを決定します。
isi_for_array -XI 'ps auxw | grep opensm' | grep master
InfiniBandスイッチが1つの環境の次の例では、0xe41d2d0300bc8fc2はそのノードのIsilon NICのlladdrに対応し、IsilonX210-S19-1にはマスターのノード番号が含まれています。
IsilonX210-S19-3# isi_for_array -XI 'ps auxw | grep opensm' | grep master
IsilonX210-S19-1: root 3757 0.0 0.0 28536 5036 - S 23Feb17 3:56.20 opensm: 0xe41d2d0300bc8fc2 master (opensm)
3.コマンド2の各結果について、ifconfig出力のlladdrを調べて、上記の出力からノード上のどのインターフェイスが参照されているかを判断します。
isi_for_array -n <LNN> 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
For our example, the interface of the master would be ib1 (lladdr is separated by a dot in this output for clarity in reading and ends in bc.8f.c2, the same as from the example in command 2 above.)
IsilonX210-S19-3# isi_for_array -n 1 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
IsilonX210-S19-1: ib0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 4092
IsilonX210-S19-1: lladdr 0.0.0.48.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c1
IsilonX210-S19-1: status: inactive
IsilonX210-S19-1: ib1: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 2044
IsilonX210-S19-1: lladdr 0.0.0.49.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c2
IsilonX210-S19-1: status: active
Extra informatie
手順 3 でインターフェイスが非アクティブと表示された場合、そのステータスはマスターとして表示される可能性があるため無視できます。
スイッチごとに複数のOpenSMマスターがあり、追加のマスターの原因が非アクティブなネットワーク インターフェイス カード(NIC)ではない場合は、 PowerScaleテクニカル サポートにお問い合わせください
OpenSMマスターがない場合は、クラスターの一部ではない他のデバイスがスイッチに物理的に接続されていないことを確認します。 これには、クラスターに追加されていないか、クラスターから削除されている場合に電源がオンになっているノードが含まれます。 InfiniBandファブリックに追加の接続がない場合は、スイッチがマスターの役割を担っている可能性があります。
最適に構成されている場合、指定されたサブネット マスターは、IB スイッチや未構成ノードではなく、クラスター ノードである必要があります。
まれに、IB スイッチが独自のサブネット マスターとして構成されることがあります。これにより、診断が困難な問題が発生する可能性があります。つまり、IBインターフェイスが起動しない、スイッチがIBトラフィックを正しくルーティングしない、ノードがクラスターに参加できないなどです。
IBスイッチがマスターの場合は、 PowerScaleテクニカル サポートにお問い合わせください。