PowerScale: Como determinar o controlador de sub-rede de um fabric InfiniBand do PowerScale

Samenvatting: Como determinar o controlador de sub-rede de um fabric InfiniBand do PowerScale.

Dit artikel is van toepassing op Dit artikel is niet van toepassing op Dit artikel is niet gebonden aan een specifiek product. Niet alle productversies worden in dit artikel vermeld.

Instructies

Introdução

O OpenSM fornece uma implementação de um Gerenciador e Administração de Sub-rede InfiniBand (IB) e é executado sobre o OpenIB. O OpenSM deve estar funcionando corretamente para que todo o tráfego InfiniBand (IB) que depende do OpenSM funcione corretamente. Se ocorrer um problema de IB, convém analisar os logs do OpenSM e, para isso, saber qual log analisar. O serviço OpenSM é executado em todos os nós, e cada nó tem seus próprios logs do OpenSM. No entanto, somente a principal sub-rede do fabric de IB faz detecções de topologia, portanto, somente seu log do OpenSM tem informações completas e precisas. Portanto, para ser capaz de identificar qual dispositivo está atuando como a principal sub-rede do fabric.

Em uma configuração de switch duplo, você deve correlacionar o log do OpenSM à interface à qual ele está vinculado. Os arquivos opensm-1.topo e opensm-2.topo nem sempre se correlacionam diretamente com as interfaces internal-a (int-a) e internal-b (int-b). Você pode usar o valor do endereço de camada de link da interface IB (lladdr) para determinar qual arquivo está associado a qual interface. O procedimento abaixo descreve como fazer isso.

NOTA
Um arquivo .topo é gerado quando uma conexão com o switch IB é iniciada e contém informações coletadas naquele momento. Um arquivo .log sempre acompanhará o arquivo .topo . O arquivo .log contém mensagens e informações de topografia sobre a conexão InfiniBand. Depois de conhecer o mestre, você pode revisar o arquivo . Arquivo de log para obter informações sobre um problema específico.  Somente o arquivo topo no nó do mestre OpenSM pode ser usado para uma topologia correta do fabric.  Arquivos topo de outros nós não devem ser usados.

 

 Procedimento

1. Abra uma conexão SSH com algum nó do cluster e faça login usando a conta "root". Permanecer no mesmo nó para executar o restante das etapas deste procedimento.

2. Determine os Masters do OpenSM para cada switch:

Em um ambiente com dois switches, deve haver duas linhas de saída, uma para cada switch.

isi_for_array -XI 'ps auxw | grep opensm' | grep master


No exemplo abaixo para um ambiente com um único switch InfiniBand, 0xe41d2d0300bc8fc2 corresponde ao lladdr da NIC do Isilon para esse nó, e o IsilonX210-S19-1 inclui o número do nó para o principal.

IsilonX210-S19-3# isi_for_array -XI 'ps auxw | grep opensm' | grep master
IsilonX210-S19-1: root    3757   0.0  0.0  28536   5036  -  S    23Feb17      3:56.20 opensm: 0xe41d2d0300bc8fc2 master (opensm)


3. Para cada resultado no comando 2, determine qual interface no nó é referida a partir da saída acima, examinando o lladdr da saída do ifconfig.  

Repita essa etapa para cada nó no resultado da etapa 2, substituindo <o LNN> pelo número do nó

isi_for_array -n <LNN> 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status

For our example, the interface of the master would be ib1 (lladdr is separated by a dot in this output for clarity in reading and ends in bc.8f.c2, the same as from the example in command 2 above.)

IsilonX210-S19-3# isi_for_array -n 1 'ifconfig ib0 ; ifconfig ib1' | grep -E "ib[01]"\|lladdr\|status
IsilonX210-S19-1: ib0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 4092
IsilonX210-S19-1:       lladdr 0.0.0.48.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c1
IsilonX210-S19-1:       status: inactive
IsilonX210-S19-1: ib1: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 2044
IsilonX210-S19-1:       lladdr 0.0.0.49.fe.80.0.0.0.0.0.0.e4.1d.2d.3.0.bc.8f.c2
IsilonX210-S19-1:       status: active

Extra informatie

Se uma interface for exibida como inativa na etapa 3, seu status poderá ser desconsiderado, pois poderá ser exibida como mestre.   

Se houver vários nós principais do OpenSM por switch e os nós principais adicionais não forem devido a uma placa de interface de rede (NIC) inativa, entre em contato com o suporte técnico do PowerScale.

Se não houver nenhum mestre OpenSM, confirme se não há outros dispositivos fisicamente conectados ao switch que não façam parte do cluster.  Isso inclui os nós que são ligados se não tiverem sido adicionados ao cluster ou removidos dele.  Se não houver conexões adicionais no fabric InfiniBand, o switch pode ter assumido o papel de mestre.

Quando configurada de maneira ideal, a principal sub-rede designada deve ser um nó de cluster, e não um switch IB ou um nó não configurado.

Em casos raros, um switch IB pode ser configurado como sua própria principal sub-rede. Isso pode causar problemas difíceis de diagnosticar. Ou seja, uma interface IB não é exibida, o switch não roteia o tráfego IB corretamente ou até mesmo impede que os nós ingressem no cluster.

Se o switch IB for o principal, entre em contato com o suporte técnico do PowerScale.

Getroffen producten

Isilon Switches

Producten

PowerScale OneFS
Artikeleigenschappen
Artikelnummer: 000004114
Artikeltype: How To
Laatst aangepast: 07 jan. 2026
Versie:  8
Vind antwoorden op uw vragen via andere Dell gebruikers
Support Services
Controleer of uw apparaat wordt gedekt door Support Services.