ECS: O sistema detectou um problema no switch
Summary: O que posso verificar se receber um alerta por e-mail informando que o sistema detectou um problema no switch.
Instructions
Se o switch relatado no alerta for um switch padrão da Dell que foi substituído por um switch personalizado: Responda ao formulário no e-mail que é necessária assistência para filtrar o switch substituído do alerta do xDoctor.
Os switches padrão da 2ª geração são Turtle, Rabbit e Hare.
Os switches padrão da 3ª geração são Rabbit, Hare, Fox e Hound.
Caso contrário, prossiga com as quatro verificações a seguir.
-
Tente executar ping no switch informado no alerta. Devemos ver o ping ter sucesso. No exemplo abaixo, no entanto, o ping não funciona.
admin@node1:~> ping -c 1 rabbit.rack PING rabbit.rack (xxx.xxx.xxx.xxx) 56(84) bytes of data. From provo.rack (xxx.xxx.xxx.xxx) icmp_seq=1 Destination Host Unreachable --- rabbit.rack ping statistics --- 1 packets transmitted, 0 received, +1 errors, 100% packet loss, time 0ms
-
Tente ativar o SSH para o switch no alerta. Devemos chegar a um prompt de senha se o ssh funcionar. No exemplo abaixo, no entanto, o SSH não funciona.
admin@node1:~> ssh rabbit.rack ssh: connect to host rabbit.rack port 22: No route to host
-
Verifique a conexão no Link Layer Discovery Protocol (LLDP).
Supondo que não haja switches personalizados:
Um sistema de 2ª geração deve ter switches Turtle, Rabbit e Hare.
Um sistema de 3ª geração deve ter switches Rabbit, Hare, Fox e Hound.Exemplo abaixo para um sistema Gen2 em que o rabbit está ausente.
admin@node1:~> sudo lldpcli show neighbors ------------------------------------------------------------------------------- LLDP neighbors: ------------------------------------------------------------------------------- Interface: private, via: LLDP, RID: 1, Time: 35 days, 16:09:52 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: turtle SysDescr: Arista Networks EOS version 4.15.6M running on an Arista Networks DCS-7048T-A MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet1 PortDescr: Nile Node01 (Data) TTL: 120 ------------------------------------------------------------------------------- Interface: slave-1, via: LLDP, RID: 2, Time: 35 days, 16:09:48 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: hare SysDescr: Arista Networks EOS version 4.16.6M running on an Arista Networks DCS-7150S-24 MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet9 PortDescr: MLAG group 1 TTL: 120 ------------------------------------------------------------------------------- -
-
Nos sistemas de 2ª geração, a tartaruga é o switch de gerenciamento. Se for possível executar o SSH para a tartaruga, verifique o status da conexão com os switches rabbit e hare executando os três comandos abaixo.
# ssh turtle.rack # en # show interfaces status | grep Mgmt
Devemos ver que ambos os switches marcados como connect. No exemplo abaixo, no entanto, podemos ver que uma das conexões está marcada como notconnect.
admin@node1:~> ssh turtle.rack Password: Last login: Wed Nov 27 23:08:48 2019 from xxx.xxx.xxx.xxx turtle>en turtle#show interfaces status | grep Mgmt Et49 Mgmt Port-Secondary 10Ge switch connected 2 a-full a-1G 1000BASE-T Et50 Mgmt Port-Primary 10Gbe switch notconnect 2 auto auto 1000BASE-T
-
Em sistemas Gen3, fox, e hound são ambos switches de gerenciamento, mas fox gerencia os links de gerenciamento para rabbit e hare. Se for possível executar ssh para fox, verifique o status da conexão com os switches rabbit e hare executando os dois comandos abaixo.
# ssh fox.rack # show interfaces status | grep MGMT
Devemos ver os dois switches marcados como ativos. No exemplo abaixo, no entanto, podemos ver que a conexão hare está inativa.
admin@node1:~> ssh fox.rack fox# show interface status | grep MGMT Eth 1/1/33 Rabbit MGMT up 1000M full A 2 - Eth 1/1/35 Hare MGMT down 0 full A 2 -
-
-
Se qualquer uma das verificações acima falhar, responda ao formulário no e-mail que a assistência é necessária, incluindo os resultados coletados acima.
Os estados de falha dessas verificações são:
- O ping não funciona.
- O SSH não funciona.
- O switch está ausente no LLDP.
- O switch de gerenciamento relata uma conexão notconnect/inativa.
Se todas as verificações forem aprovadas, isso pode ser um alerta falso ou causado por algo como a manutenção esperada do local. Se esse alerta se repetir e todas as verificações ainda estiverem em andamento, responda ao formulário no e-mail que a assistência é necessária com um alerta de interruptor intermitente.