ECS: Il sistema ha rilevato un problema allo switch
Summary: Cosa posso controllare se ricevo un avviso via e-mail che mi informa che il sistema ha rilevato un problema allo switch?
Instructions
Se lo switch indicato nell'avviso è uno switch Dell predefinito che è stato sostituito con uno switch personalizzato: Rispondere al modulo presente nell'e-mail indicando che è necessaria assistenza per filtrare gli avvisi dello switch sostituito da xDoctor.
Gli switch predefiniti Gen2 sono Turtle, Rabbit e Hare.
Gli switch predefiniti Gen3 sono Rabbit, Hare, Fox e Hound.
In caso contrario, procedere con i quattro controlli seguenti.
-
Tentare di eseguire il ping dello switch indicato nell'avviso. Dovremmo assistere a un ping riuscito. Nell'esempio seguente, tuttavia, il ping non funziona.
admin@node1:~> ping -c 1 rabbit.rack PING rabbit.rack (xxx.xxx.xxx.xxx) 56(84) bytes of data. From provo.rack (xxx.xxx.xxx.xxx) icmp_seq=1 Destination Host Unreachable --- rabbit.rack ping statistics --- 1 packets transmitted, 0 received, +1 errors, 100% packet loss, time 0ms
-
Tentare di accedere tramite SSH allo switch nell'avviso. Se ssh funziona, dovremmo ricevere un prompt per la password. Nell'esempio seguente, tuttavia, ssh non funziona.
admin@node1:~> ssh rabbit.rack ssh: connect to host rabbit.rack port 22: No route to host
-
Verificare la connessione nel Link Layer Discovery Protocol (LLDP).
Supponendo che non siano presenti switch personalizzati:
Un sistema Gen 2 dovrebbe avere switch Turtle, Rabbit e Hare.
Un sistema Gen 3 dovrebbe avere gli switch Rabbit, Hare, Fox e Hound.Esempio riportato di seguito per un sistema Gen2 in cui manca il coniglio.
admin@node1:~> sudo lldpcli show neighbors ------------------------------------------------------------------------------- LLDP neighbors: ------------------------------------------------------------------------------- Interface: private, via: LLDP, RID: 1, Time: 35 days, 16:09:52 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: turtle SysDescr: Arista Networks EOS version 4.15.6M running on an Arista Networks DCS-7048T-A MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet1 PortDescr: Nile Node01 (Data) TTL: 120 ------------------------------------------------------------------------------- Interface: slave-1, via: LLDP, RID: 2, Time: 35 days, 16:09:48 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: hare SysDescr: Arista Networks EOS version 4.16.6M running on an Arista Networks DCS-7150S-24 MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet9 PortDescr: MLAG group 1 TTL: 120 ------------------------------------------------------------------------------- -
-
Nei sistemi Gen2, turtle è lo switch di gestione. Se è possibile eseguire l'ssh su turtle, controllare lo stato della connessione agli switch rabbit e hare eseguendo i tre comandi seguenti.
# ssh turtle.rack # en # show interfaces status | grep Mgmt
Dovremmo vedere che entrambi gli switch contrassegnati come connect. Nell'esempio seguente, tuttavia, è possibile notare che una delle connessioni è contrassegnata come notconnect.
admin@node1:~> ssh turtle.rack Password: Last login: Wed Nov 27 23:08:48 2019 from xxx.xxx.xxx.xxx turtle>en turtle#show interfaces status | grep Mgmt Et49 Mgmt Port-Secondary 10Ge switch connected 2 a-full a-1G 1000BASE-T Et50 Mgmt Port-Primary 10Gbe switch notconnect 2 auto auto 1000BASE-T
-
Nei sistemi Gen3, fox e hound sono entrambi switch di gestione, ma fox gestisce i link di gestione a rabbit e hare. Se è possibile eseguire l'ssh su fox, controllare lo stato della connessione agli switch rabbit e hare eseguendo i due comandi seguenti.
# ssh fox.rack # show interfaces status | grep MGMT
Entrambi gli switch dovrebbero essere contrassegnati come attivi. Nell'esempio seguente, tuttavia, possiamo vedere che la connessione della lepre è inattiva.
admin@node1:~> ssh fox.rack fox# show interface status | grep MGMT Eth 1/1/33 Rabbit MGMT up 1000M full A 2 - Eth 1/1/35 Hare MGMT down 0 full A 2 -
-
-
Se uno dei controlli di cui sopra ha esito negativo, rispondere al modulo nell'e-mail indicando che è necessaria assistenza, includendo gli output raccolti sopra.
Gli stati di errore per questi controlli sono:
- Il ping non funziona.
- SSH non funziona.
- Lo switch non è presente in LLDP.
- Lo switch di gestione segnala una connessione notconnect/down.
Se tutti i controlli vengono superati, potrebbe trattarsi di un falso avviso o causato da qualcosa come la manutenzione prevista del sito. Se l'avviso si ripete e tutti i controlli non vengono superati, rispondere al modulo nell'e-mail indicando che è necessaria assistenza in caso di avviso di switch intermittente.