ECS: System wykrył problem z przełącznikiem
Summary: Co mogę sprawdzić, jeśli otrzymam alert e-mail z informacją, że system wykrył problem z przełącznikiem?
Instructions
Jeśli przełącznik zgłoszony w alercie jest domyślnym przełącznikiem firmy Dell, który został zastąpiony przełącznikiem niestandardowym: Odpowiedz na formularz w wiadomości e-mail, że wymagana jest pomoc przy filtrowaniu wymienionego przełącznika poza alertami xDoctor.
Domyślne przełączniki Gen2 to Turtle, Rabbit i Hare.
Domyślne przełączniki Gen3 to Rabbit, Hare, Fox i Hound.
Jeśli nie, należy wykonać następujące cztery czynności kontrolne.
-
Spróbuj wysłać polecenie ping do przełącznika zgłoszonego w alercie. Ping powinien się powiódł. Jednak w poniższym przykładzie polecenie ping nie działa.
admin@node1:~> ping -c 1 rabbit.rack PING rabbit.rack (xxx.xxx.xxx.xxx) 56(84) bytes of data. From provo.rack (xxx.xxx.xxx.xxx) icmp_seq=1 Destination Host Unreachable --- rabbit.rack ping statistics --- 1 packets transmitted, 0 received, +1 errors, 100% packet loss, time 0ms
-
Spróbuj nawiązać połączenie z przełącznikiem w alercie za pomocą protokołu SSH. Jeśli ssh działa, powinniśmy wyświetlić monit o hasło. Jednak w poniższym przykładzie ssh nie działa.
admin@node1:~> ssh rabbit.rack ssh: connect to host rabbit.rack port 22: No route to host
-
Sprawdź połączenie w protokole LLDP (Link Layer Discovery Protocol).
Przy założeniu, że nie ma przełączników niestandardowych:
System Gen 2 powinien być wyposażony w przełączniki Turtle, Rabbit i Hare.
System Gen 3 powinien mieć przełączniki Rabbit, Hare, Fox i Hound.Poniższy przykład dla systemu Gen2, w którym brakuje królika.
admin@node1:~> sudo lldpcli show neighbors ------------------------------------------------------------------------------- LLDP neighbors: ------------------------------------------------------------------------------- Interface: private, via: LLDP, RID: 1, Time: 35 days, 16:09:52 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: turtle SysDescr: Arista Networks EOS version 4.15.6M running on an Arista Networks DCS-7048T-A MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet1 PortDescr: Nile Node01 (Data) TTL: 120 ------------------------------------------------------------------------------- Interface: slave-1, via: LLDP, RID: 2, Time: 35 days, 16:09:48 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: hare SysDescr: Arista Networks EOS version 4.16.6M running on an Arista Networks DCS-7150S-24 MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet9 PortDescr: MLAG group 1 TTL: 120 ------------------------------------------------------------------------------- -
-
W systemach Gen2 przełącznikiem zarządzającym jest turtle. Jeśli możliwe jest użycie protokołu ssh do żółwia, sprawdź stan połączenia z przełącznikami królika i zająca, uruchamiając poniższe trzy polecenia.
# ssh turtle.rack # en # show interfaces status | grep Mgmt
Powinniśmy zobaczyć, że oba przełączniki są oznaczone jako connect. W poniższym przykładzie widzimy jednak, że jedno z połączeń jest oznaczone jako notconnect.
admin@node1:~> ssh turtle.rack Password: Last login: Wed Nov 27 23:08:48 2019 from xxx.xxx.xxx.xxx turtle>en turtle#show interfaces status | grep Mgmt Et49 Mgmt Port-Secondary 10Ge switch connected 2 a-full a-1G 1000BASE-T Et50 Mgmt Port-Primary 10Gbe switch notconnect 2 auto auto 1000BASE-T
-
W systemach Gen3 fox i hound są przełącznikami zarządzającymi, ale fox zarządza łączami zarządzania do rabbit i hare. Jeśli możliwe jest połączenie ssh z foxem, sprawdź stan połączenia z przełącznikami rabbit i hare, uruchamiając poniższe dwa polecenia.
# ssh fox.rack # show interfaces status | grep MGMT
Powinniśmy zobaczyć, że oba przełączniki są oznaczone jako włączone. Jednak w poniższym przykładzie widzimy, że połączenie zająca nie działa.
admin@node1:~> ssh fox.rack fox# show interface status | grep MGMT Eth 1/1/33 Rabbit MGMT up 1000M full A 2 - Eth 1/1/35 Hare MGMT down 0 full A 2 -
-
-
Jeśli którakolwiek z powyższych kontroli zakończy się niepowodzeniem, należy odpowiedzieć na formularz w wiadomości e-mail, że wymagana jest pomoc, w tym dane wyjściowe zebrane powyżej.
Stany niepowodzenia dla tych kontroli to:
- Ping nie działa.
- SSH nie działa.
- Brak przełącznika w LLDP.
- Przełącznik zarządzający zgłasza połączenie notconnect/down.
Jeśli wszystkie kontrole zakończą się pomyślnie, może to być fałszywy alarm lub spowodowany czymś w rodzaju oczekiwanej konserwacji witryny. Jeśli ten alert się powtarza, a wszystkie kontrole nadal kończą się pomyślnie, odpowiedz na formularz w wiadomości e-mail, że wymagana jest pomoc, wysyłając sporadyczny alert o przełączeniu.