ECS:系统检测到交换机问题
Summary: 如果我收到通知我系统检测到交换机问题的电子邮件警报,我可以检查什么?
Instructions
如果警报中报告的交换机是默认戴尔交换机且已替换为自定义交换机:回复电子邮件中的表单,说明需要帮助将更换的交换机从 xDoctor 警报中过滤出来。
第 2 代默认交换机是 Turtle、Rabbit 和 Hare。
第 3 代默认交换机是 Rabbit、Hare、Fox 和 Hound。
如果没有,则继续进行以下四项检查。
-
尝试对警报中报告的交换机执行 ping 操作。我们应该看到 ping 成功。但是,在下面的示例中,ping 不起作用。
admin@node1:~> ping -c 1 rabbit.rack PING rabbit.rack (xxx.xxx.xxx.xxx) 56(84) bytes of data. From provo.rack (xxx.xxx.xxx.xxx) icmp_seq=1 Destination Host Unreachable --- rabbit.rack ping statistics --- 1 packets transmitted, 0 received, +1 errors, 100% packet loss, time 0ms
-
尝试通过 ssh 连接到警报中的交换机。如果 ssh 有效,我们应该到达密码提示。但是,在下面的示例中,ssh 不起作用。
admin@node1:~> ssh rabbit.rack ssh: connect to host rabbit.rack port 22: No route to host
-
检查链路层发现协议 (LLDP) 中的连接。
假设没有自定义开关:
第 2 代系统应具有 Turtle、Rabbit 和 Hare 交换机。
第 3 代系统应具有 Rabbit、Hare、Fox 和 Hound 交换机。下面的示例显示了缺少 rabbit 的第 2 代系统。
admin@node1:~> sudo lldpcli show neighbors ------------------------------------------------------------------------------- LLDP neighbors: ------------------------------------------------------------------------------- Interface: private, via: LLDP, RID: 1, Time: 35 days, 16:09:52 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: turtle SysDescr: Arista Networks EOS version 4.15.6M running on an Arista Networks DCS-7048T-A MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet1 PortDescr: Nile Node01 (Data) TTL: 120 ------------------------------------------------------------------------------- Interface: slave-1, via: LLDP, RID: 2, Time: 35 days, 16:09:48 Chassis: ChassisID: mac xx:xx:xx:xx:xx:xx SysName: hare SysDescr: Arista Networks EOS version 4.16.6M running on an Arista Networks DCS-7150S-24 MgmtIP: xxx.xxx.xxx.xxx Capability: Bridge, on Capability: Router, off Port: PortID: ifname Ethernet9 PortDescr: MLAG group 1 TTL: 120 ------------------------------------------------------------------------------- -
-
在第 2 代系统上,turtle 是管理交换机。如果可以通过 ssh 连接到 turtle,则通过运行以下三个命令检查 rabbit 和 hare 交换机的连接状态。
# ssh turtle.rack # en # show interfaces status | grep Mgmt
我们应该看到两个交换机都标记为连接。然而,在下面的示例中,我们可以看到其中一个连接被标记为 notconnect。
admin@node1:~> ssh turtle.rack Password: Last login: Wed Nov 27 23:08:48 2019 from xxx.xxx.xxx.xxx turtle>en turtle#show interfaces status | grep Mgmt Et49 Mgmt Port-Secondary 10Ge switch connected 2 a-full a-1G 1000BASE-T Et50 Mgmt Port-Primary 10Gbe switch notconnect 2 auto auto 1000BASE-T
-
在第 3 代系统上,fox 和 hound 都是管理交换机,但 fox 管理到 rabbit 和 hare 的管理链路。如果可以通过 ssh 连接到 fox,则通过运行以下两个命令检查 rabbit 和 hare 交换机的连接状态。
# ssh fox.rack # show interfaces status | grep MGMT
我们应该看到两个开关都标记为 up。然而,在下面的示例中,我们可以看到 hare 连接已关闭。
admin@node1:~> ssh fox.rack fox# show interface status | grep MGMT Eth 1/1/33 Rabbit MGMT up 1000M full A 2 - Eth 1/1/35 Hare MGMT down 0 full A 2 -
-
-
如果上述任何检查失败,请回复电子邮件中需要帮助的表单,包括上面收集的输出。
这些检查的失败状态包括:
- Ping 不起作用。
- SSH 不起作用。
- LLDP 中缺少交换机。
- 管理交换机报告 notconnect/down 连接。
如果所有检查都通过,则这可能是错误警报或由预期的站点维护之类的原因引起。如果此警报重复出现并且所有检查仍然通过,请回复电子邮件中关于需要间歇换机警报帮助的表单。