Cisco MDS: Hosty tracące ścieżki z powodu niestabilności FSPF po uaktualnieniu do wersji 9.4(2a)
Podsumowanie: Klient odnotował martwe ścieżki na hostach z systemem Windows oraz Devloss na hostach z systemem Linux po aktualizacji systemu NX-OS do wersji 9.4(2a).
Objawy
Po uaktualnieniu systemu NX-OS do wersji 9.4(2a) na przełączniku Cisco Multilayer Directional Switch (MDS) 9700 z nadzorcą-1 (pokazanym jako Supervisor-3) wiele hostów wielokrotnie traci ścieżki do celów.
Przykład systemu Linux:Dec 6 03:10:48 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480260 Data: x0 x8 x3<SNIP>Dec 6 13:36:15 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480280 Data: x0 x8 x4
Przykład dla systemu Windows:Level Date and Time Source Event ID Task Category Error 15/12/2024 06:42 EmcpMpx 106 None Bus 0 to Symmetrix <Serial # > port FA <FA #> is dead.
Problem był związany z okresowym wycofywaniem się routingu LSR (Link State Routing) FSPF (Fabric Shortest Path First). Można to zobaczyć po wynikach wewnętrznych zdarzeń historii zdarzeń show fspf.
Przykład:show fspf internal event-history2024 Dec 15 09:15:11.373275: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:51:08.739300: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:27:06.765770: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:03:03.432829: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:39:01.112629: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:14:56.583576: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 06:50:52.527478: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age
Czasomierz MAX_AGE to 60 minut, a czasomierz odświeżania to 30 minut. Powyższy przykład pokazuje, że te LSR starzeją się po około 24 minutach zamiast 60. Dzieje się tak, zanim będzie można je odświeżyć.
Przedstawione powyżej 24-minutowe odstępy czasu mogą się różnić.
Innym objawem jest to, że liczba przesyłanych i odbieranych hello FSPF jest znacznie niezgodna:
Pokaż interfejs FSPFFSPF interface port-channel6 in VSAN 1FSPF routing administrative state is activeInterface cost is 3Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULL Neighbor Domain Id is 0x54(84)Neighbor Interface is port-channel6 (0x00040005 )
Liczniki statystyk:
Number of packets received : LSU 4133 LSA 4133 Hello 104919 Error packets 0 Number of packets transmitted : LSU 9482 LSA -139208775 Hello 278675 Retransmitted LSU 1 Number of times inactivity timer expired for the interface = 0
Ten przełącznik przesłał 2,65 razy więcej funkcji powitania niż to, co odebrał. Jest to spowodowane wygaśnięciem czasomierza funkcji FSPF Hello przed przekroczeniem prawidłowej wartości 20 sekund.
Czasomierze FSPF nie wygasają w odpowiednich odstępach czasu, co prowadzi do problemów wymienionych powyżej.
Przykład przesyłanych lub odbieranych komunikatów hello w dobrej kondycji: MDS# show fspf interfaceFSPF interface port-channel3 in VSAN 1FSPF routing administrative state is activeInterface cost is 62Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULLNeighbor Domain Id is 0xe8(232)Neighbor Interface is port-channel3 (0x00040002 )
Liczniki statystyk:
Number of packets received : LSU 4144 LSA 4144 Hello 372794 Error packets 0 Number of packets transmitted : LSU 4146 LSA 0 Hello 372813 Retransmitted LSU 0 Number of times inactivity timer expired for the interface = 0
Przyczyna
Ten problem może wystąpić w systemie MDS 9700 z nadzorcą-1 lub nadzorcą-1E (zwanym również nadzorcą-3) podczas korzystania z systemu NX-OS 9.4(2), 9.4(2a) lub 9.4(3). Wydaje się, że prawdopodobieństwo wystąpienia tego zjawiska jest stosunkowo niskie.
Firma Cisco utworzyła następujący błąd:
CSCwn58100:Hosty tracące ścieżki z powodu niestabilności FSPF z powodu osiągnięcia maksymalnego wieku LSR po aktualizacji do wersji 9.4(2a)
Więcej informacji można znaleźć tutaj:
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCwn58100 [bst.cloudapps.cisco.com]
Rozwiązanie
Rozwiązanie: Kod uaktualnienia do wersji NX-OS 9.4.3a.
Obejście problemu: Skontaktuj się z pomocą techniczną firmy Dell w celu uzyskania obejścia problemu, które nie spowoduje zakłócenia pracy. obsługa obejmie Cisco TAC.