Cisco MDS: Värdar förlorar sökvägar på grund av FSPF-instabilitet efter uppgradering till 9.4(2a)
Sammanfattning: Kunden noterade döda sökvägar på Windows-värdar och Devloss på Linux-värdar efter en NX-OS-uppgradering till version 9.4(2a).
Symptom
Efter uppgradering till NX-OS version 9.4(2a) på Cisco Multilayer Directional Switch (MDS) 9700 med Supervisor-1 (visas som Supervisor-3) förlorar många värdar upprepade gånger sökvägar till mål.
Linux-exempel:Dec 6 03:10:48 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480260 Data: x0 x8 x3<SNIP>Dec 6 13:36:15 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480280 Data: x0 x8 x4
Windows-exempel:Level Date and Time Source Event ID Task Category Error 15/12/2024 06:42 EmcpMpx 106 None Bus 0 to Symmetrix <Serial # > port FA <FA #> is dead.
Problemet spårades till att FSPF (Fabric Shortest Path First) LSR (Link State Routing) åldrades med jämna mellanrum. Detta kan ses från utdata från show fspf interna händelsehistorikhändelser.
Exempel:show fspf internal event-history2024 Dec 15 09:15:11.373275: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:51:08.739300: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:27:06.765770: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:03:03.432829: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:39:01.112629: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:14:56.583576: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 06:50:52.527478: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age
Den MAX_AGE timern är 60 minuter och uppdateringstimern är 30 minuter. Exemplet ovan visar att dessa LSR:er åldras vid cirka 24 minuter i stället för 60. Detta är innan de kan uppdateras.
24-minutersintervallet som visas ovan kan variera.
Ett annat symptom är att antalet FSPF Hellos som överförs och tas emot är mycket felmatchat:
Visa FSPF-gränssnittFSPF interface port-channel6 in VSAN 1FSPF routing administrative state is activeInterface cost is 3Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULL Neighbor Domain Id is 0x54(84)Neighbor Interface is port-channel6 (0x00040005 )
Statistikräknare:
Number of packets received : LSU 4133 LSA 4133 Hello 104919 Error packets 0 Number of packets transmitted : LSU 9482 LSA -139208775 Hello 278675 Retransmitted LSU 1 Number of times inactivity timer expired for the interface = 0
Denna switch har överfört 2,65 gånger Hellos jämfört med vad den har fått. Detta beror på att FSPF Hello-timern upphör att gälla före det korrekta värdet på 20 sekunder.
Alla FSPF-timers går inte ut med rätt intervall, vilket leder till de problem som nämns ovan.
Exempel på felfria hälsningar som överförs eller tas emot: MDS# show fspf interfaceFSPF interface port-channel3 in VSAN 1FSPF routing administrative state is activeInterface cost is 62Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULLNeighbor Domain Id is 0xe8(232)Neighbor Interface is port-channel3 (0x00040002 )
Statistikräknare:
Number of packets received : LSU 4144 LSA 4144 Hello 372794 Error packets 0 Number of packets transmitted : LSU 4146 LSA 0 Hello 372813 Retransmitted LSU 0 Number of times inactivity timer expired for the interface = 0
Orsak
Det här problemet kan uppstå på MDS 9700 med Supervisor-1 eller Supervisor-1E (även kallat Supervisor-3) när du kör NX-OS 9.4(2), 9.4(2a) eller 9.4(3). Detta verkar vara en relativt låg sannolikhet för att det ska inträffa.
Cisco skapade följande bugg:
CSCwn58100:Värdar förlorar sökvägar på grund av FSPF-instabilitet på grund av att LSR:er når maxålder efter uppgradering till 9.4(2a)
Mer information finns här:
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCwn58100 [bst.cloudapps.cisco.com]
Upplösning
Korrigering: Uppgradera koden till NX-OS 9.4.3a.
Alternativ lösning: Kontakta Dells support för en avbrottsfri lösning. support kommer att engagera Cisco TAC.