Cisco MDS:升級至 9.4(2a) 後,主機因 FSPF 不穩定而遺失路徑
摘要: 在 NX-OS 升級至版本 9.4(2a) 後,客戶注意到 Windows 主機上的死路徑和 Linux 主機上的 Devloss。
症狀
在搭載 Supervisor-1 (顯示為 Supervisor-3) 的 Cisco 多層定向交換器 (MDS) 9700 上升級至 NX-OS 版本 9.4(2a) 後,許多主機會重複遺失通向目標的路徑。
Linux 範例:Dec 6 03:10:48 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480260 Data: x0 x8 x3<SNIP>Dec 6 13:36:15 Hostname kernel: lpfc 0000:09:00.1: 1:(0):0203 Devloss timeout on WWPN 50:xx:xx:xx:xx:xx:xx:xx NPort x480280 Data: x0 x8 x4
Windows 範例:Level Date and Time Source Event ID Task Category Error 15/12/2024 06:42 EmcpMpx 106 None Bus 0 to Symmetrix <Serial # > port FA <FA #> is dead.
問題追蹤到光纖最短路徑優先 (FSPF) 連結狀態路由 (LSR) 定期老化。這可以從 show fspf 內部事件歷程記錄事件的輸出結果中看出。
範例:show fspf internal event-history2024 Dec 15 09:15:11.373275: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:51:08.739300: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:27:06.765770: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 08:03:03.432829: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:39:01.112629: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 07:14:56.583576: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age 2024 Dec 15 06:50:52.527478: E_DEBUG [105] fspf [8639]: LSR 84 in VSAN 552 reached Max Age
MAX_AGE計時器為 60 分鐘,刷新計時器為 30 分鐘。上面的示例顯示這些 LSR 在大約 24 分鐘而不是 60 分鐘時老化。這是在它們可以刷新之前。
如上所示的 24 分鐘間隔可能會有所不同。
另一個症狀是傳送和接收的 FSPF Hello 數量嚴重不相符:
顯示 FSPF 介面FSPF interface port-channel6 in VSAN 1FSPF routing administrative state is activeInterface cost is 3Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULL Neighbor Domain Id is 0x54(84)Neighbor Interface is port-channel6 (0x00040005 )
統計計數器:
Number of packets received : LSU 4133 LSA 4133 Hello 104919 Error packets 0 Number of packets transmitted : LSU 9482 LSA -139208775 Hello 278675 Retransmitted LSU 1 Number of times inactivity timer expired for the interface = 0
與收到的 Hellos 相比,此開關已傳輸 2.65 倍。這是因為 FSPF Hello 計時器在正確的 20 秒值之前到期。
所有 FSPF 計時器皆未以正確的間隔到期,導致發生上述問題。
已傳輸或接收的健康 Hellos 範例: MDS# show fspf interfaceFSPF interface port-channel3 in VSAN 1FSPF routing administrative state is activeInterface cost is 62Timer intervals configured, Hello 20 s, Dead 80 s, Retransmit 5 sFSPF State is FULLNeighbor Domain Id is 0xe8(232)Neighbor Interface is port-channel3 (0x00040002 )
統計計數器:
Number of packets received : LSU 4144 LSA 4144 Hello 372794 Error packets 0 Number of packets transmitted : LSU 4146 LSA 0 Hello 372813 Retransmitted LSU 0 Number of times inactivity timer expired for the interface = 0
原因
在執行 NX-OS 9.4(2)、9.4(2a) 或 9.4 (3) 時,在具有監管程式-1 或監管程式-1E (也稱為監管程式-3) 的 MDS 9700 上,可能會發生此問題。這似乎是一個相對較低的發生概率。
Cisco 建立下列錯誤:
CSCwn58100:主機因 FSPF 不穩定而遺失路徑,因為 LSR 在升級至 9.4 後達到最長使用年限 (2a)
如需詳細資訊,請參閱此處
:https://bst.cloudapps.cisco.com/bugsearch/bug/CSCwn58100 [bst.cloudapps.cisco.com]
解析度
修正:將程式碼升級至 NX-OS 9.4.3a。
因應措施:請聯絡 Dell 支援以取得不中斷的因應措施;支援人員將聯絡 Cisco TAC。