Cisco MDS 交換器:主機在分區啟動時遺失 VPLEX 前端 (FE) 連接埠的路徑
Podsumowanie: 在分區域啟動時,所有分區至 VPLEX 前端連接埠 HBA 都已登出,並遺失路徑。ESX 主機可能會當機並需要重新開機才能還原。[Scott - 這只會影響主機 ESX 嗎?摘要說明「所有分區至 VPLEX 的 HBA」,我們是否要將其只限制在 ESX 主機,或改寫為「主機可能會當機並需要重新開機才能還原?」]
Objawy
主機遺失路徑。
[備註 - Scott 也參閱摘要中的備註]
ESX 主機當機並需要重新開機才能還原。[Scott 只有 ESX 主機可能會當機嗎?摘要說明「分區至 VPLEX 的所有 HBA」]
從 ESXi「vmkernel」記錄:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 從 NPORT x1f04c0 收到不明 ELS 命令 x7f26e705
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 從 NPORT x1f04c0 收到不明 ELS 命令 x7effc405
來自 VPLEX 韌體記錄:
事件 fc/4: 「此連接埠已探索到指定的連接埠從光纖離開。」
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65:fc/4 A0-FC02.0:連接埠 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (速度 <光纖不支援>) 已離開
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP 連線已中斷。IT:[Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)] [Scott - 回到「分區至 VPLEX 的所有 HBA」問題」,如果此 cisco 問題影響分區至 VPLEX 的所有 HBA,是否要在 fw 記錄中顯示其他主機離開的報告? 我們是否會看到其他離開的主機與上述 esx 主機相同?]
事件 fc/3:「此連接埠已探索到指定的連接埠抵達光纖。」
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66:fc/3 A0-FC02.0:連接埠 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (速度 <光纖不支援>) 已抵達
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP 連線已建立。 IT:[Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott:其他已看到 HBA 的此資料是否也已抵達?]
變更:
分區啟動。
HBA 連接埠和 VPLEX 前端連接埠並未涉入分區變更。
[Scott - 最後一句沒有意義,我瞭解的問題在於當 cisco 交換器上有分區集啟動時,所有 HBA 和 VPLEX FE 連接埠都有涉入。此外,這會影響哪個 Cisco 交換器程式碼層級?]
Przyczyna
VPLEX 每 90 秒在所有 Fibre Channel 連接埠 (前端、後端和 FC-WANCOM) 上執行光纖探索,並使用「Get all next」(GA_NXT) 名稱伺服器命令來執行。它會在已分區 HBA 的交換器或 PLOGI 接收到 RSCN 時執行此作業。
由於 Cisco 錯誤 CSCvw75655,如果 VPLEX 正在執行其光纖探索,在前端 (FE) 連接埠上,在分區集啟動/提交進行中時,VPLEX 僅會傳回其自身的 Fibre Channel 位址 (FCID) 的機率很小,因此會假設任何登入其中的 HBA 已不再連線至光纖,並將登出 (PLOGO) 傳送給其分區的每個 HBA。[Scott - VPLEX 及/或交換器記錄是否顯示發生此動作,也就是送出 PLOGO,如果兩個產品都能看到這種情況,我們是否可以包含其範例,以及是從哪個記錄看到此情況?]
當 VPLEX 從交換器名稱伺服器接收到正確的資訊時,VPLEX 會在下一個 90 秒的光纖探索中為它所登出的每個 HBA 記錄 fc/4 事件和 fc/3 事件。
HBA 處理此登入的方式將取決於其驅動程式/韌體。此範例中的 ESX 主機當機並需要重新開機。[Scott - 我們是否有受此事件影響的其他主機的記錄資料?如果有,我們是否可以列出部分的情況,因此不會看起來只有 ESX 主機受到影響?]
備註:
定期光纖探索已完成,可確保 VPLEX 已更新光纖資料,因為有可能並非所有 RSCN 都能從光纖存取 VPLEX。
Rozwiązanie
因應措施:
在 Cisco 交換器上停用名稱伺服器/分區伺服器共用資料庫 (db) 功能,如下所示:
備註:分區集共用資料庫功能只是名稱伺服器和分區伺服器共用資訊的效率功能。停用此功能應不會對環境有任何負面影響。
Cisco 已確認變更為本機變更,而非全域變更。此命令應在已連接 VPLEX 的每台交換器上執行。[Scott - 是否有 Cisco KB 討論此問題,讓我們可在此 KBA 中參考?]
修正:
NX-OS 8.4(2c)。Dell EMC 尚未提供此版本。
[Scott - 我們無法列出 Dell EMC 尚未提供的修正,一旦有提供,請重貼此 KBA 以供檢閱並移除本句「Dell EMC 尚未提供此版本」]
Dodatkowe informacje
產品 (1)
Cisco MDS 9000 NX-OS 和 SAN 作業系統軟體
已知受影響的版本
8.3(2)
VPLEX 光纖探索
範例:
主機 1、主機 2 和主機 3 已將分區設為單一 VPLEX FE 連接埠。
VPLEX FE 連接埠:FCID 0x200b20
主機 1:FCID 0x340000
主機 2:FCID 0x340020
主機 3:FCID 0x340040
運作中...[Scott - 這是什麼?是從資訊取得/複製?如果是這樣,我們可以移除「工作中...」資訊]
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含「0xffffff」的 Fibre Channel 位址 (FCID) (最高)
- 名稱伺服器將回覆 VPLEX FE 連接埠的詳細資訊 (最低)
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含 VPLEX FE 連接埠的 Fibre Channel 位址 (FCID)
- 名稱伺服器將回覆主機 1 的詳細資訊
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含主機 1 的 Fibre Channel 位址 (FCID)
- 名稱伺服器將回覆主機 2 的詳細資訊
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含主機 2 的 Fibre Channel 位址 (FCID)
- 名稱伺服器將回覆主機 3 的詳細資訊
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含主機 3 的 Fibre Channel 位址 (FCID)
- 名稱伺服器將回覆 VPLEX FE 連接埠的詳細資訊
- VPLEX 會在這裡停止,因為它已收到已探索到的自身 Fibre Channel 位址 (FCID) (重新交叉)
Cisco 錯誤 CSCvw75655 ...
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含「0xffffff」的 Fibre Channel 位址 (FCID) (最高)
- 名稱伺服器將回覆 VPLEX FE 連接埠的詳細資訊 (最低)
- VPLEX 將會傳送「Get all next」命令至名稱伺服器,含 VPLEX FE 連接埠的 Fibre Channel 位址 (FCID)
- 名稱伺服器將回覆 VPLEX FE 連接埠的詳細資訊
- VPLEX 會在這裡停止,因為它已收到已探索到的自身 Fibre Channel 位址 (FCID) (重新交叉)
其他有關錯誤 CSCvw75655 的修正詳細資料,已新增至 NX-OS 8.4(2c)。
有關導致此錯誤原因的提示:
當目標裝置發出 FCNS GA_NXT 命令,且只會收到自己的 FCID 後,就會發生此問題,表示它並未與任何其他裝置進行分區。某些目標裝置會定期發出這些 GA_NXT;它們不是由 RSCN 或其他 simulus 驅動,因此會受到此問題的影響。
原因是在分區集啟動/提交進行中時,只有一小段時間讓 FCNS 在 GA_NXT 回覆中僅傳回發出者的 FCID,而不會將其分區內其他項目傳回。這是分區集共用資料庫功能的結果,已在 Cisco MDS NX-OS 7.3(0)D1(1) 中執行。
這是 Cisco 的修正說明:
會清除 SDB 的停用觸發是啟動的一部分。清除 SDB 時,它會將通知傳送給所有訂閱者。現在未完成此作業。此外,已新增新的順序,它會單獨傳送 SDB 提交通知。這將會建立 SDB 的分區,並傳送一個最終通知
只有版本 8.4(2c) 中有修正功能。
SDB = 分區集共用資料庫。