PowerFlex:頻繁的 MDM 中斷連線
Summary: PowerFlex 元件 (例如 MDM) 會快速且頻繁地中斷連線再重新連線。 連線中斷,但在 MDM 事件中找到已連線 80-190 毫秒後連線
Instructions
症狀
MDM 事件記錄顯示 MDM 元件頻繁中斷連線和重新連線:
2023-xx-xx 00:00:21.316 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:21.419 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 100ms 2023-xx-xx 00:00:23.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:23.584 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 110ms
從中斷連線的 MDM 伺服器發出的 Sar 輸出顯示高 TCP 重新傳輸:
sar -n ETCP 1 -t -f sar.0
atmptf/s estres/s retrans/s isegerr/s orsts/s
00:00:27 AM 0.00 0.00 62.00 0.00 0.00
00:00:28 AM 0.00 0.00 88.12 0.00 0.00
00:00:29 AM 0.00 3.00 100.00 0.00 0.00
00:00:30 AM 0.00 0.00 71.29 0.00 0.00
00:00:31 AM 0.00 0.00 71.00 0.00 0.00
...
00:01:02 AM 0.00 0.00 48.51 0.00 0.00
00:01:03 AM 0.00 0.00 15.00 0.00 0.00
00:01:04 AM 0.00 0.00 207.00 0.00 0.00
00:01:05 AM 0.00 0.00 36.00 0.00 0.00
00:01:06 AM 0.00 0.99 105.94 0.00 0.00
影響
簡短的 MDM 叢集降級事件
效能降低
根本原因
MDM 伺服器已修補,Linux 核心已從 3.x 升級至 5.x。此核心升級會將許多預設作業系統參數變更為不同的值。在這種情況下,TCP 參數“net.ipv4tcp_fack”被禁用等,但這個參數似乎導致了高 TCP 重新傳輸。
SDS RPM 在 /opt/emc/scaleio/sds/cfg/ 目錄中提供名為 emc.conf 的組態檔案。此檔案包含許多 Dell 建議的作業系統參數。
如果這是 PowerFlex 機架/裝置環境,PowerFlex Manager 會自動將 emc.conf 檔案從 「/opt/emc/scaleio/sds/cfg」 複製到每個伺服器的 systcl.conf 並套用。這只會在初始節點部署時發生。sysctl.conf 可能未正確更新。如果 sysctl.conf 檔案沒有正確的值,則在核心升級至 5.x 後,某些重要參數可能會變更。
因應措施
在 PowerFlex 機架/裝置環境中,如果 sysctl.conf 未包含 emc.conf 擁有的所有參數,建議您將 emc.conf 複製到每個伺服器 /etc/sysctl.conf 檔案中。在伺服器上應用更改。伺服器可以重新開機,也可以執行命令「sysctl -p」來套用 /etc/sysctl.conf 的變更。進行這些變更時,請確定已採取適當的維護最佳實務。
在純軟體環境中,Dell Technologies 建議將這些 Linux 參數套用至每個伺服器,但最終還是要由業務來決定。請諮詢作業系統廠商以取得最佳實務,或是在有任何問題的情況下。
受影響的版本
所有 PowerFlex 版本