PowerFlex:频繁的 MDM 断开连接
摘要: PowerFlex 组件(如 MDM)会快速且频繁地断开连接和重新连接。 连接丢失,随后在 MDM 事件中找到连接 80-190 毫秒后连接
说明
症状
显示 MDM 组件频繁断开连接和重新连接的 MDM 事件日志:
2023-xx-xx 00:00:21.316 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:21.419 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 100ms 2023-xx-xx 00:00:23.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:23.584 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 110ms
正在断开连接的 MDM 服务器的 Sar 输出显示高 TCP 重新传输:
sar -n ETCP 1 -t -f sar.0
atmptf/s estres/s retrans/s isegerr/s orsts/s
00:00:27 AM 0.00 0.00 62.00 0.00 0.00
00:00:28 AM 0.00 0.00 88.12 0.00 0.00
00:00:29 AM 0.00 3.00 100.00 0.00 0.00
00:00:30 AM 0.00 0.00 71.29 0.00 0.00
00:00:31 AM 0.00 0.00 71.00 0.00 0.00
...
00:01:02 AM 0.00 0.00 48.51 0.00 0.00
00:01:03 AM 0.00 0.00 15.00 0.00 0.00
00:01:04 AM 0.00 0.00 207.00 0.00 0.00
00:01:05 AM 0.00 0.00 36.00 0.00 0.00
00:01:06 AM 0.00 0.99 105.94 0.00 0.00
影响
简要 MDM 群集降级事件
性能下降
根本原因
MDM 服务器已修补,Linux 内核已从 3.x 升级到 5.x。此内核升级将许多默认作系统参数更改为不同的值。在这种情况下,TCP参数“net.ipv4tcp_fack”被禁用,但这个参数似乎导致了高TCP重新传输。
SDS RPM 在 /opt/emc/scaleio/sds/cfg/ 目录中提供名为 emc.conf 的配置文件。此文件包含戴尔提供的许多推荐作系统参数。
如果这是 PowerFlex 机架/设备环境,PowerFlex Manager 会自动将 emc.conf 文件从 “/opt/emc/scaleio/sds/cfg” 复制到每个服务器的 systcl.conf 并应用它。这只会在初始节点部署时发生。sysctl.conf 可能未正确更新。如果不存在具有正确值的 sysctl.conf 文件,则在内核升级到 5.x 后,某些重要参数可能会更改。
解决方法
在 PowerFlex 机架/设备环境中,如果 sysctl.conf 不包括 emc.conf 具有的所有参数,建议将 emc.conf 复制到每个服务器 /etc/sysctl.conf 文件中。在服务器上应用更改。可以重新启动服务器,也可以运行命令“sysctl -p”以应用 /etc/sysctl.conf 中的更改。在进行这些更改时,请确保执行适当的维护最佳实践。
在纯软件环境中,Dell Technologies 建议将这些 Linux 参数应用于每台服务器,但最终由业务决定。有关最佳实践或有任何疑问,请咨询作系统供应商。
受影响的版本
所有 PowerFlex 版本