PowerFlex: Desconexiones frecuentes de MDM
Summary: Los componentes de PowerFlex, como el MDM, se desconectan y se vuelven a conectar de manera rápida y frecuente. Conexión perdida seguida de conexión encontrada en eventos de MDM que se conectan después de 80 a 190 ms ...
Instructions
Síntomas
Registros de eventos de MDM que muestran la desconexión y reconexión frecuentes del componente de MDM:
2023-xx-xx 00:00:21.316 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:21.419 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 100ms 2023-xx-xx 00:00:23.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:23.584 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 110ms
Salida de SAR del servidor MDM que se está desconectando y en la que se muestran altas retransmisiones de TCP:
sar -n ETCP 1 -t -f sar.0
atmptf/s estres/s retrans/s isegerr/s orsts/s
00:00:27 AM 0.00 0.00 62.00 0.00 0.00
00:00:28 AM 0.00 0.00 88.12 0.00 0.00
00:00:29 AM 0.00 3.00 100.00 0.00 0.00
00:00:30 AM 0.00 0.00 71.29 0.00 0.00
00:00:31 AM 0.00 0.00 71.00 0.00 0.00
...
00:01:02 AM 0.00 0.00 48.51 0.00 0.00
00:01:03 AM 0.00 0.00 15.00 0.00 0.00
00:01:04 AM 0.00 0.00 207.00 0.00 0.00
00:01:05 AM 0.00 0.00 36.00 0.00 0.00
00:01:06 AM 0.00 0.99 105.94 0.00 0.00
Impacto
Resumen de eventos degradados del clúster de MDM
Degradación del rendimiento
Causa principal
Se aplicó un parche al servidor MDM y se actualizó el kernel de Linux de 3.x a 5.x. Esta actualización del kernel cambia muchos de los parámetros predeterminados del sistema operativo a valores diferentes. En este caso, el parámetro TCP "net.ipv4tcp_fack" estaba deshabilitado, entre otros, pero este parecía haber causado las altas retransmisiones de TCP.
El RPM de SDS proporciona un archivo de configuración denominado emc.conf en el directorio /opt/emc/scaleio/sds/cfg/. Este archivo incluye muchos parámetros de SO recomendados por Dell.
Si este es un entorno de rack/dispositivo PowerFlex, PowerFlex Manager copiará automáticamente el archivo emc.conf de "/opt/emc/scaleio/sds/cfg" en cada uno de los sistemas systcl.conf del servidor y lo aplicará. Esto solo sucederá en la implementación inicial del nodo. Existe la posibilidad de que sysctl.conf no se haya actualizado correctamente. Si el archivo sysctl.conf no existe con los valores correctos, después de una actualización del kernel a 5.x, es posible que cambien algunos parámetros importantes.
Solución alternativa
En un entorno de rack/dispositivo PowerFlex, si sysctl.conf no incluye todos los parámetros que tiene emc.conf, se recomienda copiar emc.conf en cada archivo /etc/sysctl.conf del servidor. Para aplicar los cambios en el servidor. El servidor se puede reiniciar o se puede ejecutar el comando "sysctl -p" para aplicar los cambios desde /etc/sysctl.conf. Asegúrese de aplicar las prácticas recomendadas de mantenimiento adecuadas cuando realice estos cambios.
En un entorno solo de software, Dell Technologies recomienda que estos parámetros de Linux se apliquen a cada uno de los servidores, pero, en última instancia, depende de la empresa. Consulte con el proveedor del sistema operativo para conocer las prácticas recomendadas o si tiene alguna pregunta.
Versiones afectadas
Todas las versiones de PowerFlex