VxFlex: La inestabilidad de la red del host SDS puede causar falta de disponibilidad de datos
Resumen: El sistema informa una desconexión repetida del SDS y posiblemente errores de I/O que aparecen en los clientes. Revise un problema similar https://www.dell.com/support/kbdoc/en-us/000181511/sds-process-instability-causes-i-o-error ...
Síntomas
2018-05-31 19:22:30.656605 SDS_DISCONNECTED ERROR SDS: sds05 (id: 540fde2500000005) decoupled.
2018-05-31 19:23:10.768550 SDS_IN_COOL_DOWN WARNING SDS: sds05 (ID 540fde2500000005) will disconnect from MDM for 15 seconds because
2018-05-31 19:23:12.668653 SDS_DISCONNECTED ERROR SDS: sds05 (id: 540fde2500000005) decoupled.
2018-05-31 19:23:50.878713 SDS_IN_COOL_DOWN WARNING SDS: sds05 (ID 540fde2500000005) will disconnect from MDM for 15 seconds because
2018-05-31 19:23:52.675536 SDS_DISCONNECTED ERROR SDS: sds05 (id: 540fde2500000005) decoupled.
2018-05-31 19:24:24.107139 SDS_RECONNECTED INFO SDS: sds05 (ID 540fde2500000005) reconnected
2018-05-31 19:24:39.194414 SDS_IN_COOL_DOWN WARNING SDS: sds05 (ID 540fde2500000005) will disconnect from MDM for 15 seconds because
Mensajes de desconexión intermitente en los registros de SDS, similares a los siguientes:
31/05 19:38:32.468959 1e3b8eb8:contNet_OscillationNotif:01675: Con 540fde2500000005 - Oscillation of type 3 (RCV_KA_DISCONNECT) reported
31/05 19:38:32.469047 1e409eb8:contNet_OscillationNotif:01675: Con 540fde2500000005 - Oscillation of type 1 (SOCKET_DOWN) reported
Aparición de mensajes en el nivel del sistema operativo o en el nivel de infraestructura de red o un aumento en los contadores relacionados, lo que indica inestabilidad de la red Los tipos de mensajes y contadores varían considerablemente según el sistema operativo y la infraestructura utilizada. Póngase en contacto con los proveedores de software y hardware correspondientes para obtener detalles y métodos de detección.
Impacto
Potencial de falta de disponibilidad de datos del usuario La probabilidad de falta de disponibilidad de datos aumenta proporcionalmente a la cantidad de tiempo que persiste el problema subyacente.
Causa
Cuando las desconexiones son de corta duración, en ciertos momentos, el SDS alojado en el servidor que experimenta el problema puede informar que otro SDS está desconectado de él, mientras que sus pares no proporcionan un informe similar al mismo tiempo.
En tales circunstancias, el MDM puede decidir degradar partes de los datos, dejando la única copia válida de esas partes en el host defectuoso.
Si el host defectuoso se desconecta completamente de la red, estas partes de los datos no estarán disponibles para las aplicaciones del usuario.
Resolución
- Garantice la redundancia de red para el tráfico de red de SDS a SDS (direcciones IP configuradas como "Todas" o "Solo SDS").
-
Para evitar la falta de disponibilidad de los datos del usuario, monitoree la infraestructura de red en busca de inestabilidad y desconecte los puertos infractores o detenga el SDS alojado mediante la ejecución de lo siguiente:
/opt/emc/scaleio/sds/bin/delete_service.shLa detención del SDS desencadenará una reconstrucción. Cuando se resuelva el problema de red, vuelva a conectar los puertos e inicie el SDS (si se detuvo anteriormente) mediante la ejecución de lo siguiente:
/opt/emc/scaleio/sds/bin/create_service.sh
- En caso de que los datos de usuario no estén disponibles, resuelva el problema de red. Una vez resuelto, se espera que el sistema se recupere automáticamente, lo que hará que los datos del usuario estén disponibles.