El SDC de PowerFlex registra errores de I/O después de perder la conectividad en una sola NIC
Summary: Es posible que el SDC devuelva errores de I/O a la aplicación cuando pierde la conectividad de una sola NIC en un sistema con varias NIC configuradas para PowerFlex.
Symptoms
Escenario
PowerFlex utiliza varias conexiones para cada componente (por ejemplo, 2 conexiones con la función IP de SDS "All" o cuatro conexiones: 2 para "SDS-only" y 2 para "SDC-only").
El problema se manifiesta cuando se pierde una sola conexión (es decir, después del reinicio de un solo switch, el apagado de una sola NIC, etc.).
No hay DU (capacidad DATA_FAILED) en todo el sistema.
Síntomas
El SDC informa la desconexión de un único (o más) SDS a pesar de tener varias conexiones configuradas:
<6>2021-09-20T06:52:29.617016+00:00 sdc001 kernel: [5965962.215707] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <6>2021-09-20T06:52:29.628748+00:00 sdc001 kernel: [5965962.227665] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <3>2021-09-20T06:52:29.628773+00:00 sdc001 kernel: [5965962.227668] bond-glance: invalid new link 1 on slave eth4.2223 <6>2021-09-20T06:52:30.638572+00:00 sdc001 kernel: [5965963.239669] bond-nfs: link status definitely down for interface eth4.2226, disabling it <6>2021-09-20T06:52:30.662562+00:00 sdc001 kernel: [5965963.263771] bond-migration: link status definitely down for interface eth4.2222, disabling it <6>2021-09-20T06:52:30.662585+00:00 sdc001 kernel: [5965963.263774] bond-migration: making interface eth5.2222 the new active one <6>2021-09-20T06:52:30.670568+00:00 sdc001 kernel: [5965963.271749] bond-glance: link status definitely down for interface eth4.2223, disabling it <3>2021-09-20T06:52:32.600563+00:00 sdc001 kernel: [5965965.175504] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000515dfcb3 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.600587+00:00 sdc001 kernel: [5965965.186972] ScaleIO netCon_IsKaNeeded:3761 :CON 0000000030837167 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.646130+00:00 sdc001 kernel: [5965965.251039] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000c6b7b707 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.657522+00:00 sdc001 kernel: [5965965.251092] [5786457902] Disconnected from SDS with ID 2b16b44c00000001 < ======================================================= unexpected (...) <3>2021-09-20T06:52:52.894622+00:00 sdc001: [5965985.494552] ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[23145851856] IO-ERROR Type WRITE. comb: 24280000 0332. offsetInComb 1464872. SizeInLB 16. SDS_ID 2b16b44c00000001. Comb Gen 2c3f. Head Gen 2f1c. StartLB c793228. <3>2021-09-20T06:52:52.894624+00:00 sdc001: [5965985.494555] ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x587d75290000000b. Last vol network error status NOT_CONN(4) Reason (ERROR) RC (ERROR) Retry count (20) chan (2)
Impacto
La aplicación volvió a tener errores de I/O.
Cause
Este tipo de errores provienen de algún tipo de configuración incorrecta de la red: una de las NIC en cualquiera de los componentes (SDS o SDC) podría colocarse en una VLAN incorrecta, no activarse en absoluto, tener la IP incorrecta asignada, etc.
En este caso en particular, una de las NIC del SDS "2b16b44c00000001" se asignó a una VLAN incorrecta, por lo que, efectivamente, la comunicación entre SDC y SDS se producía a través de una sola NIC. Cuando esta conexión se desactivaba, el SDC ya no podía comunicarse con este SDS. Dado que las funciones IP estaban en uso, este SDS permanecía conectado al MDM y a otros SDS a través de NIC "solo SDS", por lo que el MDM no tenía ningún motivo para reconstruir los datos.
Resolution
Asegúrese de que todos los componentes estén conectados según lo esperado: utilice los comandos "netstat" o scli (los comandos exactos dependen de la versión de PowerFlex) para verificar la conectividad.