SDC PowerFlex che registra gli errori di I/O dopo la perdita di connettività su una singola scheda di rete
Summary: SDC potrebbe restituire errori di I/O all'applicazione quando si perde la connettività di una singola scheda di rete in un sistema con più schede di rete configurate per PowerFlex.
Symptoms
Scenario
PowerFlex utilizza più connessioni per ciascun componente (ad esempio, 2 connessioni con ruolo IP SDS "All" o quattro connessioni: 2 per "SDS-only" e 2 per "SDC-only").
Il problema si manifesta quando si perde una singola connessione (ad esempio, dopo il riavvio di un singolo switch, l'arresto di una singola scheda di rete e così via).
Non esiste una DU (capacità di DATA_FAILED) a livello di sistema.
Sintomi
SDC segnala la disconnessione da un singolo (o più) SDS nonostante siano configurate più connessioni:
<6>2021-09-20T06:52:29.617016+00:00 sdc001 kernel: [5965962.215707] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <6>2021-09-20T06:52:29.628748+00:00 sdc001 kernel: [5965962.227665] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <3>2021-09-20T06:52:29.628773+00:00 sdc001 kernel: [5965962.227668] bond-glance: invalid new link 1 on slave eth4.2223 <6>2021-09-20T06:52:30.638572+00:00 sdc001 kernel: [5965963.239669] bond-nfs: link status definitely down for interface eth4.2226, disabling it <6>2021-09-20T06:52:30.662562+00:00 sdc001 kernel: [5965963.263771] bond-migration: link status definitely down for interface eth4.2222, disabling it <6>2021-09-20T06:52:30.662585+00:00 sdc001 kernel: [5965963.263774] bond-migration: making interface eth5.2222 the new active one <6>2021-09-20T06:52:30.670568+00:00 sdc001 kernel: [5965963.271749] bond-glance: link status definitely down for interface eth4.2223, disabling it <3>2021-09-20T06:52:32.600563+00:00 sdc001 kernel: [5965965.175504] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000515dfcb3 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.600587+00:00 sdc001 kernel: [5965965.186972] ScaleIO netCon_IsKaNeeded:3761 :CON 0000000030837167 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.646130+00:00 sdc001 kernel: [5965965.251039] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000c6b7b707 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.657522+00:00 sdc001 kernel: [5965965.251092] [5786457902] Disconnected from SDS with ID 2b16b44c00000001 < ======================================================= unexpected (...) <3>2021-09-20T06:52:52.894622+00:00 sdc001: [5965985.494552] ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[23145851856] IO-ERROR Type WRITE. comb: 24280000 0332. offsetInComb 1464872. SizeInLB 16. SDS_ID 2b16b44c00000001. Comb Gen 2c3f. Head Gen 2f1c. StartLB c793228. <3>2021-09-20T06:52:52.894624+00:00 sdc001: [5965985.494555] ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x587d75290000000b. Last vol network error status NOT_CONN(4) Reason (ERROR) RC (ERROR) Retry count (20) chan (2)
Impatto
Errori di I/O restituiti all'applicazione.
Cause
Questo tipo di errori deriva da una sorta di configurazione errata della rete: una delle schede di rete su uno qualsiasi dei componenti (SDS o SDC) potrebbe essere inserita in una VLAN errata, non visualizzata affatto, avere l'IP sbagliato assegnato ecc.
In questo caso specifico, una delle schede di rete sull SDS "2b16b44c00000001" era assegnata a una VLAN errata, quindi la comunicazione SDC-SDS avveniva su un'unica scheda di rete: quando questa connessione si interrompeva, l SDC non riusciva più a comunicare con questo SDS. Poiché i ruoli IP erano in uso, questo SDS rimaneva connesso all MDM e ad altri SDS su schede di rete "solo SDS", quindi l MDM non aveva motivo di ricostruire i dati.
Resolution
Accertarsi che tutti i componenti siano connessi come previsto: utilizzare i comandi "netstat" e/o scli (i comandi esatti dipendono dalla versione di PowerFlex) per verificare la connettività.