PowerFlex-SDC protokolliert I/O-Fehler nach Verlust der Konnektivität auf einer einzigen NIC
Summary: SDC gibt möglicherweise I/O-Fehler an die Anwendung zurück, wenn die Konnektivität einer einzelnen NIC in einem System mit mehreren für PowerFlex konfigurierten NICs verloren geht.
Symptoms
Szenario
PowerFlex verwendet mehrere Verbindungen für jede Komponente (z. B. 2 Verbindungen mit SDS-IP-Rolle "All" oder 4 Verbindungen – 2 für "SDS-only" und 2 für "SDC-only").
Das Problem tritt auf, wenn eine einzelne Verbindung verloren geht (d. h. nach einem Neustart eines einzelnen Switches, dem Herunterfahren einer einzelnen NIC usw.).
Es gibt keine DU (DATA_FAILED-Kapazität) systemweit.
Symptome
SDC meldet die Trennung von einem einzelnen (oder mehreren) SDS, obwohl mehrere Verbindungen konfiguriert sind:
<6>2021-09-20T06:52:29.617016+00:00 sdc001 kernel: [5965962.215707] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <6>2021-09-20T06:52:29.628748+00:00 sdc001 kernel: [5965962.227665] bond-glance: link status down for backup interface eth4.2223, disabling it in 1000 ms <3>2021-09-20T06:52:29.628773+00:00 sdc001 kernel: [5965962.227668] bond-glance: invalid new link 1 on slave eth4.2223 <6>2021-09-20T06:52:30.638572+00:00 sdc001 kernel: [5965963.239669] bond-nfs: link status definitely down for interface eth4.2226, disabling it <6>2021-09-20T06:52:30.662562+00:00 sdc001 kernel: [5965963.263771] bond-migration: link status definitely down for interface eth4.2222, disabling it <6>2021-09-20T06:52:30.662585+00:00 sdc001 kernel: [5965963.263774] bond-migration: making interface eth5.2222 the new active one <6>2021-09-20T06:52:30.670568+00:00 sdc001 kernel: [5965963.271749] bond-glance: link status definitely down for interface eth4.2223, disabling it <3>2021-09-20T06:52:32.600563+00:00 sdc001 kernel: [5965965.175504] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000515dfcb3 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.600587+00:00 sdc001 kernel: [5965965.186972] ScaleIO netCon_IsKaNeeded:3761 :CON 0000000030837167 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.646130+00:00 sdc001 kernel: [5965965.251039] ScaleIO netCon_IsKaNeeded:3761 :CON 00000000c6b7b707 didn't receive message for 30 iterations. Marking as down <3>2021-09-20T06:52:32.657522+00:00 sdc001 kernel: [5965965.251092] [5786457902] Disconnected from SDS with ID 2b16b44c00000001 < ======================================================= unexpected (...) <3>2021-09-20T06:52:52.894622+00:00 sdc001: [5965985.494552] ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[23145851856] IO-ERROR Type WRITE. comb: 24280000 0332. offsetInComb 1464872. SizeInLB 16. SDS_ID 2b16b44c00000001. Comb Gen 2c3f. Head Gen 2f1c. StartLB c793228. <3>2021-09-20T06:52:52.894624+00:00 sdc001: [5965985.494555] ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x587d75290000000b. Last vol network error status NOT_CONN(4) Reason (ERROR) RC (ERROR) Retry count (20) chan (2)
Auswirkungen
I/O-Fehler, die an die Anwendung zurückgegeben werden.
Cause
Diese Art von Fehlern entsteht durch eine Netzwerkfehlkonfiguration – eine der NICs auf einer der Komponenten (SDS oder SDC) wird möglicherweise in ein falsches VLAN versetzt, überhaupt nicht aufgerufen, die falsche IP zugewiesen usw.
In diesem speziellen Fall wurde eine der NICs auf dem SDS "2b16b44c00000001" einem falschen VLAN zugewiesen, sodass die SDC-SDS-Kommunikation effektiv über eine einzige NIC erfolgte – als diese Verbindung ausfiel, konnte der SDC nicht mehr mit diesem SDS kommunizieren. Da IP-Rollen verwendet wurden, blieb dieser SDS über "SDS-only"-NICs mit dem MDM und anderen SDS verbunden, sodass der MDM keinen Grund hatte, die Daten neu zu erstellen.
Resolution
Stellen Sie sicher, dass alle Komponenten wie erwartet verbunden sind. Verwenden Sie "netstat"- und/oder "scli"-Befehle (genaue Befehle hängen von der PowerFlex-Version ab), um die Konnektivität zu überprüfen.