PowerFlex-SDS – Schließen von Sockets ohne Netzwerkprobleme

Summary: SDS meldet Sockets, die ohne Netzwerkereignisse oder Hinweise auf Netzwerkprobleme geschlossen wurden.

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Szenario
SDS meldet, dass Sockets durch Remoteprozesse (SDCs, SDSs, MDMs) geschlossen wurden und keine beobachteten NIC-Down-Events, verworfenen Frames oder Paketverluste beobachtet wurden. 

Symptome
Das Ereignisprotokoll meldet einen SDS-Konnektivitätsverlust, entweder durch Entkoppeln oder erneutes Verbinden: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Davor sehen wir Fehler wie den folgenden in den SDS-Ablaufverfolgungen.

Der SDS hat versucht zu senden, und es hat 1 Sekunde gedauert >, bis er antwortete:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Der Socket mit einem Peer wurde von der anderen Seite geschlossen, da sie unsere sendenden Keepalives auf niedrigerer Ebene nicht erhalten haben:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Ein weiteres Beispiel hierfür sieht folgendermaßen aus:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Weitere Indikatoren:
Iterationen
Der Small-Level-Survival-Timer für Netzwerk-Keepalive von ScaleIO wird in Iterationen gemessen, die 100 Millisekunden lang sind.

Das MDM-SDS-Timeout beträgt 20 Iterationen oder 2 s, während das MDM-MDM-Keepalive-Timeout> 3 Iterationen oder 300 ms beträgt.

Zwanzig Iterationen überschritten:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Sockets down Diese Trace-Ausdrucke zeigen an, wann die Sockets ausgefallen sind:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Dieser Ausdruck bedeutet, dass der letzte Socket eines SDS ausgefallen ist und der Punkt ist, an dem der SDS als getrennt gilt:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

Der MDM gibt den Befehl addmdm aus, damit der SDS die Verbindung wiederherstellt. 

IO-Fehler blockiert
Wir wissen, dass IO_FAULT_BLOCKED passiert, wenn der SDS I/O ablehnt, weil er den MDM nicht erreichen kann, aber diese Informationen sind unvollständig.

Der SDS sendet jede Sekunde Keepalives an den MDM. Wenn der MDM diese fünf Sekunden lang nicht erhält, gilt der SDS als abgelaufen und wird als entkoppelt markiert.

Der MDM sendet jede Sekunde eine Nachricht an den SDS, dass er weiterarbeitet. Wenn der SDS diese Meldung 5 Sekunden lang nicht empfängt, lehnt er IO mit IO_FAULT_BLOCKED ab: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Auswirkungen

Verlust der SDS-Konnektivität

Während data_degraded Status oder im Instant Maintenance Mode kann dies zu einer Nichtverfügbarkeit von Daten führen.

Cause

Die Ursache für den I/O-Fehler in diesem Beispielfall war, dass der SDS-Lease (5 s) nicht abgelaufen war, aber das (2 s) untere Netzwerk-Timeout abgelaufen war.

Die Ursache kann einen oder mehrere der folgenden Gründe haben: 

1 – TCP-/Netzwerkprobleme
A: Dies tritt wahrscheinlich bei erneuten TCP-Übertragungen auf, was auf HW-/Konfigurationsprobleme hinweist. (Probleme mit Kabel, NIC, Switch usw.) wie in der Ausgabe von 

sar -n ETCP 1

Gibt Folgendes aus:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Siehe auch:

  • Grün = einstellig/s
  • Gelb = hohe zweistellige Werte bis zu 50/s
  • Rot = >50/s

B. Bei älteren Linux-Distributionen, wie z. B. SusE 11 SP3 auf unseren SVMs, kann mit dem folgenden Befehl auf Netzwerk-Neuübertragungen überwacht werden:

watch -d -n 2 "netstat -s |grep retrans"

Die Ausgabe erfolgt wie folgt, wobei die Zeichen hervorgehoben werden, die während des letzten Intervalls aktualisiert wurden:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2 CPU-Probleme, Prozessmangel.
Dies äußert sich in einer gleichzeitigen Pause in den Ablaufverfolgungen jeder SIO-Komponente, wobei viele Sockets beim Wiederaufnehmen als erste Zeilen in der Ablaufverfolgung geschlossen werden. 
LIA-, SDS-, MDM/TB-, SDC/MESSAGES-Datei zeigt die Lücke an.
Der LIA-Trace zeigt beispielsweise, dass LIA→SDS-Sockets nach einem Timeout von 3 Sekunden (30 Iterationen x 100 ms) geschlossen werden:

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3 – Vielleicht haben wir irgendwo einen Fehler in SIO. Wahrscheinlich hält ein Nicht-Netzwerk-Thread eine CPU und lässt nicht zu, dass etwas anderes ausgeführt wird usw.

Resolution

Problemumgehung

Kein allgemeiner Workaround

Betroffene Versionen

Alle

Behoben in Version

N. z. 

Produse afectate

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Proprietăți articol
Article Number: 000203040
Article Type: Solution
Ultima modificare: 15 mai 2026
Version:  5
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.