SDS PowerFlex chiude i socket senza problemi di rete

Riepilogo: SDS segnala i socket chiusi senza eventi di rete o evidenza di problemi di rete.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

Scenario
SDS segnala la presenza di socket chiusi da processi remoti (SDC, SDS, MDM) e nessun evento di inattività della scheda di rete, frame persi o perdita di pacchetti. 

Sintomi
Il registro eventi segnala la perdita di connettività dell SDS, un disaccoppiamento o una riconnessione: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Prima di ciò, vengono visualizzati errori come quelli riportati di seguito nelle tracce SDS.

L SDS ha tentato l'invio e la risposta ha richiesto >1 secondo:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Il socket con un peer è stato chiuso dall'altro lato a causa della mancata ricezione dei nostri keepalive di livello inferiore:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Un altro esempio di questo aspetto è simile al seguente:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Altri indicatori:
iterazioni
Il timer keepalive di rete di livello inferiore di ScaleIO viene misurato in iterazioni, della durata di 100 millisecondi.

Il timeout MDM-SDS> è di 20 iterazioni o 2 secondi, mentre il timeout di keepalive MDM-MDM è di 3 iterazioni o 300 ms.

Venti iterazioni superate:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Socket inattivi Queste impronte di traccia indicano quando i socket sono stati spenti:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Questa stampa indica che l'ultimo socket di un SDS è andato offline ed è il punto in cui l SDS viene considerato disconnesso:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM emetterà un comando addmdm per riconnettere l SDS. 

Errore I/O bloccato
Sappiamo che IO_FAULT_BLOCKED accade quando l SDS rifiuta l'I/O perché non può raggiungere l MDM, ma questa informazione è incompleta.

L SDS invia segnali keepalive all MDM ogni secondo e, se l MDM non li riceve per 5 secondi, l SDS viene considerato scaduto e contrassegnato come disaccoppiato.

L MDM invia all SDS un messaggio di "continua a funzionare" ogni secondo. È quando l SDS non riceve questo messaggio per 5 secondi che rifiuta l'I/O con IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Impatto

Perdita di connettività SDS

Durante lo stato data_degraded o la modalità di manutenzione istantanea, ciò può causare la non disponibilità dei dati.

Causa

La causa dell'errore di I/O in questo caso di esempio è che il lease SDS (5 secondi) non era scaduto, ma il timeout di rete di livello inferiore (2 secondi) sì.

La root cause è uno o più dei seguenti motivi: 

1- Problemi
TCP/di rete R- È probabile che si verifichino con ritrasmissioni TCP, il che indica problemi di hardware/configurazione. (problemi relativi a cavi, schede di rete, switch, ecc.) come si vede nell'output di 

sar -n ETCP 1

L'output è:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Per riferimento:

  • Verde = cifre singole/s
  • Giallo = alta doppia cifra fino a 50/s
  • Rosso = >50/s

B-Nel caso di distribuzioni Linux meno recenti, come SusE 11 SP3 sulle nostre SVM, è possibile monitorare le ritrasmissioni di rete con il seguente comando:

watch -d -n 2 "netstat -s |grep retrans"

L'output è il seguente, evidenziando i caratteri aggiornati durante l'ultimo intervallo:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2- Problemi con la CPU, esaurimento dei processi.
Ciò si manifesta come una pausa simultanea nelle tracce di ogni componente SIO, con molti socket che si chiudono come prime righe della traccia alla riattivazione. 
LIA, SDS, MDM/TB, SDC/messages file mostra il divario.
La traccia LIA, ad esempio, mostra la chiusura dei socket LIA→SDS dopo un timeout di 3 s (30 iterazioni x 100 ms):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Forse abbiamo un bug da qualche parte in SIO. È probabile che un thread non di rete mantenga una CPU e non consenta l'esecuzione di qualcos'altro e così via.

Risoluzione

Soluzione alternativa

Nessuna soluzione alternativa generale

Versioni interessate

Tutto

Risolto nella versione

N/D 

Prodotti interessati

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Proprietà dell'articolo
Numero articolo: 000203040
Tipo di articolo: Solution
Ultima modifica: 15 mag 2026
Versione:  5
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.