Zavírání soketů PowerFlex SDS bez problémů se sítí

Summary: SDS hlásí zavřené sokety bez jakýchkoli síťových událostí nebo důkazů o problémech se sítí.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scénář
SDS hlásí, že sockety byly uzavřeny vzdálenými procesy (SDC, SDS, MDM) a nebyly pozorovány žádné události výpadku síťové karty, zahozené rámce nebo ztráta paketů. 

Symptomy
Protokol událostí hlásí ztrátu konektivity SDS, a to buď oddělení, nebo opětovné připojení: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Předtím se v trasování SDS zobrazí chyby, jako jsou tyto.

SDS se pokusil odeslat a odpověď trvala >1 sekundu:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Zásuvka s peerem byla uzavřena z druhé strany, protože neobdrželi naše odesílání keepalives nižší úrovně:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Jiný příklad toho vypadá takto:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Další indikátory:
Iterace
Časovač udržování sítě ScaleIO nižší úrovně se měří v iteracích, které jsou dlouhé 100 milisekund.

Časový limit MDM-SDS> je 20 iterací nebo 2 s, zatímco časový limit MDM-MDM keepalive jsou 3 iterace nebo 300 ms.

Překročeno dvacet iterací:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Sockets down Tyto stopy indikují, kdy došlo k výpadku socketů:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Tento tisk znamená, že poslední soket úložiště SDS spadl a jedná se o bod, ve kterém je SDS považován za odpojený:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM vydá příkaz addmdm, aby se SDS znovu připojil. 

Víme, že k IO_FAULT_BLOCKED dochází, když SDS odmítne I/O
, protože se nemůže spojit s uzlem MDM, ale tyto informace nejsou úplné.

SDS odesílá keepalives do uzlu MDM každou sekundu. Pokud to uzel MDM po dobu 5 s nezíská, časový limit SDS se považuje za vypršený a označí se jako odpojený.

MDM odesílá SDS každou sekundu zprávu "pokračujte v práci". Pokud systém SDS po dobu 5 sekund neobdrží tuto zprávu, odmítne IO s IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Důsledky

Ztráta konektivity SDS

Během stavu data_degraded nebo režimu okamžité údržby to může způsobit DU.

Cause

Příčinou selhání IO v tomto příkladu bylo to, že (5 s) zapůjčení SDS nevypršelo, ale vypršel časový limit sítě nižší úrovně (2 s).

Hlavní příčinou je jeden nebo více z následujících důvodů: 

1 – Problémy
s TCP/sítí A – To se pravděpodobně projeví při opakovaných přenosech TCP, což značí problémy s hardwarem/konfigurací. (Problémy s kabelem, kartou NIC, přepínačem atd.) Jak je patrné z výstupu 

sar -n ETCP 1

Výstupem je:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Reference:

  • Zelená = jednoduché číslice/s
  • Žlutá = vysoké dvouciferné hodnoty až 50/s
  • Červená = >50/s

B-V případě starších linuxových distribucí, jako je SusE 11 SP3 na našich SVM, lze sledovat síťové opakované přenosy pomocí následujícího příkazu:

watch -d -n 2 "netstat -s |grep retrans"

Výstupy, jak je uvedeno níže, se zvýrazněním znaků, které se aktualizovaly během posledního intervalu:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2 – Problémy s procesorem, hladovění procesu.
To se projevuje jako simultánní pozastavení v trasování každé komponenty SIO se spoustou soketů, které se při obnovení uzavřou jako první řádky v trasování. 
Mezera se zobrazuje v souboru LIA, SDS, MDM/TB, SDC/messages.
LIA trace například ukazuje, že se sockety LIA→SDS zavírají po uplynutí časového limitu 3 s (30 iterací x 100 ms):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Možná máme chybu někde v SIO. Je pravděpodobné, že nesíťové vlákno drží CPU a neumožňuje spuštění něčeho jiného atd.

Resolution

Zástupné řešení

Žádné obecné zástupné řešení

Dotčené verze

Vše

Opraveno ve verzi

Není k dispozici 

Affected Products

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Article Properties
Article Number: 000203040
Article Type: Solution
Last Modified: 15 مايو 2026
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.