Zavírání soketů PowerFlex SDS bez problémů se sítí
Summary: SDS hlásí zavřené sokety bez jakýchkoli síťových událostí nebo důkazů o problémech se sítí.
Symptoms
Scénář
SDS hlásí, že sockety byly uzavřeny vzdálenými procesy (SDC, SDS, MDM) a nebyly pozorovány žádné události výpadku síťové karty, zahozené rámce nebo ztráta paketů.
Symptomy
Protokol událostí hlásí ztrátu konektivity SDS, a to buď oddělení, nebo opětovné připojení:
2017-11-11 16:52:12.101 SDS_RECONNECTED INFO SDS: xyz_d35 (ID 67211111110089) reconnected 2017-11-11 16:52:13.690 MDM_DATA_FAILED CRITICAL The system is now in DATA FAILURE state. Some data is unavailable. 2017-11-11 16:52:15.791 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Předtím se v trasování SDS zobrazí chyby, jako jsou tyto.
SDS se pokusil odeslat a odpověď trvala >1 sekundu:
11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
Zásuvka s peerem byla uzavřena z druhé strany, protože neobdrželi naše odesílání keepalives nižší úrovně:
11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported
Jiný příklad toho vypadá takto:
11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported
Další indikátory:
Iterace
Časovač udržování sítě ScaleIO nižší úrovně se měří v iteracích, které jsou dlouhé 100 milisekund.
Časový limit MDM-SDS> je 20 iterací nebo 2 s, zatímco časový limit MDM-MDM keepalive jsou 3 iterace nebo 300 ms.
Překročeno dvacet iterací:
11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down
Sockets down Tyto stopy indikují, kdy došlo k výpadku socketů:
11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported 11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported 11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported
Tento tisk znamená, že poslední soket úložiště SDS spadl a jedná se o bod, ve kterém je SDS považován za odpojený:
11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089
MDM vydá příkaz addmdm, aby se SDS znovu připojil.
Víme, že k IO_FAULT_BLOCKED dochází, když SDS odmítne I/O
, protože se nemůže spojit s uzlem MDM, ale tyto informace nejsou úplné.
SDS odesílá keepalives do uzlu MDM každou sekundu. Pokud to uzel MDM po dobu 5 s nezíská, časový limit SDS se považuje za vypršený a označí se jako odpojený.
MDM odesílá SDS každou sekundu zprávu "pokračujte v práci". Pokud systém SDS po dobu 5 sekund neobdrží tuto zprávu, odmítne IO s IO_FAULT_BLOCKED:
11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit) 11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit) 11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)
Důsledky
Ztráta konektivity SDS
Během stavu data_degraded nebo režimu okamžité údržby to může způsobit DU.
Cause
Příčinou selhání IO v tomto příkladu bylo to, že (5 s) zapůjčení SDS nevypršelo, ale vypršel časový limit sítě nižší úrovně (2 s).
Hlavní příčinou je jeden nebo více z následujících důvodů:
1 – Problémy
s TCP/sítí A – To se pravděpodobně projeví při opakovaných přenosech TCP, což značí problémy s hardwarem/konfigurací. (Problémy s kabelem, kartou NIC, přepínačem atd.) Jak je patrné z výstupu
sar -n ETCP 1
Výstupem je:
Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3) 12/13/2017 _x86_64_ (48 CPU) 04:33:44 PM atmptf/s estres/s retrans/s isegerr/s orsts/s 04:33:45 PM 0.00 0.00 50.00 0.00 0.00 04:33:46 PM 2.00 0.00 75.00 0.00 0.00 04:33:47 PM 0.00 0.00 223.00 0.00 0.00 04:33:48 PM 0.00 0.00 106.00 0.00 0.00 04:33:49 PM 2.00 0.00 58.00 0.00 0.00 04:33:50 PM 0.00 0.00 5.00 0.00 0.00 04:33:51 PM 0.00 0.00 7.00 0.00 0.00 04:33:52 PM 2.00 0.00 2.00 0.00 0.00 04:33:53 PM 0.00 0.00 1.00 0.00 0.00 ^C 04:33:53 PM 0.00 0.00 0.00 0.00 0.00 Average: 0.65 0.00 99.00 0.00 0.00
Reference:
- Zelená = jednoduché číslice/s
- Žlutá = vysoké dvouciferné hodnoty až 50/s
- Červená = >50/s
B-V případě starších linuxových distribucí, jako je SusE 11 SP3 na našich SVM, lze sledovat síťové opakované přenosy pomocí následujícího příkazu:
watch -d -n 2 "netstat -s |grep retrans"
Výstupy, jak je uvedeno níže, se zvýrazněním znaků, které se aktualizovaly během posledního intervalu:
Every 2.0s: netstat -s |grep retrans Wed Dec 13 09:55:10 2017
1244070 segments retransmited
2 – Problémy s procesorem, hladovění procesu.
To se projevuje jako simultánní pozastavení v trasování každé komponenty SIO se spoustou soketů, které se při obnovení uzavřou jako první řádky v trasování.
Mezera se zobrazuje v souboru LIA, SDS, MDM/TB, SDC/messages.
LIA trace například ukazuje, že se sockety LIA→SDS zavírají po uplynutí časového limitu 3 s (30 iterací x 100 ms):
11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858: :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down 11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected 11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed connected
3- Možná máme chybu někde v SIO. Je pravděpodobné, že nesíťové vlákno drží CPU a neumožňuje spuštění něčeho jiného atd.
Resolution
Zástupné řešení
Žádné obecné zástupné řešení
Dotčené verze
Vše
Opraveno ve verzi
Není k dispozici