PowerFlex SDS lukker stikkontakter uden netværksproblemer
Oversigt: SDS rapporterer stikkontakter lukket uden netværkshændelser eller tegn på netværksproblemer.
Symptomer
Scenario
SDS rapporterer med sockets lukket af fjernprocesser (SDC'er, SDS er, MDM'er) og ingen observerede NIC down-hændelser, tabte rammer eller pakketab.
Symptomer
Hændelseslog rapporterer tab af SDS-forbindelse, enten en frakobling eller genforbindelse:
2017-11-11 16:52:12.101 SDS_RECONNECTED INFO SDS: xyz_d35 (ID 67211111110089) reconnected 2017-11-11 16:52:13.690 MDM_DATA_FAILED CRITICAL The system is now in DATA FAILURE state. Some data is unavailable. 2017-11-11 16:52:15.791 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Inden da ser vi fejl som følgende i SDS-sporingerne.
SDS forsøgte at sende, og det tog >1 sek. at svare:
11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
Socket med en peer blev lukket fra den anden side på grund af deres manglende modtagelse af vores afsendelse af keepalives på lavere niveau:
11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported
En anden forekomst af dette ser sådan ud:
11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported
Andre indikatorer:
Iterationer
ScaleIO's timer til netværkshold på lavere niveau måles i iterationer, som er 100 millisekunder lange.
MDM-SDS-timeout er 20 gentagelser eller 2 sek., mens MDM-MDM-keepalive-timeout> er 3 gentagelser eller 300 ms.
Tyve iterationer overskred:
11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down
Stikkontakter ned Disse sporudskrifter angiver, hvornår stikkene gik ned:
11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported 11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported 11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported
Denne udskrivning betyder, at den sidste sokkel til et SDS gik ned og er det punkt, hvor SDS betragtes som afbrudt:
11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089
MDM udsteder en addmdm-kommando for at få SDS til at oprette forbindelse igen.
IO-fejl blokeret
Vi ved, at IO_FAULT_BLOCKED sker, når SDS nægter IO, fordi det ikke kan nå MDM, men disse oplysninger er ufuldstændige.
SDS sender keepalives til MDM hvert sekund, og hvis MDM ikke får dette i 5 s, betragtes SDS som timeout og markeres som frakoblet.
MDM sender SDS en "fortsæt arbejde"-besked hvert sekund. Det er, når SDS ikke modtager denne besked i 5 sekunder, at den nægter IO med IO_FAULT_BLOCKED:
11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit) 11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit) 11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)
Påvirkning
Tab af SDS-forbindelse
Under data_degraded tilstand eller øjeblikkelig vedligeholdelsestilstand kan dette forårsage DU.
Årsag
Årsagen til IO-fejl i dette eksempel var, at (5 s) SDS-leasing ikke var udløbet, men (2 s) netværkstimeout på lavere niveau havde.
Den grundlæggende årsag er en eller flere af følgende årsager:
1- TCP / netværksproblemer
A - Dette vil sandsynligvis manifestere sig med TCP-gensendere, hvilket indikerer HW / konfigurationsproblemer. (Problemer med kabel, netværkskort, switch osv.) som det ses i outputtet af
sar -n ETCP 1
Hvilket udsendes som:
Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3) 12/13/2017 _x86_64_ (48 CPU) 04:33:44 PM atmptf/s estres/s retrans/s isegerr/s orsts/s 04:33:45 PM 0.00 0.00 50.00 0.00 0.00 04:33:46 PM 2.00 0.00 75.00 0.00 0.00 04:33:47 PM 0.00 0.00 223.00 0.00 0.00 04:33:48 PM 0.00 0.00 106.00 0.00 0.00 04:33:49 PM 2.00 0.00 58.00 0.00 0.00 04:33:50 PM 0.00 0.00 5.00 0.00 0.00 04:33:51 PM 0.00 0.00 7.00 0.00 0.00 04:33:52 PM 2.00 0.00 2.00 0.00 0.00 04:33:53 PM 0.00 0.00 1.00 0.00 0.00 ^C 04:33:53 PM 0.00 0.00 0.00 0.00 0.00 Average: 0.65 0.00 99.00 0.00 0.00
Til reference:
- Grøn = enkeltcifre/s
- Gul = høje tocifrede tal op til 50/s
- Rød = >50/s
B-I tilfælde af ældre Linux-distroer, såsom SusE 11 SP3 på vores SVM'er, kan man overvåge for netværkstransmissioner med følgende kommando:
watch -d -n 2 "netstat -s |grep retrans"
Hvilket output som nedenfor fremhæver de tegn, der blev opdateret i det sidste interval:
Every 2.0s: netstat -s |grep retrans Wed Dec 13 09:55:10 2017
1244070 segments retransmited
2- CPU-problemer, proces sult.
Dette manifesterer sig som en samtidig pause i hver SIO-komponents spor, med masser af stikkontakter, der lukker som de første linjer i sporingen ved genoptagelse.
LIA-, SDS-, MDM/TB-, SDC/meddelelsesfilen viser hullet.
LIA-sporing viser f.eks., at LIA→SDS-stikkontakter lukker efter en timeout på 3 sek. (30 gentagelser x 100 ms):
11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858: :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down 11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected 11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed connected
3- Måske har vi en fejl et eller andet sted i SIO. Sandsynligvis holder en ikke-netværkstråd en CPU og tillader ikke noget andet at køre osv.
Løsning
Løsning
Ingen generel løsning
Påvirkede versioner
Alle
Løst i version
Ikke tilgængelig