PowerFlex SDS lukker stikkontakter uden netværksproblemer

Oversigt: SDS rapporterer stikkontakter lukket uden netværkshændelser eller tegn på netværksproblemer.

Denne artikel gælder for Denne artikel gælder ikke for Denne artikel er ikke knyttet til et bestemt produkt. Det er ikke alle produktversioner, der er identificeret i denne artikel.

Symptomer

Scenario
SDS rapporterer med sockets lukket af fjernprocesser (SDC'er, SDS er, MDM'er) og ingen observerede NIC down-hændelser, tabte rammer eller pakketab. 

Symptomer
Hændelseslog rapporterer tab af SDS-forbindelse, enten en frakobling eller genforbindelse: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Inden da ser vi fejl som følgende i SDS-sporingerne.

SDS forsøgte at sende, og det tog >1 sek. at svare:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Socket med en peer blev lukket fra den anden side på grund af deres manglende modtagelse af vores afsendelse af keepalives på lavere niveau:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

En anden forekomst af dette ser sådan ud:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Andre indikatorer:
Iterationer
ScaleIO's timer til netværkshold på lavere niveau måles i iterationer, som er 100 millisekunder lange.

MDM-SDS-timeout er 20 gentagelser eller 2 sek., mens MDM-MDM-keepalive-timeout> er 3 gentagelser eller 300 ms.

Tyve iterationer overskred:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Stikkontakter ned Disse sporudskrifter angiver, hvornår stikkene gik ned:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Denne udskrivning betyder, at den sidste sokkel til et SDS gik ned og er det punkt, hvor SDS betragtes som afbrudt:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM udsteder en addmdm-kommando for at få SDS til at oprette forbindelse igen. 

IO-fejl blokeret
Vi ved, at IO_FAULT_BLOCKED sker, når SDS nægter IO, fordi det ikke kan nå MDM, men disse oplysninger er ufuldstændige.

SDS sender keepalives til MDM hvert sekund, og hvis MDM ikke får dette i 5 s, betragtes SDS som timeout og markeres som frakoblet.

MDM sender SDS en "fortsæt arbejde"-besked hvert sekund. Det er, når SDS ikke modtager denne besked i 5 sekunder, at den nægter IO med IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Påvirkning

Tab af SDS-forbindelse

Under data_degraded tilstand eller øjeblikkelig vedligeholdelsestilstand kan dette forårsage DU.

Årsag

Årsagen til IO-fejl i dette eksempel var, at (5 s) SDS-leasing ikke var udløbet, men (2 s) netværkstimeout på lavere niveau havde.

Den grundlæggende årsag er en eller flere af følgende årsager: 

1- TCP / netværksproblemer
A - Dette vil sandsynligvis manifestere sig med TCP-gensendere, hvilket indikerer HW / konfigurationsproblemer. (Problemer med kabel, netværkskort, switch osv.) som det ses i outputtet af 

sar -n ETCP 1

Hvilket udsendes som:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

Til reference:

  • Grøn = enkeltcifre/s
  • Gul = høje tocifrede tal op til 50/s
  • Rød = >50/s

B-I tilfælde af ældre Linux-distroer, såsom SusE 11 SP3 på vores SVM'er, kan man overvåge for netværkstransmissioner med følgende kommando:

watch -d -n 2 "netstat -s |grep retrans"

Hvilket output som nedenfor fremhæver de tegn, der blev opdateret i det sidste interval:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2- CPU-problemer, proces sult.
Dette manifesterer sig som en samtidig pause i hver SIO-komponents spor, med masser af stikkontakter, der lukker som de første linjer i sporingen ved genoptagelse. 
LIA-, SDS-, MDM/TB-, SDC/meddelelsesfilen viser hullet.
LIA-sporing viser f.eks., at LIA→SDS-stikkontakter lukker efter en timeout på 3 sek. (30 gentagelser x 100 ms):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Måske har vi en fejl et eller andet sted i SIO. Sandsynligvis holder en ikke-netværkstråd en CPU og tillader ikke noget andet at køre osv.

Løsning

Løsning

Ingen generel løsning

Påvirkede versioner

Alle

Løst i version

Ikke tilgængelig 

Berørte produkter

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Artikelegenskaber
Artikelnummer: 000203040
Artikeltype: Solution
Senest ændret: 15 maj 2026
Version:  5
Find svar på dine spørgsmål fra andre Dell-brugere
Supportservices
Kontrollér, om din enhed er dækket af supportservices.