PowerFlex SDS lukke stikkontakter uten nettverksproblemer

Sammendrag: SDS rapporterer at kontakter er lukket uten nettverkshendelser eller bevis på nettverksproblemer.

Denne artikkelen gjelder for Denne artikkelen gjelder ikke for Denne artikkelen er ikke knyttet til noe bestemt produkt. Det er ikke produktversjonene som identifiseres i denne artikkelen.

Symptomer

Scenario
SDS rapporterer at stikkontakter er lukket av eksterne prosesser (SDC-er, SDS-er, MDM-er), og ingen observerte NIC-ned-hendelser, tapte rammer eller pakketap. 

Symptomer
Hendelsesloggen rapporterer tap av SDS-tilkobling, enten en frakobling eller tilkobling på nytt: 

2017-11-11 16:52:12.101 SDS_RECONNECTED           INFO     	 SDS: xyz_d35 (ID 67211111110089) reconnected 
2017-11-11 16:52:13.690 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2017-11-11 16:52:15.791 MDM_DATA_DEGRADED         ERROR    	 The system is now in DEGRADED state. 

Før det ser vi feil som følgende i SDS-sporene.

SDS prøvde å sende, og det tok >1 sekund å svare:

11/11 16:52:04.527408 0x7ff0b19eaeb0:contNet_OscillationNotif:01720: Con 672cb111110099 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported

Socket med en peer ble stengt fra den andre siden på grunn av deres manglende mottak av våre sende lavere nivå keepalives:

11/11 16:52:06.241105 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b5d00000078 - Oscillation of type 1 (SOCKET_DOWN) reported 

Et annet eksempel på dette ser slik ut:

11/11 16:52:06.241224 0x7ff0b19e1eb0:contNet_OscillationNotif:01720: Con a71d2b3c00000057 - Oscillation of type 2 (IO_ERROR) reported

Andre indikatorer:
Iterasjoner
ScaleIOs lavere nivå nettverk Keepalive-timer måles i iterasjoner, som er 100 millisekunder lange.

MDM-SDS-tidsavbrudd> er 20 gjentakelser, eller 2 s, mens MDM-MDM KeepAlive-tidsavbrudd er 3 gjentakelser eller 300 ms.

Tjue iterasjoner overskredet:

11/11 16:52:11.685281 0x7ff752d1beb0:netPath_IsKaNeeded:01858:  :: Connected Live CLIENT path 0x7ff6e2192a00 of portal 0x7ff6e2192900 net 0x7ff7480e1110 socket 210 inflights 0 didn't receive message for 20 iterations from 10.124.162.109:7072. Marking as down  

Stikkontakter ned Disse sporutskriftene viser når stikkontaktene gikk ned:

11/11 16:52:09.787793 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.130.109 - Oscillation of type SOCKET_DOWN reported

11/11 16:52:11.685290 0x7ff752d1beb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type RCV_KA_DISCONNECT reported
11/11 16:52:11.685308 0x7ff752cf7eb0:tgtMgr_TgtOscCB:07696: Con 672cba7400000089 Network address 10.124.162.109 - Oscillation of type SOCKET_DOWN reported

Denne utskriften betyr at den siste kontakten til et SDS gikk ned og er punktet der SDS anses å være frakoblet:

11/11 16:52:11.685319 0x7ff752cf7eb0:tgtMgr_TgtDisconnectCB:07818: Tgt: 672cba7400000089 ConId: 672cba7400000089

MDM utsteder en addmdm-kommando for å få SDS til å koble til igjen. 

IO-feil blokkert
Vi vet at IO_FAULT_BLOCKED skjer når SDS nekter I/O fordi den ikke kan nå MDM, men denne informasjonen er ufullstendig.

SDS sender keepalives til MDM hvert sekund, og hvis MDM ikke får dette i 5 s, anses SDS som tidsavbrutt og blir merket som frakoblet.

MDM sender SDS en "fortsett å jobbe"-melding hvert sekund. Det er når SDS ikke mottar denne meldingen på 5 sekunder at den nekter IO med IO_FAULT_BLOCKED: 

11/11 16:52:12.007045 0x7ff0b0cdfeb0:ioh_NewRequest:05490: Write to comb f778038007f - Done rc is IO_FAULT_BLOCKED (Lba 6721528 8), volume 6e1a2f4a0000075d (dit)
11/11 16:52:12.008825 0x7ff0b0ec5eb0:ioh_NewRequest:05490: Write to comb f78803903fc - Done rc is IO_FAULT_BLOCKED (Lba 5031040 6), volume 6e1a2f4c0000075f (dit)
11/11 16:52:12.017262 0x7ff0b26daeb0:ioh_NewRequest:05490: Write to comb f768037003e - Done rc is IO_FAULT_BLOCKED (Lba 15106144 16), volume 6e1a2f490000075c (dit)

 

Innvirkning

Tap av SDS-tilkobling

I data_degraded tilstand eller modus for øyeblikkelig vedlikehold kan dette forårsake DU.

Årsak

Årsaken til I/O-feil i dette eksempeltilfellet var at SDS-leieavtalen (5 s) ikke hadde utløpt, men (2 s) tidsavbrudd for nettverk på lavere nivå hadde det.

Den grunnleggende årsaken er en eller flere av følgende årsaker: 

1 - TCP / nettverksproblemer
A- Dette vil sannsynligvis manifestere seg med TCP-sender på nytt, noe som indikerer HW / konfigurasjonsproblemer. (Kabel, NIC, bryterproblemer osv.) som vist i utdataene fra 

sar -n ETCP 1

Som gir utdata som:

 Linux 3.10.0-693.5.2.el7.x86_64 (SIO-DCOE-96O-3)        12/13/2017      _x86_64_        (48 CPU)

04:33:44 PM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
04:33:45 PM      0.00      0.00     50.00      0.00      0.00
04:33:46 PM      2.00      0.00     75.00      0.00      0.00
04:33:47 PM      0.00      0.00    223.00      0.00      0.00
04:33:48 PM      0.00      0.00    106.00      0.00      0.00
04:33:49 PM      2.00      0.00     58.00      0.00      0.00
04:33:50 PM      0.00      0.00      5.00      0.00      0.00
04:33:51 PM      0.00      0.00      7.00      0.00      0.00
04:33:52 PM      2.00      0.00      2.00      0.00      0.00
04:33:53 PM      0.00      0.00      1.00      0.00      0.00
^C

04:33:53 PM      0.00      0.00      0.00      0.00      0.00
Average:         0.65      0.00     99.00      0.00      0.00

For referanse:

  • Grønt = ensifre/s
  • Gul = høye doble sifre opptil 50/s
  • Rød = >50/s

B-Når det gjelder eldre Linux-distroer, for eksempel SusE 11 SP3 på våre SVM-er, kan man overvåke for nettverksoverføring med følgende kommando:

watch -d -n 2 "netstat -s |grep retrans"

Som sendes ut som nedenfor, og fremhever tegnene som ble oppdatert i løpet av det siste intervallet:

Every 2.0s: netstat -s |grep retrans                                                                                                                                                   Wed Dec 13 09:55:10 2017

    1244070 segments retransmited

2- CPU-problemer, prosess sult.
Dette manifesterer seg som en samtidig pause i hver SIO-komponents spor, med mange stikkontakter som lukkes som de første linjene i sporet ved gjenopptagelse. 
LIA, SDS, MDM/TB, SDC/meldingsfil viser gapet.
LIA-sporing viser for eksempel at LIA→SDS-stikkontakter lukkes etter en tidsavbrudd på 3 sekunder (30 iterasjoner x 100 ms):

11/11 16:52:11.597227 0x7f44c41c6eb0:netPath_IsKaNeeded:01858:  :: Connected Live SERVER path 0x7f44c4195690 of portal 0x7f44c4192bb0 net 0x83b040 socket 8 inflights 0 didn't receive message for 30 iterations from 127.0.0.1:43228. Marking as down
11/11 16:52:12.031195 0x7f44c419eeb0:liaNet_DisconnectedNotif:01553: Con aed disconnected
11/11 16:52:12.158383 0x7f44c419eeb0:liaNet_ConnectedNotif:01483: Con aed  connected

3- Kanskje vi har en feil et sted i SIO. Sannsynligvis holder en ikke-nettverkstråd en CPU og ikke tillater noe annet å kjøre, etc.

Oppløsning

Omgåelse av problemet

Ingen generell løsning

Berørte versjoner

Alle

Løst i versjon

Ikke relevant 

Berørte produkter

PowerFlex Software, VxFlex Product Family, VxFlex Ready Node, Ready Node Series
Artikkelegenskaper
Artikkelnummer: 000203040
Artikkeltype: Solution
Sist endret: 15 mai 2026
Versjon:  5
Få svar på spørsmålene dine fra andre Dell-brukere
Støttetjenester
Sjekk om enheten din er dekket av støttetjenestene.