PowerFlex: Fejlfinding af ressourcestrid

요약: Problemer med og fejlfinding vedrørende PowerFlex-ressourceproblemer

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Unormal adfærd fra PowerFlex-processerne opstår, når PowerFlex-processer løber ind i ressourcestrid med andre software- eller hardwarekomponenter.

Symptomerne her kan være mange og varierede. Dette er en delvis liste over symptomer og resultater

 

MDM-problemer:

 - MDM-ejerskabsfailover opstår, når MDM-processer sidder fast og mister kommunikationen med de andre MDM'er

From exp.0:
Panic in file /emc/svc_flashbld/workspace/ScaleIO-RHEL7/src/mos/umt/mos_umt_sched_thrd.c, line 1798, function mosUmtSchedThrd_SuspendCK, PID 36721.Panic Expression ALWAYS_ASSERT Scheduler guard seems to be dead.
 
From trc.*
24/02 15:54:16.087919 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x106d9360(0) in scheduler 0x7fff580c4880, running UMT 0x7f39ad00ceb8, found to be stuck.
24/02 15:54:16.088226 ad417eb8:actorLoop_IsSchedThredStuck:10932: Stuck scheduler thread identified
24/02 15:54:16.088253 ad417eb8:actor_Loop:11257: Lost quorum. ourVoters: 0 votersOwnedByOther: [0,0]
24/02 15:54:16.088299 ---Planned crash, reason: Lost quorum, going down to let another MDM become master ---

 

 - MDM-processen afbrydes og genopretter forbindelsen konstant over et stykke tid

2017-02-23 14:00:43.241 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 14:00:43.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-23 23:05:25.852 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 23:05:26.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-24 15:54:16.141 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-24 15:54:16.238 MDM_CLUSTER_CONNECTED    	INFO     	The MDM, ID 089012db4d536880, connected 

 

 

SDS-problemer:

 - SDS vil afbryde forbindelsen og genoprette forbindelse konstant over nogen tid

2017-02-15 13:18:16.881 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-16 03:37:37.327 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-16 03:39:54.300 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-17 04:03:41.757 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-17 04:09:13.604 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected

 

 - SDS kan vise oscillerende fejl i trc-filer vedrørende forbindelsestab til andre SDS-noder:

14/02 19:13:24.096983 1be7eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.196814 1be7eb8:contNet_OscillationNotif:01675: Con 1eb053000000000b - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.296713 1be7eb8:contNet_OscillationNotif:01675: Con 1eb0530000000007 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 21:48:43.917218 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000007 - Oscillation of type 1 (SOCKET_DOWN) reported
14/02 21:48:43.917296 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 1 (SOCKET_DOWN) reported

 

 - SDS kan vise fastlåste eller fastlåste tråde i trc-filer: 

 
14/02 19:13:24.147938 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148113 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148121 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
 
14/02 20:52:54.097765 242f0eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:43.510602 7fa30eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:44.776713 1b67ceb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 
14/02 02:44:41.532007 e2239eb8:contNet_OscillationNotif:01675: Con 1eb052fd00000001 - Oscillation of type 3 (RCV_KA_DISCONNECT) reported
14/02 02:44:43.799135 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0de10(0) in scheduler 0x7fff01bec400, running UMT 0x7f94e221eeb8, found to be stuck.
14/02 02:44:43.799155 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0e050(1) in scheduler 0x7fff01bec400, running UMT 0x7f94e2227eb8, found to be stuck.
14/02 02:44:43.799257 e0e38eb8:cont_IsSchedThredStuck:01678: Stuck scheduler thread identified
14/02 02:44:43.799267 e0e38eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 

 

 - SDS kan vise "fejlforgrening" i TRC-filer:

01/09 00:37:51.329020 0x7f1001c58eb0:mosDbg_BackTraceAllOsThreads:00673: Error forking.

 

 - SDS kan ikke starte på grund af manglende allokering af den nødvendige hukommelse.
Følgende rapporteres i exp-logfiler:

07/09 00:41:52.713502 Panic in file /data/build/workspace/ScaleIO-SLES12-2/src/mos/usr/mos_utils.c, line 235, function mos_AllocPageAlignedOrPanic, PID 25342.Panic Expression pMem != ((void *)0) .

 

 - OS kan også have nogle symptomer i /var/log/messages eller System Event logs:

/var/log/messages:
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683555] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683561] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683566] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683570] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:27:39 ScaleIO-192-168-1-2 kernel: [7461266.566145] sched: RT throttling activated

 

Meddelelserne "SYN flooding on port 7072" betyder, at netværksdatapakker sendes til SDS på denne vært, og SDS kan ikke acceptere pakkerne på den port. SDS bruger port 7072 som standard.
"RT-throttling aktiveret" er en besked om, at OS-planlæggeren har identificeret nogle realtidstråde, der sviner CPU'en og sulter andre tråde. OS gør dette i et forsøg på at begrænse disse realtidsopgaver og forhindre operativsystemet i at hænge eller gå ned.  

 
 
SDC-spørgsmål:

SDC kan også lide IO-fejl, når SDS'erne afbrydes ofte eller ikke kan reagere hurtigt nok på SDC og stadig forsøger at servicere de IO-blokke, den ejer.

 

Påvirkning

Ovenstående symptomer kan resultere i DATA_DEGRADED, DATA_FAILED hændelser samt CLUSTER_DEGRADED.

원인

Hvis alle ovenstående symptomer matcher, er det højst sandsynligt et CPU- eller hukommelsesressourcesultproblem. Se efter tredjepartsapplikationer eller processer, der kører, der muligvis sulter CPU'en og hukommelsen fra MDM- eller SDS-processerne.

I et virtuelt miljø havde CPU'en et par gange dårlig ydeevne. Dette skyldes, at SVM'erne defineres under den samme ressourcepulje.

I sådanne tilfælde bør vi råde til ikke at placere SVM'erne under ressourcepuljen, men at have deres dedikerede ressourcer som defineret i SVM'en.

해결

Sørg for, at PowerFlex-komponenterne (MDM, SDS, SDC) er finindstillet til indstillingerne for ydeevne. Se vejledningerne "Finjustering" og "Fejlfinding" for ydeevne her.

 

Gennemgang af konfiguration:

  1. Først skal du bekræfte, at SVM CPU- og RAM-indstillingerne er i henhold til bedste praksis: 
    1. SVM CPU-indstillinger: (Kan indstilles i farten)
      1. Kerner pr. sokkel: alt i én sokkel, så "Sockets" har en værdi på "1". (Det samlede antal kerner bestemmes af behovene i det SDS, det er vært for: All-flash, FG, DASCache, Cloudlink, 3.5 osv. påvirker (øger) alle CPU-kravet.)
      2. Reservation: Vælg værdien "Maksimum" i rullemenuen
      3. Aktier: Høj
      4. Dette skal se sådan ud: 

SVM CPU-indstillinger

 

b. SVM RAM-indstillinger: (Kan indstilles i farten)

  1. Marker "Reservér al gæstehukommelse (alle låst)"
  2. Aktier: Høj
  3. Dette skal se sådan ud:

SVM RAM-indstillinger

 

 

c. Indstillinger for overbekræftelse af SVM OS-hukommelse som gæst: (Kræver genstart)

    1. Kør sysctl -a|grep overcommit for at bekræfte, at overcommit-indstillingerne er korrekte:
      # sysctl -a|grep overcommit
      vm.overcommit_memory = 2
      vm.overcommit_ratio = 100
    2. Hvis ovenstående værdier ikke er indstillet, vil noget SVM-hukommelse være ubrugeligt for SDS-processen. Ret dette ved at redigere /etc/sysctl.conf og redigere/tilføje ovenstående værdier

    3. Sæt sikkerhedsdatabladet i vedligeholdelsestilstand, og genstart SVM'en for at anvende indstillingerne
    4. Bekræft ved at køre "cat /etc/sysctl.conf|grep overcommit" efter genstart
    5. Afslut vedligeholdelsestilstand
  1. Sådan finder du disse i logfiler:
    1. SVM-konfiguration (vmsupport):
      1. En korrekt konfigureret SVM's .vmx-fil vil indeholde følgende:

sched.cpu.units = "mhz"
sched.cpu.affinity = "all"
sched.cpu.min = "25930"     (nonzero value that's equal to core speed * the # of cores allocated)
sched.cpu.shares = "high"
sched.mem.min = "24576"     (nonzero value that's a full allocation of configured memory)
sched.mem.minSize = "24576" (nonzero value that's a full allocation of configured memory)
sched.mem.shares = "high"
cpuid.coresPerSocket = "10" (value equal to total # of cores allocated, so they're all in one socket)
sched.mem.pin = "TRUE"

 

  1. Forkerte (forældede) SVMconfigs har følgende:
sched.cpu.min = "0"
sched.cpu.shares = "normal"
sched.mem.pin = "FALSE"
sched.mem.shares = "normal"
cpuid.coresPerSocket = "4" (value less than total # of cores allocated, usually 1/2 or 1/4)
 
Konfiguration af operativsystem som gæst (getinfo):
  1. Korrekt konfigureret hukommelse overcommit:

    Filserveren/sysctl.txt indeholder:

vm.overcommit_memory = 2
vm.overcommit_ratio = 100

 

  1. PowerFlex bruger en betydelig mængde RAM til hver af tjenesterne til at køre i hukommelsen og med høj hastighed. Derfor understøtter den ikke brugen af swap, der skal bruges til at aflaste nogen af PowerFlex-tjenesterne.

    Standardindstillingen, som forventes for Kun storage og SVM er i en HCI-løsning, er en overcommit-hukommelse på 2. På denne måde vil kernen ikke overabonnere hukommelse, og uden at indstillinger på ingen swap bruges, sikrer det, at ingen commit_as værdi er større end den samlede ledige/tilgængelige hukommelse.

    Forholdet 100 sikrer, at der heller ikke bruges nogen swap, for mere kontrol til blokswap, der bruges.

  2. Forkert konfigureret hukommelse overcommit:
    Filserveren/sysctl.txt indeholder:

vm.overcommit_memory = 0  (value not 2)
vm.overcommit_ratio = 50  (value less than 95)

 

Andre mulige løsninger:

  1. Stop de programmer, der forårsager udsultning af CPU / hukommelsesressource, eller kontakt applikationsleverandøren for opdateringer for at afhjælpe ressourceproblemet. 
  2. Brug CPU/hukommelsestrendværktøjer (top/sar/cron-job/osv.) til at finde ud af, hvilket program der tager ressourcerne. Intervaller på 1 sekund anbefales for at opnå den granularitet, der er nødvendig for at vise, hvornår problemet opstår, og hvem der er ansvarlig
  3. Opgrader værts-CPU en og/eller -hukommelsen for at give den flere ressourcer
  4. Opret en ny arkitektur til en tolagsopsætning i stedet for et konvergeret system (hvis SDS/SDC er på samme vært)

추가 정보

문서 속성
문서 번호: 000167765
문서 유형: Solution
마지막 수정 시간: 24 11월 2025
버전:  5
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.