PowerFlex: Felsökning av resursproblem

요약: Problem med och felsökning av PowerFlex-resursproblem

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

Onormalt beteende från PowerFlex-processerna leder till att PowerFlex-processer stöter på resurskonkurrens med andra program- eller maskinvarukomponenter.

Symtomen här kan vara många och varierande. Detta är en ofullständig lista över symtom och resultat

 

MDM-problem:

 - Failover-funktion för MDM-ägarskap uppstår när MDM-processer fastnar och förlorar kommunikationen med andra MDM-enheter

From exp.0:
Panic in file /emc/svc_flashbld/workspace/ScaleIO-RHEL7/src/mos/umt/mos_umt_sched_thrd.c, line 1798, function mosUmtSchedThrd_SuspendCK, PID 36721.Panic Expression ALWAYS_ASSERT Scheduler guard seems to be dead.
 
From trc.*
24/02 15:54:16.087919 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x106d9360(0) in scheduler 0x7fff580c4880, running UMT 0x7f39ad00ceb8, found to be stuck.
24/02 15:54:16.088226 ad417eb8:actorLoop_IsSchedThredStuck:10932: Stuck scheduler thread identified
24/02 15:54:16.088253 ad417eb8:actor_Loop:11257: Lost quorum. ourVoters: 0 votersOwnedByOther: [0,0]
24/02 15:54:16.088299 ---Planned crash, reason: Lost quorum, going down to let another MDM become master ---

 

 - MDM-processen kommer att koppla från och återansluta hela tiden under en viss tid

2017-02-23 14:00:43.241 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 14:00:43.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-23 23:05:25.852 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 23:05:26.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-24 15:54:16.141 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-24 15:54:16.238 MDM_CLUSTER_CONNECTED    	INFO     	The MDM, ID 089012db4d536880, connected 

 

 

SDS-problem:

 - SDS kommer att koppla från och återansluta konstant under en tid

2017-02-15 13:18:16.881 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-16 03:37:37.327 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-16 03:39:54.300 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-17 04:03:41.757 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-17 04:09:13.604 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected

 

 - SDS kan visa oscillerande fel i trc-filer angående anslutningsförlust till andra SDS-noder:

14/02 19:13:24.096983 1be7eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.196814 1be7eb8:contNet_OscillationNotif:01675: Con 1eb053000000000b - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.296713 1be7eb8:contNet_OscillationNotif:01675: Con 1eb0530000000007 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 21:48:43.917218 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000007 - Oscillation of type 1 (SOCKET_DOWN) reported
14/02 21:48:43.917296 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 1 (SOCKET_DOWN) reported

 

 - SDS kan visa låsta eller fastnade trådar i trc-filer: 

 
14/02 19:13:24.147938 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148113 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148121 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
 
14/02 20:52:54.097765 242f0eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:43.510602 7fa30eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:44.776713 1b67ceb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 
14/02 02:44:41.532007 e2239eb8:contNet_OscillationNotif:01675: Con 1eb052fd00000001 - Oscillation of type 3 (RCV_KA_DISCONNECT) reported
14/02 02:44:43.799135 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0de10(0) in scheduler 0x7fff01bec400, running UMT 0x7f94e221eeb8, found to be stuck.
14/02 02:44:43.799155 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0e050(1) in scheduler 0x7fff01bec400, running UMT 0x7f94e2227eb8, found to be stuck.
14/02 02:44:43.799257 e0e38eb8:cont_IsSchedThredStuck:01678: Stuck scheduler thread identified
14/02 02:44:43.799267 e0e38eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 

 

 - SDS kan visa "felförgrening" i trc-filer:

01/09 00:37:51.329020 0x7f1001c58eb0:mosDbg_BackTraceAllOsThreads:00673: Error forking.

 

 – SDS kan inte starta på grund av att det inte går att allokera det minne som krävs.
Följande rapporteras i exp-loggfiler:

07/09 00:41:52.713502 Panic in file /data/build/workspace/ScaleIO-SLES12-2/src/mos/usr/mos_utils.c, line 235, function mos_AllocPageAlignedOrPanic, PID 25342.Panic Expression pMem != ((void *)0) .

 

 - Operativsystemet kan också ha vissa symptom i /var/log/messages eller systemhändelseloggar:

/var/log/messages:
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683555] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683561] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683566] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683570] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:27:39 ScaleIO-192-168-1-2 kernel: [7461266.566145] sched: RT throttling activated

 

Meddelandena "SYN-översvämning på port 7072" innebär att nätverksdatapaket skickas till SDS på den här värden och SDS kan inte ta emot paketen på den porten. SDS använder port 7072 som standard.
"RT-begränsning aktiverad" är ett meddelande om att OS-schemaläggaren har identifierat några realtidstrådar som tar upp processorn och svälter andra trådar. Operativsystemet gör detta i ett försök att strypa dessa realtidsuppgifter och förhindra att operativsystemet hänger sig eller kraschar.  

 
 
SDC-problem:

SDC kan också drabbas av IO-fel när SDS:erna kopplas från ofta eller inte kan svara på SDC tillräckligt snabbt och fortfarande försöker underhålla de IO-block som den äger.

 

Påverkan

Ovanstående symtom kan resultera i DATA_DEGRADED, DATA_FAILED händelser samt CLUSTER_DEGRADED.

원인

Om alla ovanstående symptom matchar är det troligen ett problem med processor- eller minnesresurssvält. Leta efter program eller processer från tredje part som körs och som kan svälta processorn och minnet från MDM- eller SDS-processerna.

I en virtuell miljö hade processorn ett par gånger dålig prestanda. Detta orsakas av att SVM:erna definieras under samma resurspool.

I sådana fall bör vi råda dig att inte placera SVM:erna i resurspoolen utan att ha deras dedikerade resurser enligt definitionen i SVM.

해결

Kontrollera att PowerFlex-komponenterna (MDM, SDS, SDC) har justerats för prestandainställningar. Se manualerna för Finjustering av prestanda och Felsökning som du hittar här.

 

Granskning av konfiguration:

  1. Kontrollera först att SVM CPU- och RAM-inställningarna är enligt bästa praxis: 
    1. SVM CPU-inställningar: (Kan ställas in i farten)
      1. Kärnor per sockel: allt i ett uttag, så "Socklar" har värdet "1". (Det totala antalet kärnor bestäms av behoven hos det säkerhetsdatablad som den är värd för: All-Flash, FG, DASCache, Cloudlink, 3.5 osv. påverkar (ökar) processorbehovet.)
      2. Bokning: Välj värdet "Maximum" i listrutan
      3. Aktier: Hög
      4. Detta bör se ut så här: 

Inställningar för SVM CPU

 

b. SVM RAM-inställningar: (Kan ställas in i farten)

  1. Markera "Reservera alla gästminnen (alla låsta)"
  2. Aktier: Hög
  3. Detta bör se ut så här:

Inställningar för SVM RAM

 

 

c. Inställningar för överallokering av SVM OS-minne för gäst: (Kräver omstart)

    1. Kör sysctl -a|grep överallokering för att bekräfta att överallokeringsinställningarna är korrekta:
      # sysctl -a|grep overcommit
      vm.overcommit_memory = 2
      vm.overcommit_ratio = 100
    2. Om ovanstående värden inte anges kommer vissa SVM-minnen att vara oanvändbara för SDS-processen. Korrigera detta genom att redigera /etc/sysctl.conf och redigera/lägga till ovanstående värden

    3. Sätt SDS i underhållsläge och starta om SVM för att tillämpa inställningarna
    4. Bekräfta genom att köra "cat /etc/sysctl.conf|grep overcommit" efter omstart
    5. Avsluta underhållsläge
  1. Så här hittar du dessa i loggar:
    1. SVM-konfiguration (vmsupport):
      1. En korrekt konfigurerad SVM-VMX-fil innehåller följande:

sched.cpu.units = "mhz"
sched.cpu.affinity = "all"
sched.cpu.min = "25930"     (nonzero value that's equal to core speed * the # of cores allocated)
sched.cpu.shares = "high"
sched.mem.min = "24576"     (nonzero value that's a full allocation of configured memory)
sched.mem.minSize = "24576" (nonzero value that's a full allocation of configured memory)
sched.mem.shares = "high"
cpuid.coresPerSocket = "10" (value equal to total # of cores allocated, so they're all in one socket)
sched.mem.pin = "TRUE"

 

  1. Felaktiga (inaktuella) SVMconfigs kommer att ha följande:
sched.cpu.min = "0"
sched.cpu.shares = "normal"
sched.mem.pin = "FALSE"
sched.mem.shares = "normal"
cpuid.coresPerSocket = "4" (value less than total # of cores allocated, usually 1/2 or 1/4)
 
Konfiguration av gästoperativsystem (getinfo):
  1. Korrekt konfigurerat minne överallokerat:

    Filservern/sysctl.txt innehåller:

vm.overcommit_memory = 2
vm.overcommit_ratio = 100

 

  1. PowerFlex använder en ansenlig mängd RAM-minne för var och en av tjänsterna för att köras i minnet och med hög hastighet. Det är därför det inte stöder användning av växling som ska användas för att avlasta någon av PowerFlex-tjänsterna.

    Standardinställningen som förväntas för Endast lagring och SVM:er i en HCI-lösning är ett överallokerat minne på 2. På detta sätt kommer kärnan inte att överprenumerera på minne, och utan inställningar för att ingen växling används, säkerställs att inget commit_as värde är större än det totala lediga/tillgängliga minnet.

    Förhållandet 100 säkerställer att ingen swap också används, för mer kontroll till att blockbyte används.

  2. Felaktigt konfigurerat minne överallokerat:
    Filservern/sysctl.txt innehåller:

vm.overcommit_memory = 0  (value not 2)
vm.overcommit_ratio = 50  (value less than 95)

 

Andra möjliga lösningar:

  1. Stoppa de program som orsakar utsvultna processor-/minnesresurser eller kontakta programleverantören för att få uppdateringar som kan minska resursslukningen. 
  2. Använd trendverktyg för processor/minne (top/sar/cron-jobb/osv.) för att ta reda på vilket program som tar resurserna. Intervall på 1 sekund rekommenderas för att få den granularitet som krävs för att visa när problemet uppstår och vem som är ansvarig
  3. Uppgradera värdprocessorn och/eller minnet för att ge den mer resurser
  4. Omstrukturera till en tvålagersinstallation i stället för ett konvergerat system (om SDS/SDC finns på samma värd)

추가 정보

문서 속성
문서 번호: 000167765
문서 유형: Solution
마지막 수정 시간: 24 11월 2025
버전:  5
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.