PowerFlex: Solución de problemas de contención de recursos

요약: Problemas y solución de problemas de contención de recursos de PowerFlex

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

El comportamiento anormal de los procesos de PowerFlex se produce cuando los procesos de PowerFlex se ejecutan en contención de recursos con otros componentes de software o hardware.

Los síntomas aquí pueden ser muchos y variados. Esta es una lista parcial de los síntomas y resultados

 

Problemas de MDM:

 - La conmutación por error de la propiedad de MDM se produce a medida que los procesos de MDM se bloquean y pierden la comunicación con los otros MDM.

From exp.0:
Panic in file /emc/svc_flashbld/workspace/ScaleIO-RHEL7/src/mos/umt/mos_umt_sched_thrd.c, line 1798, function mosUmtSchedThrd_SuspendCK, PID 36721.Panic Expression ALWAYS_ASSERT Scheduler guard seems to be dead.
 
From trc.*
24/02 15:54:16.087919 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x106d9360(0) in scheduler 0x7fff580c4880, running UMT 0x7f39ad00ceb8, found to be stuck.
24/02 15:54:16.088226 ad417eb8:actorLoop_IsSchedThredStuck:10932: Stuck scheduler thread identified
24/02 15:54:16.088253 ad417eb8:actor_Loop:11257: Lost quorum. ourVoters: 0 votersOwnedByOther: [0,0]
24/02 15:54:16.088299 ---Planned crash, reason: Lost quorum, going down to let another MDM become master ---

 

 - El proceso de MDM se desconectará y se volverá a conectar constantemente durante algún tiempo

2017-02-23 14:00:43.241 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 14:00:43.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-23 23:05:25.852 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-23 23:05:26.422 MDM_CLUSTER_CONNECTED     	INFO     	The MDM, ID 089012db4d536880, connected 
2017-02-24 15:54:16.141 MDM_CLUSTER_LOST_CONNECTION 	WARNING  	The MDM, ID 089012db4d536880, lost connection 
2017-02-24 15:54:16.238 MDM_CLUSTER_CONNECTED    	INFO     	The MDM, ID 089012db4d536880, connected 

 

 

Problemas de SDS:

 - El SDS se desconectará y se volverá a conectar constantemente durante algún tiempo

2017-02-15 13:18:16.881 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-16 03:37:37.327 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-16 03:39:54.300 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected
2017-02-17 04:03:41.757 SDS_DECOUPLED             ERROR    	 SDS: siosds2 (id: 1eb052fe00000001) decoupled.
2017-02-17 04:09:13.604 SDS_RECONNECTED           INFO     	 SDS: siosds2 (ID 1eb052fe00000001) reconnected

 

 - Es posible que SDS muestre errores oscilantes en los archivos trc relacionados con la pérdida de conectividad con otros nodos de SDS:

14/02 19:13:24.096983 1be7eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.196814 1be7eb8:contNet_OscillationNotif:01675: Con 1eb053000000000b - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 19:13:24.296713 1be7eb8:contNet_OscillationNotif:01675: Con 1eb0530000000007 - Oscillation of type 5 (RPC_LINGERED_1SEC) reported
14/02 21:48:43.917218 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000007 - Oscillation of type 1 (SOCKET_DOWN) reported
14/02 21:48:43.917296 afb28eb8:contNet_OscillationNotif:01675: Con 1eb052fe00000005 - Oscillation of type 1 (SOCKET_DOWN) reported

 

 - Es posible que el SDS muestre subprocesos interbloqueados o atascados en los archivos trc: 

 
14/02 19:13:24.147938 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148113 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
14/02 19:13:24.148121 9aa4eeb8:netPath_IsKaNeeded:01789: DEBUG ASSERT, Reason:Socket deadlocked. Crashing.
 
14/02 20:52:54.097765 242f0eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:43.510602 7fa30eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
14/02 21:48:44.776713 1b67ceb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 
14/02 02:44:41.532007 e2239eb8:contNet_OscillationNotif:01675: Con 1eb052fd00000001 - Oscillation of type 3 (RCV_KA_DISCONNECT) reported
14/02 02:44:43.799135 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0de10(0) in scheduler 0x7fff01bec400, running UMT 0x7f94e221eeb8, found to be stuck.
14/02 02:44:43.799155 0:schedThrdGuard_SampleLivnes:01463: WARNING: pThread 0x1a0e050(1) in scheduler 0x7fff01bec400, running UMT 0x7f94e2227eb8, found to be stuck.
14/02 02:44:43.799257 e0e38eb8:cont_IsSchedThredStuck:01678: Stuck scheduler thread identified
14/02 02:44:43.799267 e0e38eb8:kalive_StartIntr:00346: KA aborted due to stuck sched thread
 

 

 - Es posible que el SDS muestre un "error de bifurcación" en los archivos trc:

01/09 00:37:51.329020 0x7f1001c58eb0:mosDbg_BackTraceAllOsThreads:00673: Error forking.

 

 - SDS no se puede iniciar debido a un error en la asignación de la memoria necesaria.
Se informa lo siguiente en los archivos de registro exp:

07/09 00:41:52.713502 Panic in file /data/build/workspace/ScaleIO-SLES12-2/src/mos/usr/mos_utils.c, line 235, function mos_AllocPageAlignedOrPanic, PID 25342.Panic Expression pMem != ((void *)0) .

 

 - El sistema operativo también puede tener algunos síntomas en /var/log/messages o en los registros de eventos del sistema:

/var/log/messages:
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683555] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683561] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683566] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:25:08 ScaleIO-192-168-1-2 kernel: [7461116.683570] TCP: Possible SYN flooding on port 7072. Sending cookies.
Feb  14 13:27:39 ScaleIO-192-168-1-2 kernel: [7461266.566145] sched: RT throttling activated

 

Los mensajes "Inundación SYN en el puerto 7072" significan que los paquetes de datos de red se están enviando al SDS en este host y el SDS no puede aceptar los paquetes en ese puerto. El SDS utiliza el puerto 7072 de manera predeterminada.
La "RT throttling activated" es un mensaje que indica que el programador del sistema operativo identificó algunos subprocesos en tiempo real que acaparan la CPU y privan a otros subprocesos. El sistema operativo hace esto en un intento de regular esas tareas en tiempo real y evitar que el sistema operativo se bloquee o se bloquee.  

 
 
Problemas de SDC:

El SDC también puede sufrir errores de I/O cuando los SDS se desconectan con frecuencia o no pueden responder al SDC con la suficiente rapidez y aún intentan reparar los bloques de I/O que le pertenecen.

 

Impacto

Los síntomas anteriores pueden provocar DATA_DEGRADED, eventos DATA_FAILED y CLUSTER_DEGRADED.

원인

Si todos los síntomas anteriores coinciden, lo más probable es que se trate de un problema de escasez de recursos de CPU o memoria. Busque aplicaciones o procesos de terceros en ejecución que puedan privar a la CPU y la memoria de los procesos de MDM o SDS.

En un entorno virtual, un par de veces la CPU tuvo un rendimiento deficiente. Esto se debe a que las SVM se definen en el mismo pool de recursos.

En tales casos, se recomienda no colocar las SVM en el pool de recursos, sino tener sus recursos dedicados como se define en la SVM.

해결

Asegúrese de que los componentes de PowerFlex (MDM, SDS, SDC) se hayan ajustado para la configuración de rendimiento. Consulte las guías de "Ajuste" y "Solución de problemas" de rendimiento que se encuentran aquí.

 

Revisión de la configuración:

  1. En primer lugar, confirme que los ajustes de CPU y RAM de la SVM cumplan con las prácticas recomendadas: 
    1. Ajustes de CPU de SVM: (Se puede configurar sobre la marcha)
      1. Núcleos por conector: todo en un conector, por lo que "Sockets" tiene un valor de "1". (La cantidad general de núcleos está determinada por las necesidades del SDS que aloja: Todo flash, FG, DASCache, Cloudlink, 3.5, etc., afectan (aumentan) el requisito de CPU).
      2. Reserva: Seleccione el valor "Maximum" en el menú desplegable
      3. Acciones: Alta
      4. Esto debería verse así: 

Configuración de CPU de SVM

 

b. Configuración de RAM de SVM: (Se puede configurar sobre la marcha)

  1. Marque "Reservar todos los recuerdos de invitado (todos bloqueados)"
  2. Acciones: Alta
  3. Esto debería verse así:

Configuración de RAM de SVM

 

 

c. Configuración de sobreasignación de memoria del SO de la SVM huésped: (Requiere reinicio)

    1. Ejecute sysctl -a|grep overcommit para confirmar que los ajustes de sobreasignación sean correctos:
      # sysctl -a|grep overcommit
      vm.overcommit_memory = 2
      vm.overcommit_ratio = 100
    2. Si no se configuran los valores anteriores, parte de la memoria de SVM quedará inutilizable para el proceso de SDS. Corrija esto editando /etc/sysctl.conf y editando/agregando los valores anteriores

    3. Coloque el SDS en modo de mantenimiento y reinicie la SVM para aplicar los ajustes
    4. Confirme mediante la ejecución de "cat /etc/sysctl.conf|grep overcommit" después del reinicio
    5. Salir del modo de mantenimiento
  1. Para encontrarlos en los registros:
    1. Configuración de SVM (vmsupport):
      1. Un archivo .vmx de la SVM configurado correctamente contendrá lo siguiente:

sched.cpu.units = "mhz"
sched.cpu.affinity = "all"
sched.cpu.min = "25930"     (nonzero value that's equal to core speed * the # of cores allocated)
sched.cpu.shares = "high"
sched.mem.min = "24576"     (nonzero value that's a full allocation of configured memory)
sched.mem.minSize = "24576" (nonzero value that's a full allocation of configured memory)
sched.mem.shares = "high"
cpuid.coresPerSocket = "10" (value equal to total # of cores allocated, so they're all in one socket)
sched.mem.pin = "TRUE"

 

  1. Las SVMconfigs incorrectas (obsoletas) tendrán lo siguiente:
sched.cpu.min = "0"
sched.cpu.shares = "normal"
sched.mem.pin = "FALSE"
sched.mem.shares = "normal"
cpuid.coresPerSocket = "4" (value less than total # of cores allocated, usually 1/2 or 1/4)
 
Configuración del SO huésped (getinfo):
  1. Sobreasignación de memoria configurada correctamente:

    El servidor/sysctl.txt de archivos contiene lo siguiente:

vm.overcommit_memory = 2
vm.overcommit_ratio = 100

 

  1. PowerFlex utiliza una cantidad considerable de RAM para que cada uno de los servicios se ejecute en la memoria y a alta velocidad. Esta es la razón por la que no soporta el uso de swap para descargar cualquiera de los servicios de PowerFlex.

    La configuración predeterminada que se espera para solo almacenamiento y SVM en una solución de HCI es una sobreasignación de memoria de 2. De esta manera, el kernel no sobresuscribirá la memoria y, sin la configuración en ningún intercambio que se utiliza, se asegura de que ningún valor de commit_as sea mayor que la memoria libre/disponible total.

    La relación de 100 garantiza que no se utilice ningún intercambio, para tener más control sobre el intercambio de bloques que se utiliza.

  2. Sobreasignación de memoria configurada incorrectamente:
    el servidor/sysctl.txt de archivos contiene lo siguiente:

vm.overcommit_memory = 0  (value not 2)
vm.overcommit_ratio = 50  (value less than 95)

 

Otras posibles soluciones alternativas:

  1. Detenga las aplicaciones que causan la escasez de recursos de CPU/memoria o consulte con el proveedor de aplicaciones para obtener actualizaciones a fin de aliviar el acaparamiento de recursos. 
  2. Utilice las herramientas de tendencias de CPU/memoria (top/sar/cron jobs/etc.) para averiguar qué aplicación está ocupando los recursos. Se recomiendan intervalos de 1 segundo a fin de obtener la granularidad necesaria para mostrar cuándo se produce el problema y quién es el responsable
  3. Actualice la CPU o la memoria del host para darle más recursos
  4. Vuelva a diseñar a una configuración de dos capas en lugar de un sistema convergente (si SDS/SDC están en el mismo host)

추가 정보

문서 속성
문서 번호: 000167765
문서 유형: Solution
마지막 수정 시간: 24 11월 2025
버전:  5
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.