PowerFlex 3.X: Las escrituras lentas en el disco del SO pueden causar varios problemas de MDM.

Summary: Las escrituras lentas en el disco del sistema operativo pueden causar varios problemas de MDM.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Se puede presentar cualquier cantidad de situaciones como resultado de un disco lento del sistema operativo en un MDM.

En ScaleIO 3.0, el mecanismo de MDM se ha hecho más robusto para manejar mejor los problemas de disco del SO que se encuentran muy lentos. (latencia de 10+ segundos)


Cuando los MDM se ejecutan en discos del sistema operativo que tardan demasiado en escribirse, es posible que se observen los siguientes síntomas:

  • Poner un SDS en mantenimiento hace que el MDM maestro se desconecte.

  • Un evento de reconstrucción hace que el MDM maestro y, posiblemente, también los MDM esclavos se desconecten.

  • El cambio de MDM no funciona; Los MDM esclavos no pueden asumir las responsabilidades del MDM maestro y, por lo tanto, ningún MDM es maestro.

  • El resultado de "scli --query_cluster" muestra MDM esclavos que no se sincronizan ocasionalmente.

  • El SDC escribe errores de I/O.

En todas las situaciones, "El endurecimiento tardó demasiado" se ve en los registros de trc de MDM:

08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms
08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms
08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms

Impacto

Las escrituras del repositorio de MDM que superan el umbral de endurecimiento significan que MDM no está sincronizado.
Esto significa que el clúster de MDM no está sincronizado y los procesos de MDM se reinician. 
Si los MDM se reinician de manera rápida/repetida lo suficiente, se pueden producir situaciones completas de datos no disponibles (cuando no hay una MDM maestra disponible), como en el caso de que el clúster de MDM esté inactivo después de que se produzcan conmutaciones por error repetidas. 

Cause

Cuando el MDM maestro debe realizar cambios en el estado de los bloques de datos, debe escribir estos cambios de estado en el archivo del repositorio del MDM y, a continuación, sincronizar esos cambios con los MDM esclavos. Cuando se completan esas escrituras, el MDM notifica a los SDS que los cambios se finalizaron y pueden suministrar I/O de escritura a los SDC solo desde la copia principal (hasta que se completa la reconstrucción). Si el MDM maestro tarda más de 500 milisegundos (medio segundo) en escribir los cambios en el repositorio local, los mensajes "El endurecimiento tardó demasiado" se mostrarán en los registros de trc del MDM. Esto hace que el MDM no pueda responder con la suficiente rapidez a las solicitudes del SDS y puede causar errores de I/O en los SDC. El MDM permanecerá en este estado hasta que la I/O pueda escribir en el repositorio en menos de 500 milisegundos o después de 10 segundos cuando se producirá una propiedad de cambio de MDM dentro del clúster. 

Resolution

La solución es resolver el problema de latencia de disco del SO.  

Esto puede deberse a:

  • Reconstrucciones de RAID (los Ready Nodes 14G tienen tarjetas BOSS con 2 unidades SATA m.2 en RAID1)

  • Desgaste/antigüedad del disco

  • Dimensionamiento/selección incorrectos de discos de SO (HDD, SSD lentos/baratos, etc., generalmente solo en configuraciones de software)

  • Errores en el firmware de disco/controladora de disco del SO

  • Estado de falla predictiva/falla de disco 

  • Pero la causa más común es una carga de I/O extraña en el disco del sistema operativo. 

En cualquier caso, es necesario monitorear/perfilar el rendimiento del disco del sistema operativo.

La latencia del disco se puede monitorear mediante sar o iostat. 

La herramienta más fácil/universalmente disponible es iostat. 

Ejecutar 

iostat -xtN 1

Y observe los tiempos de espera, informados en milisegundos. 

Todas las versiones se ven afectadas.

Affected Products

Converged Infrastructure

Products

Converged Infrastructure, Software, Storage, PowerFlex Software
Article Properties
Article Number: 000201707
Article Type: Solution
Last Modified: 19 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.