XtremIO: DPG tiene dos fallas simultáneas de SSD que causan un impacto en el rendimiento
Summary: En este artículo, se proporciona información sobre cómo XtremIO administra dos fallas simultáneas de unidades de estado sólido (SSD) en un grupo de protección de datos (DPG) y se explica cómo puede afectar el rendimiento. También se ofrecen algunas recomendaciones sobre cómo ayudar a reducir el impacto en el rendimiento mientras se reconstruye el DPG. ...
Symptoms
Se observa un impacto en el rendimiento cuando una segunda SSD falla antes de que el DPG complete una reconstrucción a partir de una falla de SSD anterior.
Cause
En un XtremIO, si una SSD falla, el DPG se reconstruye en las SSD restantes en buen estado para mantener la protección de datos. El proceso de reconstrucción de DPG es diferente para fallas de una sola SSD que para dos fallas simultáneas de SSD.
Cuando falla una sola SSD:
- El sistema entra en un único estado degradado y solo tiene un bloque de paridad para recuperar los datos.
- La reconstrucción de DPG comienza a reconstruir los datos del disco SSD fallido en los discos SSD restantes en buen estado para volver a un estado de bloque de paridad doble para la protección de datos.
- Cuando DPG se reconstruye a partir de una falla de una sola SSD, el proceso de reconstrucción se realiza en segundo plano y las I/O entrantes siguen teniendo prioridad.
Cuando se producen dos fallas simultáneas de SSD en el mismo DPG:
- El sistema entra en un estado degradado doble, lo que significa que no queda protección de paridad.
- El riesgo de pérdida de datos aumenta drásticamente, por lo que el sistema prioriza la recuperación. Esto utiliza más CPU para reconstruir el DPG más rápido.
- XtremIO prioriza las operaciones de reconstrucción sobre las I/O del usuario, lo que consume los recursos de CPU y memoria para evitar la pérdida de datos.
- Este tipo de reconstrucción requiere actualizaciones masivas de metadatos. Debe calcular la paridad para cada banda afectada y realiza comprobaciones de integridad de los datos para ayudar a garantizar que no haya daños.
Alertas que pueden presentarse cuando el DPG se está reconstruyendo:
| Nombre de la alerta | Código del síntoma | Descripción |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
Se inició la reconstrucción de DPG. |
rebuild_20_to_40_done |
XTR0800221 |
La reconstrucción de DPG está en curso. Más del 20 por ciento de la reconstrucción se ha completado. |
rebuild_40_to_60_done |
XTR0800231 |
La reconstrucción de DPG está en curso. Más del 40 por ciento de la reconstrucción se ha completado. |
rebuild_60_to_80_done |
XTR0800241 |
La reconstrucción de DPG está en curso. Se ha completado más del 60 por ciento de la reconstrucción. |
rebuild_99_done |
XTR0800251 |
La reconstrucción de DPG está en curso. Se ha completado más del 80 por ciento de la reconstrucción. |
rg_state_integrate |
XTR0800904 |
El DPG está realizando la integración de SSD. |
ssd_assigning_to_rg |
XTR0900106 |
La SSD se está asignando al DPG. |
El comando de la CLI show-data-protection-groups también se puede ejecutar para comprobar el progreso de una reconstrucción de DPG:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
Resolution
Cuando dos SSD dentro del mismo DPG fallan simultáneamente, el rendimiento puede verse afectado debido a los recursos consumidos para reconstruir la paridad. No hay forma de detener la reconstrucción de DPG, ni hay un comando para acelerarla. Sin embargo, si el cliente experimenta una degradación significativa del rendimiento debido al modo de protección doblemente degradado (rg_double_degrade), las siguientes acciones pueden ayudar a reducir el impacto, si es posible:
- Ponga en pausa los trabajos de I/O intensos, de replicación o de respaldo hasta que se complete la reconstrucción de DPG.
- Si es posible, conmute por error la mayoría de los hosts activos a otro almacenamiento hasta que finalice la reconstrucción de DPG.
- Si utiliza máquinas virtuales, apague o migre las máquinas virtuales o ponga los hosts en modo de mantenimiento.
- Si es posible, utilice QoS o la regulación del lado del host para reducir la carga en el arreglo durante la reconstrucción.
Una vez finalizada la reconstrucción de DPG, se debe resolver cualquier impacto en el rendimiento relacionado.
Additional Information
Artículos relacionados:
(Es posible que deba iniciar sesión como usuario registrado del soporte de Dell para ver estos artículos).