ECS: Reconstrucción de codificación de eliminación con interrupción de nodos en un clúster de ECS de cuatro nodos
Summary: A partir de la versión 3.4 de ECS, la reconstrucción de la codificación de eliminación no se inicia automáticamente si hay una interrupción del nodo en un clúster de cuatro nodos de ECS. ...
Symptoms
En las versiones de ECS anteriores a 3.4, si solo quedaban tres nodos en buen estado, ECS iniciaba la restauración de los datos del cliente en tres copias espejeadas, una por nodo. Esta decisión de diseño se tomó para maximizar la protección de datos para los datos del cliente. El proceso también se conoce como retiro de EC (codificación de borrado).
EC es un algoritmo que reduce el espacio de almacenamiento y, al mismo tiempo, protege los datos contra fallas de discos o nodos.
Cuando los datos están codificados por eliminación, el espacio físico requerido en un ECS es de aproximadamente 1,33 veces para almacenar los datos del cliente (12 segmentos de datos + 4 segmentos de paridad). Sin embargo, si ECS comienza a retirar EC, el espacio físico necesario para los datos del cliente aumenta de 1,33 veces a 3 veces.
Esto puede provocar que ECS alcance el umbral de utilización de la capacidad del 90 %, lo que provoca que ECS entre en modo de solo lectura y que los datos dejen de estar disponibles.
Cause
Resolution
Para mejorar la protección de datos y evitar superar el umbral de capacidad del 90 %, se cambió el comportamiento predeterminado para los clústeres de ECS con solo tres nodos en buen estado.
En 3.4, el cambio de diseño se realizó de manera tal que ECS ya no implementará el retiro automático de EC cuando solo tres nodos estén en buen estado/en línea. El sistema se ejecuta en un estado degradado y puede experimentar problemas de rendimiento, pero es probable que evite una DU. Las escrituras nuevas continúan escribiéndose como tres copias espejeadas y se codificarán para eliminación una vez que haya 4+ nodos en línea y disponibles para escribir.
Cualquier falla adicional en la unidad puede causar eventos de DU aislados y también puede aumentar ligeramente la exposición a una posible pérdida de datos (DL); sin embargo, sigue siendo poco probable.
Además, considere expandir ECS a cinco o más nodos. Disminuye la exposición de ECS a situaciones de degradación del rendimiento, DU y DL durante la falla del nodo. Para obtener más detalles sobre la arquitectura de ECS, consulte la Guía del administrador de ECS.