Los conjuntos de fallas son una característica opcional de I/O de escalamiento que permite a un administrador administrar la disponibilidad del sistema a escala del centro de datos. En un sistema configurado con conjuntos de fallas, el I/O de escalamiento puede continuar sirviendo datos si falla un rack o chasis completo. Comencemos con un ejemplo. El administrador de I/O de escala definió los conjuntos de fallas en el nivel del rack debido a consideraciones ambientales, como alimentación limitada o redundancia; los conjuntos de fallas proporcionan unidades de redundancia. Para ello, imponen restricciones físicas en torno a dónde se pueden contener las copias de datos redundantes, ya que se escriben fragmentos de datos en el sistema, y las copias principal y secundaria se colocan en diferentes conjuntos de fallas.
Esto significa que, si falla un rack completo, las copias redundantes seguirán estando disponibles dentro de otros conjuntos de fallas. Dado que este sistema se configuró con conjuntos de fallas a nivel de rack como unidad de redundancia, la I/O puede continuar mientras los nodos restantes trabajan en paralelo para reconstruir la protección de datos. Una vez que se haya reconstruido la protección de datos, el sistema estará en un estado en el que puede sobrevivir a la pérdida de otro rack y reconstruirse nuevamente si hay suficiente espacio libre. Además de proporcionar redundancia a nivel de rack, los conjuntos de fallas también se pueden usar para protegerse contra fallas del chasis. Cuando se utilizan servidores blade de otros fabricantes, los conjuntos de fallas también se pueden utilizar para colocar todos los nodos en un modo de rack o chasis y mantenimiento para las operaciones planificadas. Si ya está familiarizado con E/S de escalamiento, probablemente notó que un sistema con conjuntos de fallas se comporta de manera muy similar a un sistema sin conjuntos de fallas.
La diferencia es que un sistema sin conjuntos de fallas protege los datos mediante su espejeado en diferentes nodos físicos, un sistema con conjuntos de fallas. Sin embargo, coloca los datos espejeados en diferentes conjuntos de fallas. En este ejemplo, eso significa que las copias de datos en espejo que se muestran aquí se habrían colocado en diferentes conjuntos de fallas. Esto se debe a que, en un sistema sin conjuntos de fallas, la unidad de redundancia es un nodo. Pero en un sistema con conjuntos de fallas, la unidad de redundancia es un grupo de nodos, los conjuntos de fallas se definen dentro de dominios de protección. Un dominio de protección establece los límites donde se mantienen las copias de datos. El sistema de escalamiento I puede tener varios dominios de protección. Cada dominio de protección puede tener varios conjuntos de fallas.
Cuando un sistema está configurado con varios dominios de protección y conjuntos de fallas, el sistema puede recuperarse cuando fallan conjuntos de fallas y diferentes dominios de protección. Al mismo tiempo. En esta escala de configuración, puedo continuar suministrando datos cuando se pierden 40 nodos a la vez. Hoy, mostraremos una demostración de reducción de escala en la que fallan dos nodos a la vez. Hoy trabajaremos con un sistema de IO a escala de ocho nodos que consta de Dell PowerEdge 13 G, todos los nodos residen en un solo dominio de protección. En primer lugar, hay cuatro conjuntos de fallas con dos nodos, cada conjunto de fallas, ABC y D, cada nodo utiliza 2 puertos 10 Gigabit Ethernet. Y cada nodo tiene seis SDS S y 18 discos giratorios en este sistema. Todos los SDS de S se encuentran en un pool de almacenamiento y todos los discos giratorios están en otro. Un pool de almacenamiento es una recopilación elástica definida por software de unidades físicas que contiene datos de usuario.
Si es su primera vez en el escalamiento de IO, considere ver nuestro video sobre pools de almacenamiento. Después de finalizar este video con el sistema bajo carga, simularemos una falla de rack o chasis mediante la detención de los hipervisores en dos de los nodos a la vez en unos pocos segundos. Los nodos restantes del sistema comenzarán una operación de reconstrucción para restablecer la protección de datos. Una vez finalizada la operación de reconstrucción, examinaremos el estado del sistema y terminaremos aquí. Vemos la página inicial de I/O de escala. El sistema de I/O de escala tiene más de 190 terabytes de capacidad cruda y gestiona cargas de trabajo que constan de lecturas y escrituras. El sistema tiene un total de 100 y 91 unidades que constan de una combinación de Sds y medios giratorios distribuidos en ocho nodos. Como mostramos en la visualización, los ocho nodos están dentro del mismo dominio de protección.
En uno, podemos ver cada uno de los ocho nodos Dell PowerEdge 13 G que componen el clúster. Observe que el sistema está dividido en cuatro conjuntos de fallas que constan de dos nodos cada uno en producción. Es probable que cada conjunto de fallas contenga todos los nodos de un rack determinado. O si se utilizan servidores de otros fabricantes, cada conjunto de fallas puede contener todos los nodos de un chasis blade determinado. Como puede ver, la carga A y la capacidad se distribuyen uniformemente entre todos los nodos de este dominio de protección. Si está interesado en comprender la escala, incluso la IO y la distribución de capacidad, considere ver nuestro video sobre pools de almacenamiento. Después de que termine este video hoy, ilustraremos cómo Scale IO puede continuar sirviendo datos. Incluso cuando se pierden todos los nodos de un conjunto de fallas. Al mismo tiempo, lo haremos simulando una falla no planificada que derribe varios nodos a la vez. Para ello, detendremos los hipervisores que se ejecutan en los dos primeros nodos. Después de que los nodos bajen, la I/O de escala comenzará a redirigir la I/O del usuario a los nodos sobrevivientes y comenzará una operación de reconstrucción paralela entre los nodos que componen los conjuntos de fallas sobrevivientes.
Ahora detuvimos ambos nodos en el primer conjunto de fallas. Este segmento de video se muestra en tiempo real para mostrar la velocidad con la que la I/O de escala identifica la falla, redirige la I/O del usuario y comienza la operación de reconstrucción paralela. La I/O volvió a aumentar después de que el clúster de I/O de escala redirigió a los clientes a las ubicaciones que contienen fragmentos de datos redundantes a la derecha. El sistema muestra la actividad de reconstrucción que se produce a medida que se restablece la redundancia. Todos los nodos trabajan en paralelo para restablecer la redundancia. Pero, como antes, los fragmentos de datos redundantes no se colocarán dentro del mismo conjunto de fallas.
Ahora esperaremos a que se complete la operación de reconstrucción. Se completó la reconstrucción. La actividad de I/O del usuario continuó a pesar de la pérdida del conjunto de fallas, una operación de rebalanceo distribuyó uniformemente la carga y la capacidad entre todos los miembros sobrevivientes. Cuando los nodos de este conjunto de fallas vuelvan a estar en línea, el sistema se rebalanceará nuevamente para hacer uso de toda la capacidad disponible. Los conjuntos de fallas también se pueden utilizar para facilitar las operaciones planificadas que involucran grupos de servidores, ya que permiten que el administrador coloque varios nodos y modos de mantenimiento. Al mismo tiempo. Tenga en cuenta que para lograr los beneficios de los conjuntos de fallas, el sistema debe tener suficiente espacio libre para reconstruir los pools de almacenamiento en los conjuntos de fallas que sobreviven.
Esta es la razón por la que los conjuntos de fallas son una característica opcional de I/O de escalamiento en muchas implementaciones; los dominios de protección configurados sin conjuntos de fallas son suficientes. Tenga en cuenta también que si se utilizan conjuntos de fallas, se debe definir un mínimo de tres conjuntos de fallas. Terminemos y revisemos los aspectos básicos de los conjuntos de fallas de escala I, los conjuntos de fallas y las unidades de control de redundancia dentro de un dominio de protección de manera predeterminada. El diseño de espejeado de malla de Scios funciona en todos los nodos cuando se definen conjuntos de fallas. El diseño en espejo de Scow funciona en todos los conjuntos de fallas. Los conjuntos de fallas proporcionan resistencia contra varios nodos en un dominio de protección que se desactivan a la vez.
Para ello, agrupan los nodos que probablemente experimenten una falla. Los conjuntos de fallas se pueden utilizar para proporcionar redundancia a nivel de rack en casos en los que la redundancia de alimentación o red es un problema. Por último, los conjuntos de fallas pueden proporcionar redundancia a nivel del chasis. Cuando los servidores blade están en uso, la escala de conjuntos de fallas permite que un administrador administre la disponibilidad del sistema a escala de centro de datos. Aportan redundancia con reconocimiento de hardware y ubicación al almacenamiento definido por software de nivel empresarial.