ECS: Erasure Coding-Neuaufbau mit Node-Ausfall auf einem ECS-Cluster mit vier Nodes
Summary: Ab ECS-Version 3.4 wird der Erasure Coding-Neuaufbau nicht automatisch initiiert, wenn es in einem ECS-Cluster mit vier Nodes zu einem Node-Ausfall kommt.
Symptoms
Wenn in ECS-Versionen vor 3.4 nur noch drei funktionsfähige Nodes vorhanden waren, initiierte ECS die Wiederherstellung von Kundendaten auf drei gespiegelte Kopien, eine pro Node. Diese Designentscheidung wurde getroffen, um die Data Protection für Kundendaten zu maximieren. Der Prozess wird auch als Stilllegung von EC (Erasure Coding) bezeichnet.
EC ist ein Algorithmus, der den Speicherplatz reduziert und gleichzeitig Daten vor Festplatten- oder Node-Ausfällen schützt.
Wenn Daten mit Erasure Coding versehen werden, beträgt der physische Speicherplatzbedarf auf einem ECS etwa das 1,33-fache für die Speicherung von Kundendaten (12 Datensegmente + 4 Paritätssegmente). Wenn ECS jedoch mit der Stilllegung von ECS beginnt, erhöht sich der für Kundendaten erforderliche physische Speicherplatz von 1,33-mal auf 3-fach.
Dies kann dazu führen, dass ECS den Kapazitätsauslastungsschwellenwert von 90 % erreicht, was dazu führt, dass ECS in den schreibgeschützten Modus wechselt und Daten nicht verfügbar sind.
Cause
Resolution
Um die Data Protection zu verbessern und zu vermeiden, dass der Kapazitätsschwellenwert von 90 % überschritten wird, wurde das Standardverhalten für ECS-Cluster mit nur drei fehlerfreien Nodes geändert.
In 3.4 wurde die Designänderung dahingehend vorgenommen, dass ECS die Stilllegung von EC nicht mehr automatisch implementiert, wenn nur drei Nodes funktionsfähig/online sind. Das System wird in einem heruntergestuften Zustand ausgeführt und es können Leistungsprobleme auftreten, aber wahrscheinlich wird eine Nichtverfügbarkeit von Daten vermieden. Neue Schreibvorgänge werden weiterhin als drei gespiegelte Kopien geschrieben und mit Erasure Coding kodiert, sobald 4+ Nodes online und beschreibbar sind.
Jeder zusätzliche Laufwerksausfall kann zu isolierten DUs führen. Dies kann auch das Risiko eines potenziellen Datenverlusts (DL) leicht erhöhen, ist jedoch immer noch unwahrscheinlich.
Ziehen Sie außerdem in Betracht, das ECS auf fünf oder mehr Nodes zu erweitern. Sie verringert die Anfälligkeit von ECS für Performanceeinbußen sowie DU- und DL-Situationen während eines Node-Ausfalls. Weitere Informationen zur ECS-Architektur finden Sie im ECS-Administratorhandbuch.