ECS: Radering Kodning, återskapande med nodavbrott på ett ECS-kluster med fyra noder
Summary: Från och med ECS-version 3.4 initieras inte radering Kodningsåterställning initieras inte automatiskt om det uppstår ett nodavbrott på ett ECS-kluster med fyra noder.
Symptoms
I ECS-versioner före 3.4, om endast tre felfria noder återstod, initierade ECS återställning av kunddata till tre speglade kopior, en per nod. Det här designbeslutet fattades för att maximera dataskyddet för kunddata. Processen kallas också att EC (Erasure Coding) går i pension.
EC är en algoritm som minskar lagringsutrymmet samtidigt som den skyddar data mot disk- eller nodfel.
När data är raderingskodade är det fysiska utrymmet som krävs på en ECS ungefär 1,33x för lagring av kunddata (12 datasegment + 4 paritetssegment). Men om ECS börjar dras tillbaka från EC ökar det fysiska utrymmet som krävs för kunddata från 1,33x till 3x.
Detta kan leda till att ECS når tröskelvärdet på 90 % kapacitetsutnyttjande, vilket gör att ECS försätts i skrivskyddat läge och data blir otillgängliga.
Cause
Resolution
För att förbättra dataskyddet och undvika att kapacitetströskeln på 90 % överskrids ändrades standardbeteendet för ECS-kluster med endast tre felfria noder.
I 3.4 gjordes designändringen så att ECS inte längre implementerar EC Retiring automatiskt när endast tre noder är felfria/online. Systemet körs i ett degraderat tillstånd och kan stöta på prestandaproblem, men kommer sannolikt att undvika en DU. Nya skrivningar fortsätter att skrivas som tre speglade kopior och kommer att raderingskodas när det finns 4+ noder online och tillgängliga att skriva till.
Eventuella ytterligare enhetsfel kan orsaka enstaka DU:er. Det kan även öka exponeringen något för en potentiell dataförlust (DL), men det är fortfarande osannolikt.
Överväg också att utöka ECS till fem eller flera noder. Det minskar ECS-exponeringen för prestandaförsämring, DU och DL-situationer vid nodfel. Mer information om ECS-arkitekturen finns i ECS-adminmanualen.