ECS: Odbudowa kodowania usuwania z awarią węzła w czterowęzłowym klastrze ECS
Summary: Począwszy od wersji ECS 3.4, odbudowa kodowania wymazywania nie jest automatycznie inicjowana w przypadku awarii węzła w czterowęzłowym klastrze ECS.
Symptoms
W wersjach ECS wcześniejszych niż 3.4, jeśli pozostały tylko trzy sprawne węzły, ECS inicjował przywracanie danych klienta do trzech kopii lustrzanych, po jednej na węzeł. Ta decyzja projektowa została podjęta w celu maksymalizacji ochrony danych klientów. Proces ten jest również znany jako wycofywanie EC (Erasure Coding).
EC to algorytm, który zmniejsza przestrzeń dyskową, jednocześnie chroniąc dane przed awariami dysku lub węzła.
W przypadku kodowania wymazywania dane fizyczne wymagane w ECS miejsce fizyczne wynosi około 1,33x do przechowywania danych klienta (12 segmentów danych + 4 segmenty parzystości). Jeśli jednak ECS zacznie wycofywać EC, fizyczna przestrzeń wymagana na dane klienta wzrośnie z 1,33x do 3x.
Może to doprowadzić do osiągnięcia przez ECS progu wykorzystania pojemności na poziomie 90%, co spowoduje przejście ECS w tryb tylko do odczytu i niedostępność danych.
Cause
Resolution
Aby zwiększyć ochronę danych i uniknąć przekroczenia progu pojemności 90%, zmieniono domyślne zachowanie klastrów ECS z tylko trzema węzłami w dobrej kondycji.
W wersji 3.4 zmiana projektu została wprowadzona w taki sposób, że ECS nie będzie już automatycznie implementować wycofywania EC, gdy tylko trzy węzły są sprawne/online. System działa w pogorszonym stanie i mogą wystąpić problemy z wydajnością, ale prawdopodobnie pozwoli uniknąć DU. Nowe zapisy będą nadal zapisywane jako trzy kopie lustrzane i zostaną zakodowane wymazywaniem, gdy 4+ węzły będą online i dostępne do zapisu.
Wszelkie dodatkowe awarie dysków mogą powodować izolowanie jednostek DU, może to również nieznacznie zwiększyć narażenie na potencjalną utratę danych (DL), jednak nadal jest to mało prawdopodobne.
Rozważ również rozszerzenie ECS do pięciu lub więcej węzłów. Zmniejsza to narażenie ECS na pogorszenie wydajności, DU i DL podczas awarii węzła. Aby uzyskać więcej informacji na temat architektury ECS, zobacz Podręcznik administratora ECS.