ЕКС: Перебудова кодування стирання з відключенням вузла на чотиривузловому кластері ECS
Summary: Починаючи з ECS версії 3.4, перебудова кодування стирання не ініціюється автоматично, якщо відбувається збій вузла на кластері ECS з чотирма вузлами.
Symptoms
У версіях ECS до 3.4, якщо залишалося лише три здорові вузли, ECS ініціювала відновлення даних клієнтів у трьох дзеркальних копіях, по одній на вузол. Таке дизайнерське рішення було прийнято для максимального захисту даних клієнтів. Цей процес також відомий як вихід на пенсію EC (Erasure Coding).
EC – це алгоритм, який зменшує простір для зберігання, одночасно захищаючи дані від збоїв диска або вузла.
Коли дані кодуються стиранням, фізичний простір, необхідний для ECS, становить приблизно 1,33x для зберігання даних клієнтів (12 сегментів даних + 4 сегменти парності). Однак, якщо ECS почне виходити з EC, фізичний простір, необхідний для даних клієнтів, збільшиться з 1,33x до 3x.
Це може призвести до того, що ECS досягне порогу використання потужності в 90%, що призведе до переходу ECS у режим лише читання та недоступності даних.
Cause
Resolution
Щоб посилити захист даних і уникнути перевищення порогу ємності в 90%, було змінено поведінку за замовчуванням для кластерів ECS лише з трьома здоровими вузлами.
У версії 3.4 зміни в конструкції були внесені таким чином, що ECS більше не буде впроваджувати EC Retireing автоматично, коли тільки три вузли працюють в режимі реального часу. Система працює в погіршеному стані та може зіткнутися з проблемами продуктивності, але, швидше за все, уникне DU. Нові записи, як і раніше, записуються у вигляді трьох дзеркальних копій і будуть закодовані, як тільки з'являться 4+ вузлів в мережі та будуть доступні для запису.
Будь-які додаткові збої в роботі диска можуть спричинити ізольовані DU, це також може дещо збільшити ризик потенційної втрати даних (DL), однак це все одно малоймовірно.
Крім того, розгляньте можливість розширення ECS на п'ять або більше вузлів. Це зменшує схильність ECS до погіршення продуктивності, ситуацій DU та DL під час відмови вузла. Більш детальну інформацію про архітектуру ECS можна знайти в Посібнику з адміністрування ECS.