ECS. Восстановление кодирования для защиты от потерь при отключении узла в четырехузловом кластере ECS
Summary: Начиная с ECS версии 3.4, восстановление кодирования для защиты от потерь не запускается автоматически в случае сбоя узла в кластере ECS с четырьмя узлами.
Symptoms
В версиях ECS до 3.4, если оставалось только три работоспособных узла, ECS инициировала восстановление данных заказчика в трех зеркальных копиях, по одной на узел. Такое архитектурное решение было разработано для обеспечения максимальной защиты данных заказчиков. Этот процесс также называют выводом из эксплуатации EC (кодирование для стирания).
EC — это алгоритм, который сокращает объем пространства для хранения данных и одновременно защищает данные от сбоев дисков или узлов.
При кодировании стирания данных физическое пространство, необходимое в ECS для хранения данных заказчиков (12 сегментов данных + 4 сегмента четности), составляет приблизительно в 1,33 раза. Однако, если ECS начинает вывод EC из эксплуатации, физическое пространство, необходимое для данных заказчиков, увеличивается с 1,33x до 3x.
Это может привести к тому, что уровень использования емкости ECS достигнет 90%, что приведет к переходу в режим доступа только для чтения и недоступности данных.
Cause
Resolution
Чтобы улучшить защиту данных и не допустить превышения порогового значения емкости 90%, было изменено поведение по умолчанию для кластеров ECS только с тремя работоспособными узлами.
В версии 3.4 проект был изменен таким образом, что ECS больше не будет реализовывать автоматическое вывод из эксплуатации EC, когда только три узла находятся в работоспособном состоянии или находятся в режиме онлайн. Система работает в состоянии ограниченной функциональности и может испытывать проблемы с производительностью, но может избежать DU. Новые записи по-прежнему записываются в виде трех зеркальных копий и будут закодированы для защиты от потерь, как только 4+ узла будут подключены к сети и станут доступны для записи.
Любые дополнительные сбои накопителей могут привести к возникновению изолированных DU, а также могут немного повысить риск потери данных (DL), однако это все равно маловероятно.
Также рассмотрите возможность расширения ECS до пяти или более узлов. Это снижает подверженность ECS снижению производительности, DU и DL во время сбоя узла. Дополнительные сведения об архитектуре ECS см. в руководстве администратора ECS.