ECS:四节点 ECS 群集上的擦除编码重建和节点宕机

Summary: 从 ECS 版本 3.4 开始,如果四节点 ECS 群集上发生节点宕机,则不会自动启动擦除编码重建。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

在 3.4 之前的 ECS 版本中,如果只剩下三个运行状况良好的节点,ECS 会启动将客户数据还原到三个镜像拷贝(每个节点一个)。做出此设计决策是为了更大限度地保护客户数据。此过程也称为 EC(擦除编码)淘汰。

EC 是一种减少存储空间的算法,同时保护数据免受磁盘或节点故障的影响。

数据进行擦除编码后,弹性云服务器上存储客户数据所需的物理空间约为1.33倍(12个数据段+4个奇偶校验段)。  但是,如果 ECS 开始 EC 停用,则客户数据所需的物理空间将从 1.33 倍增加到 3 倍。

这可能导致弹性云服务器达到90%的容量利用率阈值,导致弹性云服务器进入只读模式和数据不可用。 

Cause

在 EC 在 ECS 中停用期间,硬盘空间会增加,以存储 3 倍的客户数据拷贝,而不是通常的 1.33 倍的占用空间。即使在中等使用率的 ECS 上,也可能没有足够的可用空间来解压缩擦除编码的客户数据并创建数据的三个镜像副本。在完成 EC 重建之前,此过程会将 ECS 填满 90% 的容量,进而妨碍实现更大限度保护的目标。这可能导致弹性云服务器进入只读模式,并可能导致数据不可用。

Resolution

为了增强数据保护并避免超过 90% 的容量阈值,仅有三个运行状况良好的节点的 ECS 群集的默认行为已更改。

在 3.4 中,进行了设计更改,因此当只有三个节点处于正常运行/联机状态时,ECS 将不再自动实施 EC 淘汰。系统以降级状态运行,可能会遇到性能问题,但可能会避免 DU。新的写入继续作为三个镜像拷贝写入,并且将在有 4+ 个节点联机且可供写入时进行擦除编码。

任何其他驱动器故障都可能导致隔离的 DU,也可能略微增加潜在数据丢失 (DL) 的风险,但仍然不太可能。

此外,请考虑将 ECS 扩展到五个或更多节点。它可降低 ECS 在节点故障期间出现性能下降、DU 和 DL 情况的风险。有关 ECS 体系结构的更多详细信息,请参见ECS 管理员指南。 

Additional Information

*EC 是一种数据保护方法,可将数据区块分解为多个片段,并在节点间分发这些片段。擦除编码 (EC) 可降低存储开销,并确保数据持久性以及针对磁盘和节点故障的恢复能力。有关 EC 的详细信息,请参见ECS 管理指南。

Affected Products

ECS Appliance

Products

ECS Appliance, ECS Appliance Gen 1, ECS Appliance Gen 2, ECS Appliance Gen 3, ECS Appliance Hardware Gen3 EX300, ECS Appliance Hardware Gen3 EX3000, ECS Appliance Hardware Gen1 U-Series, ECS Appliance Hardware Gen1 C-Series , ECS Appliance Hardware Gen2 C-Series, ECS Appliance Hardware Gen2 D-Series, ECS Appliance Hardware Gen2 U-Series, ECS Appliance Hardware Gen3 EX500, ECS Appliance Hardware Series, ECS Appliance Software with Encryption, ECS Appliance Software without Encryption, Elastic Cloud Storage ...
Article Properties
Article Number: 000050615
Article Type: Solution
Last Modified: 26 Sep 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.