Isilon:如何确定 Isilon 群集是否处于数据丢失风险窗口
Summary: 如何确定 Isilon 群集是否处于数据丢失风险窗口。
Symptoms
简介
当群集、节点池或磁盘池中有足够多的设备因达到保护级别而出现故障时,就会出现风险窗口 (WOR)。这种情况也称为“处于保护状态”或“过度保护”。当群集或池处于 WOR 状态时,尚未发生数据丢失。但是,如果其他设备出现故障,则可能会发生数据丢失。是否发生数据丢失取决于不同的因素。这些因素包括:在 FlexProtect 完成之前发生故障的其他设备,或者故障设备是相关数据的唯一来源。
本文介绍保护级别在群集上的工作原理,以及如何判断群集是否因数据丢失而处于 WOR 状态。
出于 WOR 计算的目的,“故障”是指处于“关闭”或“失效”状态的设备。“soft_failed”的设备不计入保护级别。有关如何确定“关闭”或“失效”设备数量的信息,请参阅下面的“过程”部分。
注意
发生故障的设备数超过指定为保护级别的数量的情况称为“过度保护”。在此状态下,群集或节点池/磁盘池无法再成功地重新创建存储在那里的所有数据。
详细信息
OneFS 使用 N+M 数据保护模型。在 N+M 表示法中,N 表示节点数。M 表示群集可在不丢失数据的情况下同时处理的节点、驱动器或节点池/磁盘池的数量。例如,使用 N+2 保护时,群集或池可能会丢失不同节点上的两个驱动器,或者完全丢失两个节点。
OneFS 6.5 及更高版本还支持 N+M:B 保护模式。在 N+M:B 表示法中,N 表示节点数。M 代表已关闭或出现故障的驱动器的数量。B 表示群集或节点池/磁盘池可以处理而不会丢失数据的关闭或故障节点数。例如,借助 N+3:1 保护,群集或池可以丢失三个驱动器或一个节点,而不会丢失数据。
出于 WOR 计算的目的,单个节点中的多个关闭或故障的驱动器始终表示单个节点故障(而不是多个驱动器故障)。以下是在 N+3:1 保护下使用 8 节点群集的一些示例:
- 示例 1:在单个群集中,三个驱动器出现故障,每个驱动器位于不同的节点中。这会使群集处于 WOR(“处于保护状态”)。
- 示例 2:在单个群集中,同一节点中的两个驱动器出现故障。由于驱动器位于同一节点中,因此故障计为单个节点故障。这种情况还会使群集处于 WOR(“处于保护状态”)。
有关数据保护级别及其计算方式的详细信息,请参阅 OneFS 管理指南。
谨慎!
如果您怀疑或确定群集处于 WOR 状态,请联系戴尔技术支持以获得帮助,然后再采取进一步作。
重要!
当驱动器或节点出现故障时,可能会发生 WOR。但是,Isilon 工程部门建议您将发生故障的驱动器或节点保留在群集中,直到 FlexProtect作成功完成。尽管设备出现故障,但部分或全部数据块可能仍可读取。如果需要尝试从故障设备恢复数据,让驱动器或节点加入群集可提供灵活性。
Cause
要确定群集或节点池/磁盘池当前是否处于 WOR 中,请首先确定在群集或池上配置的保护级别。接下来,确定存在多少个故障节点和驱动器。出于 WOR 计算的目的,“故障”是指处于“关闭”或“失效”状态的设备。请按照以下相应部分中的说明进行作。
Resolution
流程
OneFS 7.2、8.0、9.0 及更高版本
- 在 OneFS Web 管理界面中,转至File SystemStorage > PoolsSmartPools>。
- 从 “层和节点池 ”表中的 “请求的保护 ”列中获取当前保护级别。
- 打开与节点的 SSH 连接,然后使用“root”帐户登录。
- 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:
isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。
关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}
关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}
失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }
OneFS 7.1
- 在 OneFS Web 管理界面中,转至File System ManagementStorage > PoolsSmartPools>。
- 从 Node Pools 表的 Requested Protection 列中获取当前保护级别。
- 打开与节点的 SSH 连接,然后使用“root”帐户登录。
- 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:
isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。
关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}
关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}
失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10}
有关解释输出的信息,包括如何了解关闭或无效的设备是驱动器还是节点,请参阅:了解 OneFS 组更改或 解释组更改。
OneFS 7.0
- 在 OneFS Web 管理界面中,转至 File System ManagementSmartPools >> Summary。
- 从 “层和节点池 ”表的 “保护 ”列中获取当前保护级别。
- 打开与节点的 SSH 连接,然后使用“root”帐户登录。
- 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:
isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。
关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}
关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}
失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }
OneFS 6.5
- 在 OneFS Web 管理界面中,转至 File SystemSmartPoolsDisk >> Pools。
- 从 Default Protection 列中获取当前保护级别。
- 打开与节点的 SSH 连接,然后使用“root”帐户登录。
- 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:
isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。
关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}
关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}
失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }