Isilon:如何确定 Isilon 群集是否处于数据丢失风险窗口

Summary: 如何确定 Isilon 群集是否处于数据丢失风险窗口。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

简介

当群集、节点池或磁盘池中有足够多的设备因达到保护级别而出现故障时,就会出现风险窗口 (WOR)。这种情况也称为“处于保护状态”或“过度保护”。当群集或池处于 WOR 状态时,尚未发生数据丢失。但是,如果其他设备出现故障,则可能会发生数据丢失。是否发生数据丢失取决于不同的因素。这些因素包括:在 FlexProtect 完成之前发生故障的其他设备,或者故障设备是相关数据的唯一来源。

本文介绍保护级别在群集上的工作原理,以及如何判断群集是否因数据丢失而处于 WOR 状态。

注意
出于 WOR 计算的目的,“故障”是指处于“关闭”或“失效”状态的设备。“soft_failed”的设备不计入保护级别。有关如何确定“关闭”或“失效”设备数量的信息,请参阅下面的“过程”部分。

注意
发生故障的设备数超过指定为保护级别的数量的情况称为“过度保护”。在此状态下,群集或节点池/磁盘池无法再成功地重新创建存储在那里的所有数据。

 

详细信息

OneFS 使用 N+M 数据保护模型。在 N+M 表示法中,N 表示节点数。M 表示群集可在不丢失数据的情况下同时处理的节点、驱动器或节点池/磁盘池的数量。例如,使用 N+2 保护时,群集或池可能会丢失不同节点上的两个驱动器,或者完全丢失两个节点。

OneFS 6.5 及更高版本还支持 N+M:B 保护模式。在 N+M:B 表示法中,N 表示节点数。M 代表已关闭或出现故障的驱动器的数量。B 表示群集或节点池/磁盘池可以处理而不会丢失数据的关闭或故障节点数。例如,借助 N+3:1 保护,群集或池可以丢失三个驱动器或一个节点,而不会丢失数据。

出于 WOR 计算的目的,单个节点中的多个关闭或故障的驱动器始终表示单个节点故障(而不是多个驱动器故障)。以下是在 N+3:1 保护下使用 8 节点群集的一些示例:

  • 示例 1:在单个群集中,三个驱动器出现故障,每个驱动器位于不同的节点中。这会使群集处于 WOR(“处于保护状态”)。
  • 示例 2:在单个群集中,同一节点中的两个驱动器出现故障。由于驱动器位于同一节点中,因此故障计为单个节点故障。这种情况还会使群集处于 WOR(“处于保护状态”)。

有关数据保护级别及其计算方式的详细信息,请参阅 OneFS 管理指南

谨慎!
如果您怀疑或确定群集处于 WOR 状态,请联系戴尔技术支持以获得帮助,然后再采取进一步作。

重要!
当驱动器或节点出现故障时,可能会发生 WOR。但是,Isilon 工程部门建议您将发生故障的驱动器或节点保留在群集中,直到 FlexProtect作成功完成。尽管设备出现故障,但部分或全部数据块可能仍可读取。如果需要尝试从故障设备恢复数据,让驱动器或节点加入群集可提供灵活性。

 

Cause

要确定群集或节点池/磁盘池当前是否处于 WOR 中,请首先确定在群集或池上配置的保护级别。接下来,确定存在多少个故障节点和驱动器。出于 WOR 计算的目的,“故障”是指处于“关闭”或“失效”状态的设备。请按照以下相应部分中的说明进行作。

Resolution

流程

 

    OneFS 7.2、8.0、9.0 及更高版本

    1. 在 OneFS Web 管理界面中,转至File SystemStorage > PoolsSmartPools>
    2. “层和节点池 ”表中的 “请求的保护 ”列中获取当前保护级别。
    3. 打开与节点的 SSH 连接,然后使用“root”帐户登录。
    4. 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:



      isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。

      关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}

      关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}

      失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }
    有关解释输出的信息,包括如何了解关闭或无效设备是驱动器还是节点,请参阅:  了解 OneFS 组更改解释组更改。

    OneFS 7.1

    1. 在 OneFS Web 管理界面中,转至File System ManagementStorage > PoolsSmartPools>
    2. Node Pools 表的 Requested Protection 列中获取当前保护级别。
    3. 打开与节点的 SSH 连接,然后使用“root”帐户登录。
    4. 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:



      isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。

      关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}

      关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}

      失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10}

      有关解释输出的信息,包括如何了解关闭或无效的设备是驱动器还是节点,请参阅:了解 OneFS 组更改解释组更改。

    OneFS 7.0

    1. 在 OneFS Web 管理界面中,转至 File System ManagementSmartPools >> Summary
    2. “层和节点池 ”表的 “保护 ”列中获取当前保护级别。
    3. 打开与节点的 SSH 连接,然后使用“root”帐户登录。
    4. 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:



      isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。

      关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}

      关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}

      失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }
    有关解释输出的信息,包括如何了解关闭或无效设备是驱动器还是节点,请参阅:了解 OneFS 组更改解释组更改。

    OneFS 6.5

    1. 在 OneFS Web 管理界面中,转至 File SystemSmartPoolsDisk >> Pools
    2. Default Protection 列中获取当前保护级别。
    3. 打开与节点的 SSH 连接,然后使用“root”帐户登录。
    4. 通过运行以下命令,确定有多少台设备处于“关闭”或“失效”状态:



      isi_group_info 输出类似于以下内容。 如果有关闭或失效的设备,它们在输出中显示为“down”或“dead”。

      关闭节点的示例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down:6}

      关闭驱动器的示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down:2:10、4:11、soft_failed:2:10, 4:11}

      失效驱动器示例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dead:2:10 }
    有关解释输出的信息,包括如何了解关闭或无效设备是驱动器还是节点,请参阅:了解 OneFS 组更改解释组更改。

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.