Isilon. Как определить, находится ли кластер Isilon в окно риска потери данных

Summary: Как определить, находится ли кластер Isilon в зоне риска потери данных.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Введение

Окно риска (WOR) возникает, когда в кластере, пуле узлов или пуле дисков происходит сбой достаточного количества устройств и достигается необходимый уровень защиты. Это состояние также известно как «при защите» или «чрезмерной защите». Когда кластер или пул находится в зоне WOR, потеря данных еще не произошла. Однако в случае сбоя других устройств возможна потеря данных. Факт потери данных зависит от различных факторов. Эти факторы включают: сбой других устройств, прежде чем FlexProtect сможет завершить работу, или если неисправные устройства были единственным источником рассматриваемых данных.

В этой статье описывается, как работают уровни защиты в кластере и как определить, находится ли кластер в WOR на случай потери данных.

ЗАМЕТКА
Для целей расчета WOR «сбой» означает устройства, которые находятся в состоянии «down» или «dead». Устройства с пометкой «soft_failed» не учитываются в уровнях защиты. См. раздел «Процедура» ниже, чтобы узнать, как определить количество «неработающих» или «мертвых» устройств.

ЗАМЕТКА
Состояние, при котором из строя выходит из строя больше устройств, чем указано в качестве уровня защиты, называется избыточной защитой. В этом состоянии кластер, пул узлов или пул дисков больше не может успешно воссоздать все данные, хранящиеся в кластере.

 

Описание

OneFS использует модель защиты данных N+M. В представлении N+M N представляет количество узлов. Буква M представляет количество одновременных узлов, дисков или пула узлов/дисковых пулов, которое кластер может обработать без потери данных. Например, при защите по схеме N+2 кластер или пул может потерять либо два диска на разных узлах, либо вообще потерять два узла.

OneFS 6.5 и более поздние версии также поддерживают модель защиты N+M:B. В представлении N+M:B N представляет количество узлов. M — количество неработающих или неисправных накопителей. Цифра B представляет количество отключенных или неисправных узлов, которые кластер либо пул узлов/пул дисков может обработать без потери данных. Например, при защите N+3:1 кластер или пул может потерять три диска или один узел без потери данных.

Несколько отключенных или неисправных накопителей в одном узле всегда представляют собой отказ одного узла (а не несколько отказов дисков) для целей расчета WOR. Ниже приведено несколько примеров использования кластера из 8 узлов с защитой N+3:1:

  • Пример 1 В одном кластере происходит сбой трех дисков, каждый из которых находится в разных узлах. Это переводит кластер в WOR («при защите»).
  • Пример 2 В одном кластере произошел сбой двух дисков в одном узле. Так как накопители находятся в одном узле, сбои считаются сбоями одного узла. Эта ситуация также переводит кластер в WOR («при защите»).

Дополнительные сведения об уровнях защиты данных и их расчете см. в руководстве по администрированию OneFS.

ОСТОРОЖНОСТЬ!
Если вы подозреваете, что кластер находится в состоянии VOR, обратитесь за помощью в службу технической поддержки Dell, прежде чем предпринимать дальнейшие действия.

ВАЖНЫЙ!
При сбое накопителей или узлов может возникать WOR. Однако специалисты Isilon Engineering рекомендуют сохранять неисправные накопители или узлы в кластере до успешного завершения операции FlexProtect. Даже если устройство неисправно, некоторые или все блоки данных могут быть доступны для чтения. Если оставить накопитель или узел присоединенным к кластеру, это обеспечит гибкость, если потребуется восстановить данные с неисправного устройства.

 

Cause

Чтобы определить, находится ли кластер или пул узлов или пул дисков в режиме записи, сначала определите уровень защиты, настроенный в кластере или пуле. Затем определите, сколько существует неисправных узлов и накопителей. Для целей расчета WOR «сбой» означает устройства, которые находятся в состоянии «down» или «dead». Следуйте инструкциям в соответствующем разделе.

Resolution

Последовательность действий.

 

    OneFS 7.2, 8.0, 9.0 и более поздние версии

    1. В веб-интерфейсе администрирования OneFS перейдите в раздел File System > Storage Pools > SmartPools.
    2. Получите текущий уровень защиты из таблицы Tiers & Node Pools в столбце Requested Protection .
    3. Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
    4. Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:



      isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».

      Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }

      Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }
    Сведения об интерпретации выходных данных, в том числе о том, как понять, являются ли выключенные или неработающие устройства накопителями или узлами, см.:  Общие сведения об изменениях групп OneFS или интерпретация изменений групп.

    OneFS 7.1

    1. В веб-интерфейсе администрирования OneFS перейдите в раздел File System Management > Storage Pools > SmartPools.
    2. Получите текущий уровень защиты из таблицы Node Pools в столбце Requested Protection .
    3. Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
    4. Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:



      isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».

      Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }

      Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 } Сведения

      об интерпретации выходных данных, в том числе о том, как понять, являются ли отключенные или отключенные устройства накопителями или узлами, см.: Общие сведения об изменениях групп OneFS или интерпретация изменений групп.

    OneFS 7.0

    1. В веб-интерфейсе администрирования OneFS перейдите к разделу Управление > файловой системой SmartPools > Summary.
    2. Получите текущий уровень защиты из таблицы Tiers & Node Pools в столбце Protection .
    3. Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
    4. Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:



      isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».

      Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }

      Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }
    Сведения об интерпретации выходных данных, в том числе о том, как понять, являются ли выключенные или неработающие устройства накопителями или узлами, см.: Общие сведения об изменениях групп OneFS или интерпретация изменений групп.

    OneFS 6.5

    1. В веб-интерфейсе администрирования OneFS перейдите в раздел File System > SmartPools > Disk Pools.
    2. Получите текущий уровень защиты из столбца Защита по умолчанию .
    3. Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
    4. Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:



      isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».

      Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }

      Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }
    Сведения об интерпретации выходных данных, в том числе о том, как понять, являются ли выключенные или неработающие устройства накопителями или узлами, см.: Общие сведения об изменениях групп OneFS или интерпретация изменений групп.

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.