Isilon. Как определить, находится ли кластер Isilon в окно риска потери данных
Summary: Как определить, находится ли кластер Isilon в зоне риска потери данных.
Symptoms
Введение
Окно риска (WOR) возникает, когда в кластере, пуле узлов или пуле дисков происходит сбой достаточного количества устройств и достигается необходимый уровень защиты. Это состояние также известно как «при защите» или «чрезмерной защите». Когда кластер или пул находится в зоне WOR, потеря данных еще не произошла. Однако в случае сбоя других устройств возможна потеря данных. Факт потери данных зависит от различных факторов. Эти факторы включают: сбой других устройств, прежде чем FlexProtect сможет завершить работу, или если неисправные устройства были единственным источником рассматриваемых данных.
В этой статье описывается, как работают уровни защиты в кластере и как определить, находится ли кластер в WOR на случай потери данных.
Для целей расчета WOR «сбой» означает устройства, которые находятся в состоянии «down» или «dead». Устройства с пометкой «soft_failed» не учитываются в уровнях защиты. См. раздел «Процедура» ниже, чтобы узнать, как определить количество «неработающих» или «мертвых» устройств.
ЗАМЕТКА
Состояние, при котором из строя выходит из строя больше устройств, чем указано в качестве уровня защиты, называется избыточной защитой. В этом состоянии кластер, пул узлов или пул дисков больше не может успешно воссоздать все данные, хранящиеся в кластере.
Описание
OneFS использует модель защиты данных N+M. В представлении N+M N представляет количество узлов. Буква M представляет количество одновременных узлов, дисков или пула узлов/дисковых пулов, которое кластер может обработать без потери данных. Например, при защите по схеме N+2 кластер или пул может потерять либо два диска на разных узлах, либо вообще потерять два узла.
OneFS 6.5 и более поздние версии также поддерживают модель защиты N+M:B. В представлении N+M:B N представляет количество узлов. M — количество неработающих или неисправных накопителей. Цифра B представляет количество отключенных или неисправных узлов, которые кластер либо пул узлов/пул дисков может обработать без потери данных. Например, при защите N+3:1 кластер или пул может потерять три диска или один узел без потери данных.
Несколько отключенных или неисправных накопителей в одном узле всегда представляют собой отказ одного узла (а не несколько отказов дисков) для целей расчета WOR. Ниже приведено несколько примеров использования кластера из 8 узлов с защитой N+3:1:
- Пример 1 В одном кластере происходит сбой трех дисков, каждый из которых находится в разных узлах. Это переводит кластер в WOR («при защите»).
- Пример 2 В одном кластере произошел сбой двух дисков в одном узле. Так как накопители находятся в одном узле, сбои считаются сбоями одного узла. Эта ситуация также переводит кластер в WOR («при защите»).
Дополнительные сведения об уровнях защиты данных и их расчете см. в руководстве по администрированию OneFS.
ОСТОРОЖНОСТЬ!
Если вы подозреваете, что кластер находится в состоянии VOR, обратитесь за помощью в службу технической поддержки Dell, прежде чем предпринимать дальнейшие действия.
ВАЖНЫЙ!
При сбое накопителей или узлов может возникать WOR. Однако специалисты Isilon Engineering рекомендуют сохранять неисправные накопители или узлы в кластере до успешного завершения операции FlexProtect. Даже если устройство неисправно, некоторые или все блоки данных могут быть доступны для чтения. Если оставить накопитель или узел присоединенным к кластеру, это обеспечит гибкость, если потребуется восстановить данные с неисправного устройства.
Cause
Чтобы определить, находится ли кластер или пул узлов или пул дисков в режиме записи, сначала определите уровень защиты, настроенный в кластере или пуле. Затем определите, сколько существует неисправных узлов и накопителей. Для целей расчета WOR «сбой» означает устройства, которые находятся в состоянии «down» или «dead». Следуйте инструкциям в соответствующем разделе.
Resolution
Последовательность действий.
OneFS 7.2, 8.0, 9.0 и более поздние версии
- В веб-интерфейсе администрирования OneFS перейдите в раздел File System > Storage Pools > SmartPools.
- Получите текущий уровень защиты из таблицы Tiers & Node Pools в столбце Requested Protection .
- Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
- Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:
isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».
Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }
OneFS 7.1
- В веб-интерфейсе администрирования OneFS перейдите в раздел File System Management > Storage Pools > SmartPools.
- Получите текущий уровень защиты из таблицы Node Pools в столбце Requested Protection .
- Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
- Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:
isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».
Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 } Сведения
об интерпретации выходных данных, в том числе о том, как понять, являются ли отключенные или отключенные устройства накопителями или узлами, см.: Общие сведения об изменениях групп OneFS или интерпретация изменений групп.
OneFS 7.0
- В веб-интерфейсе администрирования OneFS перейдите к разделу Управление > файловой системой SmartPools > Summary.
- Получите текущий уровень защиты из таблицы Tiers & Node Pools в столбце Protection .
- Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
- Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:
isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».
Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }
OneFS 6.5
- В веб-интерфейсе администрирования OneFS перейдите в раздел File System > SmartPools > Disk Pools.
- Получите текущий уровень защиты из столбца Защита по умолчанию .
- Подключитесь к узлу по протоколу SSH и войдите в систему с помощью учетной записи root.
- Определите, сколько устройств находится в состоянии «Down» или «Dead», выполнив следующую команду:
isi_group_info Выходные данные будут выглядеть следующим образом. Если есть неработающие или мертвые устройства, они помечаются в выходных данных как «down» или «dead».
Пример отключенного узла: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, вниз: 6 }
Пример выключенного диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, вниз: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Пример неработающего диска: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, мертв: 2:10 }