PowerScale, Isilon, OneFS: Как правильно выключить кластер

Сводка: Рекомендации по правильному завершению работы кластера PowerScale, а также информация о рисках, связанных с неправильным отключением кластера. Пошаговые процедуры для правильного завершения работы кластера. Некоторые действия необходимо выполнить за 4–8 недель до запланированной модернизации. ...

Данная статья применяется к Данная статья не применяется к Эта статья не привязана к какому-либо конкретному продукту. В этой статье указаны не все версии продуктов.

Инструкции

Введение

В статье описывается процедура правильного завершения работы кластера Dell Isilon Cluster и содержится информация о рисках, связанных с неправильным завершением его работы.
 

Внимание! Неправильное завершение работы кластера может вызвать проблемы с доступностью и целостностью данных.


Неправильно выключенные узлы в кластере не должны оставаться без питания системы дольше, чем срок службы аккумулятора NVRAM.
Это примерно от трех до пяти дней, в зависимости от типа узла.
Если данные по-прежнему хранятся в журнале узла, а питание узла длится дольше, чем работает аккумулятор NVRAM, данные будут потеряны.
Если это произойдет на нескольких узлах, потребуется перестроить

кластер.Если у вас есть вопросы по процедурам или информации, описанным в этой статье, обратитесь в службу технической поддержки Dell Isilon.


Последовательность действий

Процедура завершения работы кластера требует учетных данных root и доступа к узлам кластера с последовательной консоли. Процедура разделена на следующие этапы.

Перед началом завершения работы ознакомьтесь со всей процедурой. Так вы сможете понять контекст и порядок выполнения каждого действия.
 

Внимание! Если используется версия OneFS, обслуживание которой прекращено (EOSL), выполните модернизацию до поддерживаемой версии OneFS.



Фаза 1. Профилактическое обслуживание.
Эти действия выполняются примерно за 4–8 недель до запланированного завершения работы. Цель этой фазы — выявить неизвестные или скрытые проблемы с оборудованием или микропрограммой, которые могут препятствовать процедуре завершения работы.
 

Внимание! Dell настоятельно рекомендует выполнить все действия, описанные на фазе 1, перед завершением работы кластера Isilon.

Если обстоятельства требуют немедленного завершения работы в масштабе кластера, можно одновременно отключить все узлы с помощью интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS.

Dell настоятельно рекомендует выполнить все действия, описанные в фазе 3 , чтобы сохранить целостность данных во время процедуры аварийного завершения работы.
  1. При необходимости загрузите журналы для доступа к данным за прошлые периоды.
# isi diagnostics gather start --gather-mode full
  1. Выполните или отправьте запрос на диагностику системы Isilon.
    • Это позволяет оценить состояние кластера, чтобы убедиться, что он находится в хорошем поддерживаемом рабочем состоянии.
    • Диагностику может выполнить заказчик с помощью PowerScale. Как запустить средство анализа кластера IOCA
    • Диагностику может выполнить команда удаленной поддержки клиентов (Remote Reactive). Она доступна всем заказчикам с действующим соглашением о техническом обслуживании кластеров с поддерживаемыми версиями кода. Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом «Isilon Health Check» и обеспечьте доступ к полным журналам диагностики системы, выполнив эту команду.
# isi diagnostics gather start --gather-mode full            

* Диагностика системы не предназначена для устранения проблем с кластером или оценки конфигурации, производительности или рабочего процесса кластера.

  1. Выполните «холодную» перезагрузку каждого узла в ходе следующих действий. Для выполнения этой задачи должно быть запланировано окно обслуживания.

Примечание. Этот процесс позволяет определить любые ошибки памяти или режимы отказа накопителя, которые обнаруживаются только при включении питания узла.

 

Примечание. Этот процесс прерывает работу всех подключений, кроме NFSv3. Обратитесь в службу поддержки Isilon за помощью в получении инструкций по более длительному процессу, который не нарушает работу клиента во время перезагрузки узлов для этого теста в ходе обслуживания.
 
  1. Завершайте работу каждого узла в кластере по отдельности. Чтобы завершить работу каждого узла, выполните следующие действия.
    1. Откройте подключение по протоколу SSH к любому узлу. Завершите работу каждого узла, выполнив следующую команду
isi config
shutdown <node_lnn>
  1. Убедитесь, что питание каждого узла отключено — зеленый индикатор питания на задней панели узла не должен гореть.
  2. При необходимости нажмите кнопку питания, чтобы снова включить узел.
  3. Убедитесь, что узел снова присоединился к кластеру и работоспособен, запустив isi status -q эту команду и найдя OK в столбце Health DASR выходных данных.
  4. Если на узле возникают проблемы, указанные в столбце Health DASR, или не удается повторно присоединиться к кластеру, устраните эти проблемы перед завершением работы следующего узла.

Выбран пример проблемы. Узел 1 успешно присоединен к кластеру, но столбец Health DASR указывает на то, что он требует внимания.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. После перезагрузки каждого узла дважды проверьте состояние всего кластера. Откройте подключение SSH к любому узлу и выполните следующую команду:
 isi status -q
Убедитесь, что в столбце Health DASR каждого узла отображается значение OK.

 

Примечание. Если время не позволяет использовать метод «холодной» перезагрузки для каждого узла, можно заблаговременно обнаружить некоторые скрытые проблемы с оборудованием, выполнив последовательную перезагрузку или «теплую» перезагрузку, выполнив следующую команду для каждого узла:
isi config
reboot <node_lnn>

Однако Dell настоятельно рекомендует использовать метод «холодной» перезагрузки для более эффективного выявления скрытых проблем с оборудованием.
 

Фаза 2. Завершите работу каждого узла в кластере.
Эти действия необходимо выполнить в день завершения работы кластера Isilon. Во время системного отключения кластера некоторые факторы могут повлиять на процесс отключения или задержать его. Например, незавершенные операции записи данных на узел могут повлиять на завершение работы. Действия 1–2 предназначены для того, чтобы перед выполнением команды завершения работы все клиенты были отключены от кластера и данные правильно сохранялись из журналов узлов в файловую систему. Если у вас есть клиенты iSCSI, перед отключением службы iSCSI обязательно завершите их работу.

В действии 3 описывается, как по очереди завершать работу каждого узла в кластере с помощью последовательной консоли. Этот метод рекомендуется, поскольку он позволяет убедиться, что работа каждого узла завершена должным образом, прежде чем перейти к следующему узлу, и при необходимости внести корректировки или устранить проблемы, чтобы обеспечить надлежащее завершение работы кластера. Однако этот метод может занять много времени, так как для выполнения команды завершения работы требуется подключение последовательной консоли к каждому узлу. В разделе Одновременное выключение всех узлов в кластере описано, как использовать интерфейс командной строки OneFS или веб-интерфейс администрирования OneFS для выключения кластера. Этот метод занимает меньше времени, чем действие 3, но усложняет выявление узлов, в которых возникают проблемы в процессе завершения работы.

  1. Isilon рекомендует изолировать кластер от клиентов, чтобы клиенты с интенсивной записью не препятствовали процедуре завершения работы. Это можно сделать, отключив клиентские службы, запущенные в кластере. Чтобы отключить клиентские службы, выполните следующие действия.
    1. Определите клиентские службы или протоколы, которые запущены в кластере, выполнив следующие команды для каждой клиентской службы.
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
  1. B. Зафиксируйте, какие службы «включены» в кластере, на основе выходных данных для каждой команды. Выбранная в приведенном ниже примере служба SMB включена, а служба NFS отключена:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
  1. Отключите клиентские службы. После этого действия все клиенты немедленно теряют подключение к кластеру. Чтобы отключить службу, выполните следующую команду, связанную с включенной службой.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Если у вас есть клиенты iSCSI, перед выполнением действия 2 убедитесь, что они размонтировали свои LUN. Выполните команду isi iscsi list для подтверждения того, что все клиенты iSCSI отключены от кластера.


Примечание. Если служба iSCSI отключена, перед выполнением команды убедитесь, что клиенты iSCSI выключены isi_iscsi_d disable . Прерывание работы смонтированного LUN iSCSI может привести к повреждению клиента, что обычно требует восстановления из резервной копии.
 
  1. Переместите записи данных, хранящиеся в журналах узлов, в файловую систему, запустив команду isi_for_array isi_flush . На каждом узле появляются выходные данные, аналогичные следующим:
    Обратите внимание, что при запуске isi_flush он НЕ остановится до тех пор, пока не будет завершен сброс на узле, или пока узел не будет выключен или не запаниковал. Вы не можете нажать ctrl+c для выхода из сброса в случае возникновения проблем.
     
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

 

Примечание. В крупном кластере с большим количеством незавершенных операций записи это действие может занять несколько минут.

 

Если узлу не удается очистить свои данные, будут получены выходные данные, аналогичные приведенным ниже, где узлы 1 и 2 не выполняют команду сброса:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Выполните команду isi_for_array isi_flush еще раз. Если какой-либо узел не удается очистить, обратитесь в службу технической поддержки Dell Isilon. Все узлы должны быть успешно очищены перед переходом к следующему действию.

 

Примечание. При удалении источника питания с узла, данные из журнала которого не очищены в файловую систему, риск потери данных существенно возрастает. Обратитесь в службу технической поддержки Dell Isilon, если вам требуется помощь с процедурой завершения работы.

 

  1. Последовательно завершайте работу каждого узла в кластере и отслеживайте выходные данные. Этот метод рекомендуется, поскольку позволяет выявлять и устранять любые проблемы перед завершением работы следующего узла в кластере. Завершите работу каждого узла, выполнив следующие действия.

Внимание! НЕ запускайте команду isi_for_array shutdown -p , чтобы завершить работу кластера.

 

Любой узел, который испытывает сбой или перезагружается при этом действии, требует дальнейшего изучения. В частности, перед продолжением процедуры все узлы должны очистить данные из журнала в файловую систему.

 

Предупреждение! При удалении источника питания с узла, данные из журнала которого не очищены в файловую систему, риск потери данных существенно возрастает. Обратитесь в службу технической поддержки Dell Isilon, если вам требуется помощь с процедурой завершения работы.

 

  1. Подключите последовательную консоль к каждому узлу.
  2. Выполните следующую команду:
isi config
shutdown
После успешного завершения работы узла отображаются выходные данные, аналогичные следующим:
Powering the system off using ACPI

 

Примечание. Если у вас нет доступа к узлам с помощью переключателя клавиатуры, видео, мыши (KVM) и вместо этого требуется использовать ноутбук, выполнение этого действия может занять несколько часов.

 

  1. С. Следите за консолью и ищите события сбоя, связанные с аппаратурой. Успешные сохранения журнала узла выбираются в следующих вариантах вывода:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Если получено сообщение об ошибке, которую журнал узла не сохранил, можно вручную сохранить журнал, выполнив действия, описанные на фазе 3.
 

Одновременно завершите работу каждого узла в кластере.


При возникновении чрезвычайной ситуации можно одновременно завершить работу всех узлов в кластере. Однако этот метод не рекомендуется, поскольку он не позволяет отслеживать состояние и выходные данные каждого узла в случае возникновения проблемы. Если вы решите выполнить указанные действия, Dell настоятельно рекомендует выполнить все действия на фазе 3, чтобы убедиться, что работа всех узлов завершена должным образом после выполнения описанных ниже процедур.

 

Примечание. Любой узел, который испытывает сбой или перезагружается при этом действии, требует дальнейшего изучения. В частности, перед продолжением процедуры все узлы должны очистить данные из журнала в файловую систему.

Предупреждение! При удалении источника питания с узла, данные из журнала которого не очищены в файловую систему, риск потери данных существенно возрастает. Обратитесь в службу технической поддержки Dell Isilon, если вам требуется помощь с процедурой завершения работы.

 

Для завершения работы всех узлов в кластере используйте интерфейс командной строки OneFS или веб-интерфейс администрирования OneFS. 

 

В интерфейсе командной строки OneFS выполните следующую команду:
# isi config shutdown all

 

Примечание. НЕ запускайте команду isi_for_array shutdown -p команду для завершения работы кластера из веб-интерфейса администрирования OneFS в OneFS 8.0 и более поздних версиях.


Фаза 3. Убедитесь, что работа узлов успешно завершена.
Убедитесь, что работа узлов успешно завершена, посмотрев на светодиод индикатора питания на задней панели узла. Все индикаторы питания должны быть темными или не гореть. Это означает, что работа узла успешно завершена.
 

Предупреждение! Если работа узла не завершена успешно, и вы отключили источник питания от узла, вероятность потери данных существенно возрастает. Восстановление данных — это длительная процедура, а иногда требует и полной перестройки кластера.

 

Предупреждение! Обратитесь в службу технической поддержки Dell, если у вас есть какие-либо сомнения в успешности завершения работы, например, если узел не выключается или журнал не сохранен.


Если индикатор питания на задней панели узла по-прежнему горит, это означает, что работа узла не завершена. Если работа узла не завершена или вы получаете выходные данные консоли, указывающие на то, что журнал узла не сохранен должным образом (с фазы 2, действие 3C), необходимо вручную сохранить журнал, чтобы убедиться, что данные переданы на диск, прежде чем завершать работу узла.

  1. Чтобы вручную сохранить журнал и завершить работу узла, выполните следующие действия.
    1. Если узел реагирует на интерфейс командной строки, перезагрузите узел, выполнив следующую команду:
# isi config reboot
  1. Если узел не реагирует на интерфейс командной строки, вручную перезагрузите узел, нажав и удерживая кнопку питания на задней панели узла. При этом питание узла отключается. Подождите 30 секунд, а затем нажмите кнопку питания один раз, чтобы снова загрузить резервную копию узла. Перейдите к следующему действию.

 

Предупреждение! Перезагрузка узла вручную рекомендуется только для этого действия. Не завершайте работу узла вручную при любых прочих обстоятельствах. Это может привести к потере данных.

 

  1. После перезагрузки узла снова войдите в систему и сохраните журнал, выполнив следующие действия.
    1. Попытайтесь корректно завершить работу узла еще раз, выполнив следующую команду:
# isi config shutdown
  1. Если выходные данные по-прежнему указывают на то, что журнал не сохранен, сохраните журнал вручную, выполнив следующую команду:
# isi_save_journal
  1. Если журнал по-прежнему не сохраняется, размонтируйте файловую систему /ifs, а затем принудительно сохраните журнал, выполнив следующие команды:
# isi_kill_busy && umount /ifs
  1. Убедитесь, что журнал сохранен, выполнив команду isi_checkjournal.
# isi_checkjournal
  1. Не переходите к следующему действию, пока выходные данные не будут указывать на успешное сохранение журнала.

Обратитесь в службу технической поддержки Dell при необходимости.
 

Фаза 4. Отсоедините источник питания.
Источник питания от кластера можно отключить только после успешного завершения работы кластера и отключения питания узлов.
 

Предупреждение! Если работа узла не была завершена успешно, не отключайте его источник питания. Это может привести к потере данных, что потребует длительной процедуры восстановления, а иногда и полной перестройки кластера.


Аккумуляторы NVRAM
Когда клиент записывает файл на узел, записи сначала хранятся в энергонезависимой ОЗУ (NVRAM), размещенной на плате журнала узла. Спустя некоторое время OneFS записывает эти изменения на диск. Для защиты данных, хранящихся в NVRAM, при неплановых отключениях электроэнергии каждый узел оснащен аккумуляторами NVRAM (по два для целей резервирования). Узел с отключенным питанием, который остается подключенным к источнику питания, продолжает заряжать аккумуляторы NVRAM. При отключении источника питания от узла аккумуляторы NVRAM начинают разряжаться. Время работы от аккумулятора у узлов текущего поколения (X200, S200, X400 и NL400) составляет приблизительно пять дней. В предыдущих поколениях узлов время работы от аккумулятора NVRAM составляет приблизительно три дня.

Dell Technologies рекомендует правильно завершать работу узлов, чтобы избежать использования аккумуляторов NVRAM в течение значительного времени во время неплановых отключений электроэнергии.
 

Примечание. Дополнительные сведения о том, как Isilon использует NVRAM для сохранения целостности данных, см. в разделе «Структура файловой системы» в руководствах по веб-администрированию и интерфейсу командной строки OneFS.


Если аккумуляторы NVRAM на узле полностью разряжаются, узел загружается в режиме «только для чтения» и остается в этом режиме в течение примерно 30 минут до полной зарядки аккумуляторов NVRAM. После зарядки аккумуляторов узел автоматически возвращается в обычный режим чтения/записи.
 

Предупреждение! Если данные по-прежнему хранятся в NVRAM из-за неправильного завершения работы, а системное питание на узел не подается дольше, чем время работы от аккумулятора NVRAM, происходит потеря данных, что влечет длительную процедуру восстановления, а иногда и полную перестройку кластера.



Фаза 5. Подайте питание на каждый узел в кластере.
Эти действия необходимо выполнить по готовности перезапуска кластера Isilon.

  1. Установите источник питания обратно на каждый узел.
  2. Нажмите кнопку включения на передней панели или в задней части каждого узла для запуска.
  3. После подачи питания на всех узлы выполните isi status -q команду для просмотра состояния кластера. Прежде чем продолжить, убедитесь, что для всех узлов в столбце Health DASR выводится OK, узлы не находятся в режиме «только для чтения» (R). Для кластера в нормальном состоянии должны отображаться выходные данные, аналогичные следующим:
Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. См. список включенных служб, созданный на фазе 2, действие 1b, и включите службы, которые были отключены, выполнив одну или несколько из следующих команд:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
  1. Убедитесь, что ваши клиенты могут подключиться к кластеру и выполнять обычные рабочие процессы. Кластер должен функционировать штатно.

 

  1. Уплои полный сбор лога:
# isi_gather_info --esrs
  1. Выполните или отправьте запрос на диагностику системы Isilon командой удаленной поддержки клиентов (Remote Reactive).

Действия по выполнению диагностики системы.

PowerScale. Как запустить средство анализа кластера IOCA.

  1. Запрос диагностики системы у команды удаленной поддержки клиентов (Remote Reactive)

Она доступна всем заказчикам с действующим соглашением о техническом обслуживании кластеров с поддерживаемыми версиями кода.

Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом «Isilon Health Check».

* Диагностика системы не предназначена для устранения проблем с кластером или оценки конфигурации, производительности или рабочего процесса кластера.

Дополнительная информация

Ниже приведены некоторые рекомендованные ресурсы по этой теме, которые могут представлять интерес.

Затронутые продукты

PowerScale, Isilon

Продукты

Isilon
Свойства статьи
Номер статьи: 000018989
Тип статьи: How To
Последнее изменение: 06 Nov 2025
Версия:  18
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.