PowerScale, Isilon, OneFS: Как правильно выключить кластер
Сводка: Рекомендации по правильному завершению работы кластера PowerScale, а также информация о рисках, связанных с неправильным отключением кластера. Пошаговые процедуры для правильного завершения работы кластера. Некоторые действия необходимо выполнить за 4–8 недель до запланированной модернизации. ...
Инструкции
Введение
В статье описывается процедура правильного завершения работы кластера Dell Isilon Cluster и содержится информация о рисках, связанных с неправильным завершением его работы.
Неправильно выключенные узлы в кластере не должны оставаться без питания системы дольше, чем срок службы аккумулятора NVRAM.
Это примерно от трех до пяти дней, в зависимости от типа узла.
Если данные по-прежнему хранятся в журнале узла, а питание узла длится дольше, чем работает аккумулятор NVRAM, данные будут потеряны.
Если это произойдет на нескольких узлах, потребуется перестроить
кластер.Если у вас есть вопросы по процедурам или информации, описанным в этой статье, обратитесь в службу технической поддержки Dell Isilon.
Последовательность действий
Процедура завершения работы кластера требует учетных данных root и доступа к узлам кластера с последовательной консоли. Процедура разделена на следующие этапы.
- Фаза 1. Выполните профилактическое обслуживание
- Фаза 2. Завершите работу каждого узла в кластере
- Фаза 3. Убедитесь, что работа узлов успешно завершена
- Фаза 4. Отсоедините источник питания
- Фаза 5. Подайте питание на каждый узел в кластере
- Фаза 6. Запустите диагностику в кластере
Перед началом завершения работы ознакомьтесь со всей процедурой. Так вы сможете понять контекст и порядок выполнения каждого действия.
Фаза 1. Профилактическое обслуживание.
Эти действия выполняются примерно за 4–8 недель до запланированного завершения работы. Цель этой фазы — выявить неизвестные или скрытые проблемы с оборудованием или микропрограммой, которые могут препятствовать процедуре завершения работы.
Если обстоятельства требуют немедленного завершения работы в масштабе кластера, можно одновременно отключить все узлы с помощью интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS.
Dell настоятельно рекомендует выполнить все действия, описанные в фазе 3 , чтобы сохранить целостность данных во время процедуры аварийного завершения работы.
- При необходимости загрузите журналы для доступа к данным за прошлые периоды.
# isi diagnostics gather start --gather-mode full
- Выполните или отправьте запрос на диагностику системы Isilon.
- Это позволяет оценить состояние кластера, чтобы убедиться, что он находится в хорошем поддерживаемом рабочем состоянии.
- Диагностику может выполнить заказчик с помощью PowerScale. Как запустить средство анализа кластера IOCA
- Диагностику может выполнить команда удаленной поддержки клиентов (Remote Reactive). Она доступна всем заказчикам с действующим соглашением о техническом обслуживании кластеров с поддерживаемыми версиями кода. Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом «Isilon Health Check» и обеспечьте доступ к полным журналам диагностики системы, выполнив эту команду.
# isi diagnostics gather start --gather-mode full
* Диагностика системы не предназначена для устранения проблем с кластером или оценки конфигурации, производительности или рабочего процесса кластера.
- Выполните «холодную» перезагрузку каждого узла в ходе следующих действий. Для выполнения этой задачи должно быть запланировано окно обслуживания.
Примечание. Этот процесс позволяет определить любые ошибки памяти или режимы отказа накопителя, которые обнаруживаются только при включении питания узла.
- Завершайте работу каждого узла в кластере по отдельности. Чтобы завершить работу каждого узла, выполните следующие действия.
- Откройте подключение по протоколу SSH к любому узлу. Завершите работу каждого узла, выполнив следующую команду
isi config shutdown <node_lnn>
- Убедитесь, что питание каждого узла отключено — зеленый индикатор питания на задней панели узла не должен гореть.
- При необходимости нажмите кнопку питания, чтобы снова включить узел.
- Убедитесь, что узел снова присоединился к кластеру и работоспособен, запустив
isi status -qэту команду и найдя OK в столбце Health DASR выходных данных. - Если на узле возникают проблемы, указанные в столбце Health DASR, или не удается повторно присоединиться к кластеру, устраните эти проблемы перед завершением работы следующего узла.
Выбран пример проблемы. Узел 1 успешно присоединен к кластеру, но столбец Health DASR указывает на то, что он требует внимания.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- После перезагрузки каждого узла дважды проверьте состояние всего кластера. Откройте подключение SSH к любому узлу и выполните следующую команду:
isi status -q
isi config reboot <node_lnn>
Однако Dell настоятельно рекомендует использовать метод «холодной» перезагрузки для более эффективного выявления скрытых проблем с оборудованием.
Фаза 2. Завершите работу каждого узла в кластере.
Эти действия необходимо выполнить в день завершения работы кластера Isilon. Во время системного отключения кластера некоторые факторы могут повлиять на процесс отключения или задержать его. Например, незавершенные операции записи данных на узел могут повлиять на завершение работы. Действия 1–2 предназначены для того, чтобы перед выполнением команды завершения работы все клиенты были отключены от кластера и данные правильно сохранялись из журналов узлов в файловую систему. Если у вас есть клиенты iSCSI, перед отключением службы iSCSI обязательно завершите их работу.
В действии 3 описывается, как по очереди завершать работу каждого узла в кластере с помощью последовательной консоли. Этот метод рекомендуется, поскольку он позволяет убедиться, что работа каждого узла завершена должным образом, прежде чем перейти к следующему узлу, и при необходимости внести корректировки или устранить проблемы, чтобы обеспечить надлежащее завершение работы кластера. Однако этот метод может занять много времени, так как для выполнения команды завершения работы требуется подключение последовательной консоли к каждому узлу. В разделе Одновременное выключение всех узлов в кластере описано, как использовать интерфейс командной строки OneFS или веб-интерфейс администрирования OneFS для выключения кластера. Этот метод занимает меньше времени, чем действие 3, но усложняет выявление узлов, в которых возникают проблемы в процессе завершения работы.
- Isilon рекомендует изолировать кластер от клиентов, чтобы клиенты с интенсивной записью не препятствовали процедуре завершения работы. Это можно сделать, отключив клиентские службы, запущенные в кластере. Чтобы отключить клиентские службы, выполните следующие действия.
- Определите клиентские службы или протоколы, которые запущены в кластере, выполнив следующие команды для каждой клиентской службы.
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Зафиксируйте, какие службы «включены» в кластере, на основе выходных данных для каждой команды. Выбранная в приведенном ниже примере служба SMB включена, а служба NFS отключена:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Отключите клиентские службы. После этого действия все клиенты немедленно теряют подключение к кластеру. Чтобы отключить службу, выполните следующую команду, связанную с включенной службой.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Если у вас есть клиенты iSCSI, перед выполнением действия 2 убедитесь, что они размонтировали свои LUN. Выполните команду isi iscsi list для подтверждения того, что все клиенты iSCSI отключены от кластера.
Примечание. Если служба iSCSI отключена, перед выполнением команды убедитесь, что клиенты iSCSI выключены
isi_iscsi_d disable . Прерывание работы смонтированного LUN iSCSI может привести к повреждению клиента, что обычно требует восстановления из резервной копии.
- Переместите записи данных, хранящиеся в журналах узлов, в файловую систему, запустив команду
isi_for_array isi_flush. На каждом узле появляются выходные данные, аналогичные следующим:
Обратите внимание, что при запуске isi_flush он НЕ остановится до тех пор, пока не будет завершен сброс на узле, или пока узел не будет выключен или не запаниковал. Вы не можете нажать ctrl+c для выхода из сброса в случае возникновения проблем.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Выполните команду isi_for_array isi_flush еще раз. Если какой-либо узел не удается очистить, обратитесь в службу технической поддержки Dell Isilon. Все узлы должны быть успешно очищены перед переходом к следующему действию.
- Последовательно завершайте работу каждого узла в кластере и отслеживайте выходные данные. Этот метод рекомендуется, поскольку позволяет выявлять и устранять любые проблемы перед завершением работы следующего узла в кластере. Завершите работу каждого узла, выполнив следующие действия.
Внимание! НЕ запускайте команду
isi_for_array shutdown -p , чтобы завершить работу кластера.
- Подключите последовательную консоль к каждому узлу.
- Выполните следующую команду:
isi config shutdown
Powering the system off using ACPI
- С. Следите за консолью и ищите события сбоя, связанные с аппаратурой. Успешные сохранения журнала узла выбираются в следующих вариантах вывода:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Если получено сообщение об ошибке, которую журнал узла не сохранил, можно вручную сохранить журнал, выполнив действия, описанные на фазе 3.
Одновременно завершите работу каждого узла в кластере.
При возникновении чрезвычайной ситуации можно одновременно завершить работу всех узлов в кластере. Однако этот метод не рекомендуется, поскольку он не позволяет отслеживать состояние и выходные данные каждого узла в случае возникновения проблемы. Если вы решите выполнить указанные действия, Dell настоятельно рекомендует выполнить все действия на фазе 3, чтобы убедиться, что работа всех узлов завершена должным образом после выполнения описанных ниже процедур.
Предупреждение! При удалении источника питания с узла, данные из журнала которого не очищены в файловую систему, риск потери данных существенно возрастает. Обратитесь в службу технической поддержки Dell Isilon, если вам требуется помощь с процедурой завершения работы.
# isi config shutdown all
isi_for_array shutdown -p команду для завершения работы кластера из веб-интерфейса администрирования OneFS в OneFS 8.0 и более поздних версиях.
Фаза 3. Убедитесь, что работа узлов успешно завершена.
Убедитесь, что работа узлов успешно завершена, посмотрев на светодиод индикатора питания на задней панели узла. Все индикаторы питания должны быть темными или не гореть. Это означает, что работа узла успешно завершена.
Если индикатор питания на задней панели узла по-прежнему горит, это означает, что работа узла не завершена. Если работа узла не завершена или вы получаете выходные данные консоли, указывающие на то, что журнал узла не сохранен должным образом (с фазы 2, действие 3C), необходимо вручную сохранить журнал, чтобы убедиться, что данные переданы на диск, прежде чем завершать работу узла.
- Чтобы вручную сохранить журнал и завершить работу узла, выполните следующие действия.
- Если узел реагирует на интерфейс командной строки, перезагрузите узел, выполнив следующую команду:
# isi config reboot
- Если узел не реагирует на интерфейс командной строки, вручную перезагрузите узел, нажав и удерживая кнопку питания на задней панели узла. При этом питание узла отключается. Подождите 30 секунд, а затем нажмите кнопку питания один раз, чтобы снова загрузить резервную копию узла. Перейдите к следующему действию.
- После перезагрузки узла снова войдите в систему и сохраните журнал, выполнив следующие действия.
- Попытайтесь корректно завершить работу узла еще раз, выполнив следующую команду:
# isi config shutdown
- Если выходные данные по-прежнему указывают на то, что журнал не сохранен, сохраните журнал вручную, выполнив следующую команду:
# isi_save_journal
- Если журнал по-прежнему не сохраняется, размонтируйте файловую систему /ifs, а затем принудительно сохраните журнал, выполнив следующие команды:
# isi_kill_busy && umount /ifs
- Убедитесь, что журнал сохранен, выполнив команду isi_checkjournal.
# isi_checkjournal
- Не переходите к следующему действию, пока выходные данные не будут указывать на успешное сохранение журнала.
Обратитесь в службу технической поддержки Dell при необходимости.
Фаза 4. Отсоедините источник питания.
Источник питания от кластера можно отключить только после успешного завершения работы кластера и отключения питания узлов.
Аккумуляторы NVRAM
Когда клиент записывает файл на узел, записи сначала хранятся в энергонезависимой ОЗУ (NVRAM), размещенной на плате журнала узла. Спустя некоторое время OneFS записывает эти изменения на диск. Для защиты данных, хранящихся в NVRAM, при неплановых отключениях электроэнергии каждый узел оснащен аккумуляторами NVRAM (по два для целей резервирования). Узел с отключенным питанием, который остается подключенным к источнику питания, продолжает заряжать аккумуляторы NVRAM. При отключении источника питания от узла аккумуляторы NVRAM начинают разряжаться. Время работы от аккумулятора у узлов текущего поколения (X200, S200, X400 и NL400) составляет приблизительно пять дней. В предыдущих поколениях узлов время работы от аккумулятора NVRAM составляет приблизительно три дня.
Dell Technologies рекомендует правильно завершать работу узлов, чтобы избежать использования аккумуляторов NVRAM в течение значительного времени во время неплановых отключений электроэнергии.
Если аккумуляторы NVRAM на узле полностью разряжаются, узел загружается в режиме «только для чтения» и остается в этом режиме в течение примерно 30 минут до полной зарядки аккумуляторов NVRAM. После зарядки аккумуляторов узел автоматически возвращается в обычный режим чтения/записи.
Фаза 5. Подайте питание на каждый узел в кластере.
Эти действия необходимо выполнить по готовности перезапуска кластера Isilon.
- Установите источник питания обратно на каждый узел.
- Нажмите кнопку включения на передней панели или в задней части каждого узла для запуска.
- После подачи питания на всех узлы выполните
isi status -qкоманду для просмотра состояния кластера. Прежде чем продолжить, убедитесь, что для всех узлов в столбце Health DASR выводится OK, узлы не находятся в режиме «только для чтения» (R). Для кластера в нормальном состоянии должны отображаться выходные данные, аналогичные следующим:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- См. список включенных служб, созданный на фазе 2, действие 1b, и включите службы, которые были отключены, выполнив одну или несколько из следующих команд:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Убедитесь, что ваши клиенты могут подключиться к кластеру и выполнять обычные рабочие процессы. Кластер должен функционировать штатно.
- Уплои полный сбор лога:
# isi_gather_info --esrs
- Выполните или отправьте запрос на диагностику системы Isilon командой удаленной поддержки клиентов (Remote Reactive).
Действия по выполнению диагностики системы.
PowerScale. Как запустить средство анализа кластера IOCA.
- Запрос диагностики системы у команды удаленной поддержки клиентов (Remote Reactive)
Она доступна всем заказчикам с действующим соглашением о техническом обслуживании кластеров с поддерживаемыми версиями кода.
Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом «Isilon Health Check».
* Диагностика системы не предназначена для устранения проблем с кластером или оценки конфигурации, производительности или рабочего процесса кластера.