Как реализовать SBD STONITH в кластерах Linux

Summary: Цель этой статьи — объяснить, как работает функция Storage Based Death (SBD) STONITH и как ее реализовать в среде с несколькими путями ввода-вывода.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

СТОНИТ: «Выстрелить другому узлу в голову» или «Выстрелить в голову-нарушителю
» или
STONITH: «Выстрел в голову другому участнику или машине»STONITH

— это техника фехтования в компьютерных кластерах. Ограждение — это изоляция неисправного узла таким образом, чтобы не нарушать работу кластера компьютеров.

В SBD STONIC узлы в кластере Linux поддерживают друг друга в актуальном состоянии с помощью механизма тактовых импульсов. Если что-то идет не так с узлом в кластере, для этого узла записывается ядовитая пилюля на устройство хранения общего доступа. Узел должен съесть (принять) ядовитую пилюлю и самоликвидироваться. После чего ресурс файловой системы можно безопасно переключить на другой узел в кластере Linux.

В среде DELL все диски имеют несколько каналов ввода-вывода. К ним относится и устройство SBD STONITH. Соответственно, при создании устройства SBD STONITH необходимо отрегулировать время ожидания, используемое SBD, так как следующие факторы могут вызвать задержки; Обнаружение сбоя пути многопутевого ввода-вывода (MPIO), обнаружение сбоя пути PowerPath или сбоя пути NMP. Если у вас несколько устройств, кратковременные тайм-ауты одного устройства не оказывают негативного влияния на SBD. Однако если все они проходят через одни и те же коммутаторы FC, это необходимо сделать. Тайм-аут таймера наблюдения — это время, необходимое для обнаружения сбоя пути и переключения на другой путь. После того, как msgwait time, предполагается, что сообщение было доставлено на узел. Для многопутевого ввода-вывода это должно быть время, необходимое для обнаружения сбоя пути и перехода к следующему пути, добавленное ко времени между двумя петлями для доступа к устройству SBD (интервал между двумя петлями по умолчанию составляет 1 с).

Время ожидания таймера наблюдения должно быть меньше, чем msgwait timeout — можно использовать половину значения.

Значение по умолчанию msgwait Время ожидания 10 с. Если msgwait Время ожидания не скорректировано, это слишком короткое время, чтобы дать хосту, у которого возникла проблема с путем при доступе к устройству SBD, чтобы определить, что путь недействителен, и переключиться на другой путь. Если хост не может обновить таймер наблюдения достаточно быстро, на хост записывается ядовитая пилюля. Это приводит к тому, что хост совершает самоубийство, когда он снова может получить доступ к устройству SBD, что не является целью механизма STONITH.

Эти значения можно задать путем добавления -4 msgwait -1 watchdogtimeout к команде создания.
Ниже приведен пример среды ESX, использующей NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Ниже приведен пример для среды Linux, использующей PowerPath или MPIO (с devloss tmo Установите значение 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Все тайм-ауты указаны в секундах.)

Additional Information

Эта проблема может повлечь за собой значительные задержки при переключении на резервный ресурс. Дополнительные сведения о SBD STONITH см. в разделе SUSE Защита системы хранения данных и SBD (внешняя ссылка)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.