Как реализовать SBD STONITH в кластерах Linux

Riepilogo: Цель этой статьи — объяснить, как работает функция Storage Based Death (SBD) STONITH и как ее реализовать в среде с несколькими путями ввода-вывода.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

СТОНИТ: «Выстрелить другому узлу в голову» или «Выстрелить в голову-нарушителю
» или
STONITH: «Выстрел в голову другому участнику или машине»STONITH

— это техника фехтования в компьютерных кластерах. Ограждение — это изоляция неисправного узла таким образом, чтобы не нарушать работу кластера компьютеров.

В SBD STONIC узлы в кластере Linux поддерживают друг друга в актуальном состоянии с помощью механизма тактовых импульсов. Если что-то идет не так с узлом в кластере, для этого узла записывается ядовитая пилюля на устройство хранения общего доступа. Узел должен съесть (принять) ядовитую пилюлю и самоликвидироваться. После чего ресурс файловой системы можно безопасно переключить на другой узел в кластере Linux.

В среде DELL все диски имеют несколько каналов ввода-вывода. К ним относится и устройство SBD STONITH. Соответственно, при создании устройства SBD STONITH необходимо отрегулировать время ожидания, используемое SBD, так как следующие факторы могут вызвать задержки; Обнаружение сбоя пути многопутевого ввода-вывода (MPIO), обнаружение сбоя пути PowerPath или сбоя пути NMP. Если у вас несколько устройств, кратковременные тайм-ауты одного устройства не оказывают негативного влияния на SBD. Однако если все они проходят через одни и те же коммутаторы FC, это необходимо сделать. Тайм-аут таймера наблюдения — это время, необходимое для обнаружения сбоя пути и переключения на другой путь. После того, как msgwait time, предполагается, что сообщение было доставлено на узел. Для многопутевого ввода-вывода это должно быть время, необходимое для обнаружения сбоя пути и перехода к следующему пути, добавленное ко времени между двумя петлями для доступа к устройству SBD (интервал между двумя петлями по умолчанию составляет 1 с).

Время ожидания таймера наблюдения должно быть меньше, чем msgwait timeout — можно использовать половину значения.

Значение по умолчанию msgwait Время ожидания 10 с. Если msgwait Время ожидания не скорректировано, это слишком короткое время, чтобы дать хосту, у которого возникла проблема с путем при доступе к устройству SBD, чтобы определить, что путь недействителен, и переключиться на другой путь. Если хост не может обновить таймер наблюдения достаточно быстро, на хост записывается ядовитая пилюля. Это приводит к тому, что хост совершает самоубийство, когда он снова может получить доступ к устройству SBD, что не является целью механизма STONITH.

Эти значения можно задать путем добавления -4 msgwait -1 watchdogtimeout к команде создания.
Ниже приведен пример среды ESX, использующей NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Ниже приведен пример для среды Linux, использующей PowerPath или MPIO (с devloss tmo Установите значение 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Все тайм-ауты указаны в секундах.)

Informazioni aggiuntive

Эта проблема может повлечь за собой значительные задержки при переключении на резервный ресурс. Дополнительные сведения о SBD STONITH см. в разделе SUSE Защита системы хранения данных и SBD (внешняя ссылка)

Prodotti interessati

PowerPath/VE for VMware

Prodotti

PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000022740
Tipo di articolo: How To
Ultima modifica: 22 ago 2024
Versione:  6
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.