Como implementar o SBD STONITH em clusters Linux

Summary: O objetivo deste artigo é explicar como o STONITH de morte baseada em armazenamento (SBD) está funcionando e como implementá-lo em um ambiente de múltiplos caminhos.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH: "Atire no outro nó na cabeça" ou "Atire no nó ofensivo na cabeça"
ou
STONITH: "Shoot The Other Member or Machine In The Head"

STONITH é uma técnica para cercamento em clusters de computadores. O zoneamento é o isolamento de um nó com falha para que ele não cause disrupção em um cluster de computadores.

No SBD STONITH, os nós do cluster Linux mantêm uns aos outros atualizados usando o mecanismo de heartbeat. Se algo der errado com um nó no cluster, uma pílula de veneno será gravada para esse nó no dispositivo de armazenamento compartilhado. O nó tem que comer (aceitar) a pílula de veneno e terminar-se. Depois disso, um recurso do file system pode sofrer failover com segurança para outro nó no cluster do Linux.

Em um ambiente DELL, todos os discos têm múltiplos caminhos. Isso inclui o dispositivo SBD STONITH. Conseqüentemente, ao criar o dispositivo SBD STONITH, os tempos de espera excedidos que o SBD usa devem ser ajustados, pois o seguinte pode causar atrasos; Detecção de caminho inativo de E/S de múltiplos caminhos (MPIO), detecção de caminho inativo do PowerPath ou detecção de caminho inativo do NMP. Se você tiver vários dispositivos, os tempos de espera excedidos transitórios de um único dispositivo não afetarão negativamente o SBD. No entanto, se todos eles passarem pelos mesmos switches FC, você deverá fazer isso. O tempo limite do watchdog é o tempo necessário para detectar uma falha de caminho e alternar para outro caminho. Depois do msgwait timeout, presume-se que a mensagem foi entregue ao nó. Para múltiplos caminhos, esse deve ser o tempo necessário para que os múltiplos caminhos detectem uma falha de caminho e alternem para o próximo caminho, adicionado ao tempo entre dois loops para acessar o dispositivo SBD (o intervalo padrão entre dois loops é 1 segundo).

O tempo de espera excedido do watchdog deve ser menor que o msgwait Timeout - metade do valor é um bom valor para usar.

O valor padrão da variável msgwait O tempo de espera excedido é de 10 segundos. Se o msgwait O tempo de espera excedido não é ajustado. Isso é muito curto para dar tempo a um host que está tendo um problema em um caminho ao acessar o dispositivo SBD para detectar que o caminho está inválido e fazer failover para outro caminho. Se o host não conseguir atualizar o watchdog timer rápido o suficiente, uma pílula venenosa será gravada para o host. Isso faz com que o hospedeiro cometa suicídio quando pode acessar o dispositivo SBD novamente, o que não é o propósito do mecanismo STONITH.

Você definiria esses valores adicionando -4 msgwait -1 watchdogtimeout ao comando create.
Este é um exemplo de um ambiente ESX que está usando NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Aqui está um exemplo de um ambiente Linux usando PowerPath ou MPIO (com devloss tmo Definido como 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Todos os tempos de espera excedidos são em segundos.)

Additional Information

Esse problema pode resultar em atrasos significativos para o failover. Para obter mais informações sobre SBD STONITH, consulte SUSE Storage Protection e SBD (Link externo)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.