Jak wdrożyć SBD STONITH w klastrach linuksowych

Resumo: Celem tego artykułu jest wyjaśnienie, jak działa Storage-Based Death (SBD) STONITH i jak go zaimplementować w środowisku wielościeżkowym.

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Instruções

STONITH: "Strzel drugiemu węzłowi w głowę" lub "Strzel w"
lub
STONITH: "Zastrzel drugiego członka lub maszynę w głowę"

STONITH to technika szermierki w klastrach komputerowych. Ogrodzenie to odizolowanie uszkodzonego węzła, aby nie powodować zakłóceń w klastrze komputerowym.

W SBD STONITH węzły w klastrze Linux aktualizują się nawzajem przy użyciu mechanizmu pulsu. Jeśli coś pójdzie nie tak z węzłem w klastrze, trująca pigułka jest zapisywana dla tego węzła na udostępnionym urządzeniu magazynującym. Węzeł musi zjeść (zaakceptować) pigułkę trucizny i zakończyć się. Po czym zasób systemu plików można bezpiecznie przełączyć awaryjnie na inny węzeł w klastrze Linux.

W środowisku firmy DELL wszystkie dyski są wielościeżkowe. Dotyczy to również urządzenia SBD STONITH. W związku z tym podczas tworzenia urządzenia SBD STONITH należy dostosować limity czasu używane przez SBD, ponieważ następujące elementy mogą powodować opóźnienia; Wykrywanie wielu ścieżek we/wy (MPIO), PowerPath lub NMP. Jeśli masz wiele urządzeń, przejściowe limity czasu pojedynczego urządzenia nie wpływają negatywnie na SBD. Jeśli jednak wszystkie przechodzą przez te same przełączniki FC, musisz to zrobić. Limit czasu alarmu to czas wymagany do wykrycia awarii ścieżki i przełączenia na inną ścieżkę. Po msgwait upłynął limit czasu, zakłada się, że komunikat został dostarczony do węzła. W przypadku wielu ścieżek powinien to być czas wymagany do wykrycia awarii ścieżki przez wielościeżkowość i przełączenia się na następną ścieżkę, dodany do czasu między dwiema pętlami w celu uzyskania dostępu do urządzenia SBD (domyślny interwał między dwiema pętlami wynosi 1 s).

Limit czasu watchdoga musi być krótszy niż limit czasu msgwait Limit czasu — połowa wartości to dobra wartość do użycia.

Domyślna wartość parametru msgwait Limit czasu wynosi 10 s. Jeśli msgwait Limit czasu nie jest dostosowany. Jest zbyt krótki, aby dać czas hostowi, który ma problem na ścieżce podczas uzyskiwania dostępu do urządzenia SBD, na wykrycie, że ścieżka jest nieprawidłowa i przełączenie awaryjne na inną ścieżkę. Jeśli host nie może wystarczająco szybko zaktualizować licznika alarmowego, na hoście zapisywana jest pigułka trucizny. Powoduje to, że host popełnia samobójstwo, gdy może ponownie uzyskać dostęp do urządzenia SBD, co nie jest celem mechanizmu STONITH.

Wartości te należy ustawić, dodając -4 msgwait -1 watchdogtimeout do polecenia create.
Oto przykład środowiska ESX korzystającego z NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Oto przykład środowiska Linux korzystającego z PowerPath lub MPIO (z devloss tmo ustawione na 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Wszystkie limity czasu są podawane w sekundach).

Mais informações

Ten problem może wiązać się ze znacznymi opóźnieniami w celu przełączenia awaryjnego. Aby uzyskać więcej informacji na temat SBD STONITH, sprawdź SUSE Storage Protection i SBD (External Link)

Produtos afetados

PowerPath/VE for VMware

Produtos

PowerPath/VE for VMware
Propriedades do artigo
Número do artigo: 000022740
Tipo de artigo: How To
Último modificado: 22 ago. 2024
Versão:  6
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.