Jak wdrożyć SBD STONITH w klastrach linuksowych

Summary: Celem tego artykułu jest wyjaśnienie, jak działa Storage-Based Death (SBD) STONITH i jak go zaimplementować w środowisku wielościeżkowym.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH: "Strzel drugiemu węzłowi w głowę" lub "Strzel w"
lub
STONITH: "Zastrzel drugiego członka lub maszynę w głowę"

STONITH to technika szermierki w klastrach komputerowych. Ogrodzenie to odizolowanie uszkodzonego węzła, aby nie powodować zakłóceń w klastrze komputerowym.

W SBD STONITH węzły w klastrze Linux aktualizują się nawzajem przy użyciu mechanizmu pulsu. Jeśli coś pójdzie nie tak z węzłem w klastrze, trująca pigułka jest zapisywana dla tego węzła na udostępnionym urządzeniu magazynującym. Węzeł musi zjeść (zaakceptować) pigułkę trucizny i zakończyć się. Po czym zasób systemu plików można bezpiecznie przełączyć awaryjnie na inny węzeł w klastrze Linux.

W środowisku firmy DELL wszystkie dyski są wielościeżkowe. Dotyczy to również urządzenia SBD STONITH. W związku z tym podczas tworzenia urządzenia SBD STONITH należy dostosować limity czasu używane przez SBD, ponieważ następujące elementy mogą powodować opóźnienia; Wykrywanie wielu ścieżek we/wy (MPIO), PowerPath lub NMP. Jeśli masz wiele urządzeń, przejściowe limity czasu pojedynczego urządzenia nie wpływają negatywnie na SBD. Jeśli jednak wszystkie przechodzą przez te same przełączniki FC, musisz to zrobić. Limit czasu alarmu to czas wymagany do wykrycia awarii ścieżki i przełączenia na inną ścieżkę. Po msgwait upłynął limit czasu, zakłada się, że komunikat został dostarczony do węzła. W przypadku wielu ścieżek powinien to być czas wymagany do wykrycia awarii ścieżki przez wielościeżkowość i przełączenia się na następną ścieżkę, dodany do czasu między dwiema pętlami w celu uzyskania dostępu do urządzenia SBD (domyślny interwał między dwiema pętlami wynosi 1 s).

Limit czasu watchdoga musi być krótszy niż limit czasu msgwait Limit czasu — połowa wartości to dobra wartość do użycia.

Domyślna wartość parametru msgwait Limit czasu wynosi 10 s. Jeśli msgwait Limit czasu nie jest dostosowany. Jest zbyt krótki, aby dać czas hostowi, który ma problem na ścieżce podczas uzyskiwania dostępu do urządzenia SBD, na wykrycie, że ścieżka jest nieprawidłowa i przełączenie awaryjne na inną ścieżkę. Jeśli host nie może wystarczająco szybko zaktualizować licznika alarmowego, na hoście zapisywana jest pigułka trucizny. Powoduje to, że host popełnia samobójstwo, gdy może ponownie uzyskać dostęp do urządzenia SBD, co nie jest celem mechanizmu STONITH.

Wartości te należy ustawić, dodając -4 msgwait -1 watchdogtimeout do polecenia create.
Oto przykład środowiska ESX korzystającego z NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Oto przykład środowiska Linux korzystającego z PowerPath lub MPIO (z devloss tmo ustawione na 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Wszystkie limity czasu są podawane w sekundach).

Additional Information

Ten problem może wiązać się ze znacznymi opóźnieniami w celu przełączenia awaryjnego. Aby uzyskać więcej informacji na temat SBD STONITH, sprawdź SUSE Storage Protection i SBD (External Link)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.