Implementierung von SBD STONITH in Linux-Clustern

Summary: In diesem Artikel soll erläutert werden, wie Storage-Based Death (SBD) STONITH funktioniert und wie es in einer Multipathing-Umgebung implementiert wird.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH: "Schieß dem anderen Knoten in den Kopf" oder "Schieß dem beleidigenden Knoten in den Kopf"
Oder
STONITH: "Schieß dem anderen Mitglied oder der Maschine in den Kopf"

STONITH ist eine Technik zum Fechten in Computerclustern. Fencing ist die Isolierung eines ausgefallenen Nodes, damit er keine Unterbrechungen in einem Computercluster verursacht.

In SBD STONITH halten sich die Nodes im Linux-Cluster mithilfe des Heartbeat-Mechanismus gegenseitig auf dem Laufenden. Wenn bei einem Node im Cluster etwas schief geht, wird für diesen Node eine Giftpille auf das freigegebene Storage-Gerät geschrieben. Der Knoten muss die Giftpille fressen (akzeptieren) und sich selbst beenden. Danach kann für eine Dateisystemressource ein sicheres Failover auf einen anderen Node im Linux-Cluster durchgeführt werden.

In einer DELL-Umgebung sind alle Festplatten multipathed. Dazu gehört auch das SBD STONITH Gerät. Folglich müssen bei der Erstellung des SBD STONITH-Geräts die Zeitüberschreitungen, die SBD verwendet, angepasst werden, da Folgendes zu Verzögerungen führen kann: Erkennung mehrerer Pfad-I/Os (MPIO), Erkennung von PowerPath-Pfadausgängen oder NMP-Pfadaussen. Wenn Sie mehrere Geräte haben, wirken sich vorübergehende Timeouts eines einzelnen Geräts nicht negativ auf SBD aus. Wenn sie jedoch alle dieselben FC-Switches durchlaufen, müssen Sie dies tun. Das Watchdog-Timeout ist die Zeit, die erforderlich ist, um einen Pfadfehler zu erkennen und zu einem anderen Pfad zu wechseln. Nachdem die msgwait Timeout wird davon ausgegangen, dass die Nachricht an den Node zugestellt wurde. Bei Multipath sollte dies die Zeit sein, die Multipathing benötigt, um einen Pfadfehler zu erkennen und zum nächsten Pfad zu wechseln, addiert zur Zeit zwischen zwei Schleifen für den Zugriff auf das SBD-Gerät (das Standardintervall zwischen zwei Schleifen beträgt 1 s).

Das Watchdog-Timeout muss kürzer sein als das msgwait Timeout – Die Hälfte des Werts ist ein guter Wert.

Der Standardwert der msgwait Das Timeout beträgt 10 s. Wenn die msgwait Die Zeitüberschreitung ist nicht angepasst. Dies ist zu kurz, um einem Host, der beim Zugriff auf das SBD-Gerät ein Problem mit einem Pfad hat, Zeit zu geben, um zu erkennen, dass der Pfad fehlerhaft ist, und ein Failover auf einen anderen Pfad durchzuführen. Wenn der Host den Watchdog-Zeitgeber nicht schnell genug aktualisieren kann, wird eine Giftpille auf den Host geschrieben. Dies führt dazu, dass der Host Selbstmord begeht, wenn er wieder auf das SBD-Gerät zugreifen kann, was nicht der Zweck des STONITH-Mechanismus ist.

Sie würden diese Werte festlegen, indem Sie -4 msgwait -1 watchdogtimeout in den create-Befehl ein.
Hier ist ein Beispiel für eine ESX-Umgebung, die NMP verwendet:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Hier ist ein Beispiel für eine Linux-Umgebung mit PowerPath oder MPIO (mit devloss tmo auf 30 setzen):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Alle Zeitüberschreitungen sind in Sekunden angegeben.)

Additional Information

Dieses Problem kann zu erheblichen Verzögerungen beim Failover führen. Weitere Informationen zu SBD STONITH finden Sie unter SUSE Storage Protection und SBD (externer Link)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.