Come implementare SBD STONITH nei cluster Linux

Summary: Lo scopo di questo articolo è spiegare come funziona Storage-Based Death (SBD) STONITH e come implementarlo in un ambiente multipathing.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH: "Spara all'altro nodo in testa" o "Spara al nodo incriminato in testa"
o
STONITH: "Spara all'altro membro o alla macchina in testa"

STONITH è una tecnica per la scherma nei cluster di computer. L'isolamento è l'isolamento di un nodo guasto in modo che non causi interruzioni a un cluster di computer.

In SBD STONITH, i nodi nel cluster Linux si aggiornano a vicenda utilizzando il meccanismo Heartbeat. Se si verifica un problema in un nodo del cluster, viene scritta una poison pill per tale nodo sul dispositivo di storage condiviso. Il nodo deve mangiare (accettare) la pillola avvelenata e terminare se stesso. Dopodiché è possibile eseguire in modo sicuro il failover di una risorsa del file system su un altro nodo nel cluster Linux.

In un'ambiente DELL, tutti i dischi sono multipath. Ciò include il dispositivo SBD STONITH. Di conseguenza, quando si crea il dispositivo SBD STONITH, i timeout utilizzati da SBD devono essere regolati in quanto quanto segue può causare ritardi; Rilevamento percorso verso il basso MPIO (Multiple Path I/O), rilevamento del percorso verso il basso PowerPath o rilevamento del percorso verso il basso NMP. Se si dispone di più dispositivi, i timeout temporanei di un singolo dispositivo non influiscono negativamente su SBD. Tuttavia, se tutti passano attraverso gli stessi switch FC, è necessario eseguire questa operazione. Il timeout watchdog corrisponde al tempo necessario per rilevare un errore di percorso e passare a un altro percorso. Dopo il msgwait timeout, si presume che il messaggio sia stato consegnato al nodo. Per il multipath, questo dovrebbe essere il tempo necessario al multipathing per rilevare un errore di percorso e passare al percorso successivo, aggiunto al tempo tra due loop per accedere al dispositivo SBD (l'intervallo predefinito tra due loop è 1 s).

Il timeout watchdog deve essere più breve di msgwait Timeout: metà del valore è un buon valore da usare.

Il valore predefinito di msgwait Il timeout è di 10 secondi. Se l'opzione msgwait Il timeout non viene regolato, è troppo breve per dare tempo a un host che ha un problema su un percorso quando si accede al dispositivo SBD di rilevare che il percorso è errato e di eseguire il failover su un altro percorso. Se l'host non è in grado di aggiornare il timer watchdog in modo sufficientemente rapido, viene scritta una poison pill sull host. Ciò provoca il suicidio dell'host quando può accedere nuovamente al dispositivo SBD, che non è lo scopo del meccanismo STONITH.

È possibile impostare questi valori aggiungendo -4 msgwait -1 watchdogtimeout al comando Create.
Di seguito è riportato un esempio per un'ambiente ESX che utilizza NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Di seguito è riportato un esempio per un'ambiente Linux che utilizza PowerPath o MPIO (con devloss tmo impostato su 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
Tutti i timeout sono espressi in secondi.

Additional Information

Questo problema può comportare ritardi significativi per il failover. Per ulteriori informazioni su SBD STONITH, consultare SUSE Storage Protection e SBD (Link esterno)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.