Mise en œuvre de SBD STONITH dans les clusters Linux

Riepilogo: L’objectif de cet article est d’expliquer le fonctionnement de STONITH (Storage-Based Death ou SBD) et la façon de l’implémenter dans un environnement de multipathing.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

STONITH : « Tirez sur l’autre nœud dans la tête » ou « tirez sur le nœud incriminé dans la tête"
Ou
STONITH : « Tirer sur l’autre membre ou la machine dans la tête"

STONITH est une technique d’escrime dans les grappes d’ordinateurs. Le fencing consiste à isoler un nœud défaillant afin qu’il n’entraîne pas d’interruption pour un cluster d’ordinateurs.

Dans SBD STONITH, les nœuds du cluster Linux se tiennent mutuellement informés à l’aide du mécanisme Heartbeat. En cas de problème avec un nœud du cluster, une pilule empoisonnée est écrite pour ce nœud sur le périphérique de stockage partagé. Le nœud doit manger (accepter) la pilule empoisonnée et s’arrêter à lui-même. Ensuite, une ressource du système de fichiers peut être basculée en toute sécurité vers un autre nœud du cluster Linux.

Dans un environnement DELL, tous les disques font l’objet d’un multipathing. Cela inclut l’appareil SBD STONITH. Par conséquent, lors de la création de l’appareil SBD STONITH, les délais d’expiration utilisés par SBD doivent être ajustés, car les éléments suivants peuvent entraîner des retards : Détection du chemin vers le bas MPIO (Multiple Path I/O), détection du chemin vers le bas PowerPath ou détection du chemin vers le bas NMP. Si vous disposez de plusieurs appareils, les délais d’expiration transitoires d’un seul appareil n’affectent pas négativement le SBD. Toutefois, s’ils passent tous par les mêmes commutateurs FC, vous devez effectuer cette opération. Le délai d’expiration de la surveillance est le temps nécessaire pour détecter une défaillance d’un chemin et passer à un autre chemin. Après l’exécution de l' msgwait Délai d’expiration, le message est supposé avoir été remis au nœud. Pour le multipathing, il doit s’agir du temps nécessaire au multipathing pour détecter une panne de chemin et passer au chemin suivant, ajouté au temps entre deux boucles pour accéder au périphérique SBD (l’intervalle par défaut entre deux boucles est de 1 s).

Le délai d’expiration de la surveillance doit être plus court que le msgwait Délai d’expiration : la moitié de la valeur est une bonne valeur à utiliser.

La valeur par défaut de l’attribut msgwait Le délai d’expiration est de 10 secondes. Si l’option msgwait Le délai d’expiration n’est pas ajusté, car il est trop court pour donner le temps à un hôte qui rencontre un problème sur un chemin lors de l’accès au périphérique SBD de détecter que le chemin est défectueux et de basculer vers un autre chemin. Si l’hôte ne peut pas mettre à jour le minuteur de surveillance assez rapidement, une pilule empoisonnée est écrite sur l’hôte. L’hôte se suicide alors qu’il peut à nouveau accéder au périphérique SBD, ce qui n’est pas l’objectif du mécanisme STONITH.

Pour définir ces valeurs, vous devez ajouter -4 msgwait -1 watchdogtimeout à la commande create.
Voici un exemple d’environnement ESX qui utilise NMP :
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Voici un exemple d’environnement Linux utilisant PowerPath ou MPIO (avec devloss tmo réglé sur 30) :
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Tous les délais d’expiration sont exprimés en secondes.)

Informazioni aggiuntive

Ce problème peut entraîner des délais de basculement importants. Pour plus d’informations sur SBD STONITH, consultez SUSE Storage Protection et SBD (lien externe)

Prodotti interessati

PowerPath/VE for VMware

Prodotti

PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000022740
Tipo di articolo: How To
Ultima modifica: 22 ago 2024
Versione:  6
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.