Mise en œuvre de SBD STONITH dans les clusters Linux

Summary: L’objectif de cet article est d’expliquer le fonctionnement de STONITH (Storage-Based Death ou SBD) et la façon de l’implémenter dans un environnement de multipathing.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH : « Tirez sur l’autre nœud dans la tête » ou « tirez sur le nœud incriminé dans la tête"
Ou
STONITH : « Tirer sur l’autre membre ou la machine dans la tête"

STONITH est une technique d’escrime dans les grappes d’ordinateurs. Le fencing consiste à isoler un nœud défaillant afin qu’il n’entraîne pas d’interruption pour un cluster d’ordinateurs.

Dans SBD STONITH, les nœuds du cluster Linux se tiennent mutuellement informés à l’aide du mécanisme Heartbeat. En cas de problème avec un nœud du cluster, une pilule empoisonnée est écrite pour ce nœud sur le périphérique de stockage partagé. Le nœud doit manger (accepter) la pilule empoisonnée et s’arrêter à lui-même. Ensuite, une ressource du système de fichiers peut être basculée en toute sécurité vers un autre nœud du cluster Linux.

Dans un environnement DELL, tous les disques font l’objet d’un multipathing. Cela inclut l’appareil SBD STONITH. Par conséquent, lors de la création de l’appareil SBD STONITH, les délais d’expiration utilisés par SBD doivent être ajustés, car les éléments suivants peuvent entraîner des retards : Détection du chemin vers le bas MPIO (Multiple Path I/O), détection du chemin vers le bas PowerPath ou détection du chemin vers le bas NMP. Si vous disposez de plusieurs appareils, les délais d’expiration transitoires d’un seul appareil n’affectent pas négativement le SBD. Toutefois, s’ils passent tous par les mêmes commutateurs FC, vous devez effectuer cette opération. Le délai d’expiration de la surveillance est le temps nécessaire pour détecter une défaillance d’un chemin et passer à un autre chemin. Après l’exécution de l' msgwait Délai d’expiration, le message est supposé avoir été remis au nœud. Pour le multipathing, il doit s’agir du temps nécessaire au multipathing pour détecter une panne de chemin et passer au chemin suivant, ajouté au temps entre deux boucles pour accéder au périphérique SBD (l’intervalle par défaut entre deux boucles est de 1 s).

Le délai d’expiration de la surveillance doit être plus court que le msgwait Délai d’expiration : la moitié de la valeur est une bonne valeur à utiliser.

La valeur par défaut de l’attribut msgwait Le délai d’expiration est de 10 secondes. Si l’option msgwait Le délai d’expiration n’est pas ajusté, car il est trop court pour donner le temps à un hôte qui rencontre un problème sur un chemin lors de l’accès au périphérique SBD de détecter que le chemin est défectueux et de basculer vers un autre chemin. Si l’hôte ne peut pas mettre à jour le minuteur de surveillance assez rapidement, une pilule empoisonnée est écrite sur l’hôte. L’hôte se suicide alors qu’il peut à nouveau accéder au périphérique SBD, ce qui n’est pas l’objectif du mécanisme STONITH.

Pour définir ces valeurs, vous devez ajouter -4 msgwait -1 watchdogtimeout à la commande create.
Voici un exemple d’environnement ESX qui utilise NMP :
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Voici un exemple d’environnement Linux utilisant PowerPath ou MPIO (avec devloss tmo réglé sur 30) :
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Tous les délais d’expiration sont exprimés en secondes.)

Additional Information

Ce problème peut entraîner des délais de basculement importants. Pour plus d’informations sur SBD STONITH, consultez SUSE Storage Protection et SBD (lien externe)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.