Cómo implementar SBD STONITH en clústeres Linux

Summary: El propósito de este artículo es explicar cómo funciona Storage-Based Death (SBD) STONITH y cómo implementarlo en un entorno de múltiples rutas.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

STONITH: "Dispara al otro nodo en la cabeza" o "Dispara al nodo ofensivo en la cabeza"
o
ESTONIA: "Disparar al otro miembro o máquina en la cabeza"

STONITH es una técnica para esgrimir en grupos de computadoras. El cercado es el aislamiento de un nodo fallido para que no cause interrupciones en un clúster de computadoras.

En SBD STONITH, los nodos del clúster de Linux se mantienen actualizados entre sí mediante el mecanismo de latido. Si algo sale mal con un nodo del clúster, se escribe una píldora venenosa para ese nodo en el dispositivo de almacenamiento compartido. El nodo tiene que comer (aceptar) la píldora venenosa y terminar. Después de esto, un recurso del sistema de archivos se puede conmutar por error de manera segura a otro nodo del clúster de Linux.

En un entorno DELL, todos los discos tienen múltiples rutas. Esto incluye el dispositivo SBD STONITH. En consecuencia, cuando se crea el dispositivo SBD STONITH, se deben ajustar los tiempos de espera agotados que utiliza SBD, ya que lo siguiente puede causar retrasos; Detección de múltiples I/O de ruta inactiva (MPIO), detección de ruta inactiva de PowerPath o detección de ruta inactiva de NMP. Si tiene varios dispositivos, los tiempos de espera agotados transitorios de un solo dispositivo no afectan negativamente el SBD. Sin embargo, si todos pasan por los mismos switches de FC, debe hacer esto. El tiempo de espera agotado de vigilancia es el tiempo necesario para detectar una falla de ruta y cambiar a otra ruta. Después de que el msgwait tiempo de espera agotado, se supone que el mensaje se entregó al nodo. Para las múltiples rutas, este debe ser el tiempo necesario para que las múltiples rutas detecten una falla de ruta y cambien a la siguiente ruta, sumado al tiempo entre dos bucles para acceder al dispositivo SBD (el intervalo predeterminado entre dos bucles es de 1 s).

El tiempo de espera de vigilancia debe ser menor que el msgwait Tiempo de espera: la mitad del valor es un buen valor para usar.

El valor predeterminado de la propiedad msgwait El tiempo de espera es de 10 segundos. Si el msgwait El tiempo de espera no está ajustado; es demasiado breve para dar tiempo a un host que tiene un problema en una ruta cuando accede al dispositivo SBD para detectar que la ruta es incorrecta y realizar la conmutación por error a otra ruta. Si el host no puede actualizar el temporizador de vigilancia lo suficientemente rápido, se escribe una píldora venenosa en el host. Esto hace que el host se suicide cuando puede acceder al dispositivo SBD nuevamente, lo cual no es el propósito del mecanismo STONITH.

Para establecer estos valores, agregue -4 msgwait -1 watchdogtimeout al comando create.
A continuación, se muestra un ejemplo de un entorno ESX que utiliza NMP:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
Este es un ejemplo de un entorno Linux que utiliza PowerPath o MPIO (con devloss tmo Establezca en 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(Todos los tiempos de espera se agotan en segundos).

Additional Information

Este problema puede provocar retrasos significativos en la conmutación por error. Para obtener más información sobre SBD STONITH, consulte SUSE Storage Protection y SBD (enlace externo)

Affected Products

PowerPath/VE for VMware

Products

PowerPath/VE for VMware
Article Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.