如何在 Linux 集群中实现 SBD STONITH

Riepilogo: 本文的目的是解释基于存储的死亡 (SBD) STONITH 的工作原理以及如何在多路径环境中实施它。

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

STONITH:“射杀头部的另一个节点”或“射杀头部的冒犯节点”

STONITH:“Shoot The Other Member or Machine In The Head”

STONITH 是一种用于计算机集群中的击剑技术。隔断是对故障节点的隔离,使其不会对计算机群集造成中断。

在 SBD STONITH 中,Linux 群集中的节点使用心跳机制相互更新。如果群集中的某个节点出现问题,则会为该节点向共享存储设备写入毒丸。节点必须吃掉(接受)毒丸并自行终止。之后,文件系统资源可以安全地故障切换到 Linux 群集中的另一个节点。

在戴尔环境中,所有磁盘均为多路径磁盘。这包括 SBD STONITH 设备。因此,在创建 SBD STONITH 设备时,必须调整 SBD 使用的超时,因为以下因素可能会导致延迟;多路径 I/O (MPIO) 路径关闭检测、PowerPath 路径关闭检测或 NMP 路径关闭检测。如果您有多个设备,单个设备的短暂超时不会对 SBD 产生负面影响。但是,如果它们都通过相同的 FC 交换机,则必须执行此操作。监护程序超时是检测到路径故障并切换到另一条路径所需的时间。在 msgwait 超时,假定消息已传送到节点。对于多路径,这应该是多路径检测到路径故障并切换到下一个路径所需的时间,加上两个环路之间的时间以访问 SBD 设备(两个环路之间的默认间隔为 1 秒)。

监护程序超时必须短于 msgwait 超时 - 该值的一半是很好的使用值。

默认值 msgwait 超时为 10 秒。如果 msgwait 未调整超时,此超时时间太短,无法为访问 SBD 设备时路径上出现问题的主机提供时间,以检测路径损坏并故障切换到另一条路径。如果主机无法足够快地更新监护程序计时器, 则会向主机写入毒丸。这会导致主机在可以再次访问 SBD 设备时自杀, 这不是 STONITH 机制的目的。

您可以通过添加以下方法设置这些值: -4 msgwait -1 watchdogtimeout 添加到 create 命令。
下面是使用 NMP 的 ESX 环境的示例:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
下面是使用 PowerPath 或 MPIO(具有 devloss tmo 设置为 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(所有超时均以秒为单位。)

Informazioni aggiuntive

此问题可能会导致故障切换出现重大延迟。有关 SBD STONITH 的更多信息,请查看 SUSE Storage Protection 和 SBD外部链接

Prodotti interessati

PowerPath/VE for VMware

Prodotti

PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000022740
Tipo di articolo: How To
Ultima modifica: 22 ago 2024
Versione:  6
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.