如何在 Linux 集群中实现 SBD STONITH
Summary: 本文的目的是解释基于存储的死亡 (SBD) STONITH 的工作原理以及如何在多路径环境中实施它。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
STONITH:“射杀头部的另一个节点”或“射杀头部的冒犯节点”
或
STONITH:“Shoot The Other Member or Machine In The Head”
STONITH 是一种用于计算机集群中的击剑技术。隔断是对故障节点的隔离,使其不会对计算机群集造成中断。
在 SBD STONITH 中,Linux 群集中的节点使用心跳机制相互更新。如果群集中的某个节点出现问题,则会为该节点向共享存储设备写入毒丸。节点必须吃掉(接受)毒丸并自行终止。之后,文件系统资源可以安全地故障切换到 Linux 群集中的另一个节点。
在戴尔环境中,所有磁盘均为多路径磁盘。这包括 SBD STONITH 设备。因此,在创建 SBD STONITH 设备时,必须调整 SBD 使用的超时,因为以下因素可能会导致延迟;多路径 I/O (MPIO) 路径关闭检测、PowerPath 路径关闭检测或 NMP 路径关闭检测。如果您有多个设备,单个设备的短暂超时不会对 SBD 产生负面影响。但是,如果它们都通过相同的 FC 交换机,则必须执行此操作。监护程序超时是检测到路径故障并切换到另一条路径所需的时间。在
监护程序超时必须短于
默认值
您可以通过添加以下方法设置这些值:
下面是使用 NMP 的 ESX 环境的示例:
下面是使用 PowerPath 或 MPIO(具有
(所有超时均以秒为单位。)
或
STONITH:“Shoot The Other Member or Machine In The Head”
STONITH 是一种用于计算机集群中的击剑技术。隔断是对故障节点的隔离,使其不会对计算机群集造成中断。
在 SBD STONITH 中,Linux 群集中的节点使用心跳机制相互更新。如果群集中的某个节点出现问题,则会为该节点向共享存储设备写入毒丸。节点必须吃掉(接受)毒丸并自行终止。之后,文件系统资源可以安全地故障切换到 Linux 群集中的另一个节点。
在戴尔环境中,所有磁盘均为多路径磁盘。这包括 SBD STONITH 设备。因此,在创建 SBD STONITH 设备时,必须调整 SBD 使用的超时,因为以下因素可能会导致延迟;多路径 I/O (MPIO) 路径关闭检测、PowerPath 路径关闭检测或 NMP 路径关闭检测。如果您有多个设备,单个设备的短暂超时不会对 SBD 产生负面影响。但是,如果它们都通过相同的 FC 交换机,则必须执行此操作。监护程序超时是检测到路径故障并切换到另一条路径所需的时间。在
msgwait 超时,假定消息已传送到节点。对于多路径,这应该是多路径检测到路径故障并切换到下一个路径所需的时间,加上两个环路之间的时间以访问 SBD 设备(两个环路之间的默认间隔为 1 秒)。
监护程序超时必须短于
msgwait 超时 - 该值的一半是很好的使用值。
默认值
msgwait 超时为 10 秒。如果 msgwait 未调整超时,此超时时间太短,无法为访问 SBD 设备时路径上出现问题的主机提供时间,以检测路径损坏并故障切换到另一条路径。如果主机无法足够快地更新监护程序计时器, 则会向主机写入毒丸。这会导致主机在可以再次访问 SBD 设备时自杀, 这不是 STONITH 机制的目的。
您可以通过添加以下方法设置这些值:
-4 msgwait -1 watchdogtimeout 添加到 create 命令。
下面是使用 NMP 的 ESX 环境的示例:
/usr/sbin/sbd -d /dev/sbd -4 40 -1 20 create
下面是使用 PowerPath 或 MPIO(具有
devloss tmo 设置为 30):
/usr/sbin/sbd -d /dev/sbd -4 72 -1 36 create
(所有超时均以秒为单位。)
Additional Information
此问题可能会导致故障切换出现重大延迟。有关 SBD STONITH 的更多信息,请查看 SUSE Storage Protection 和 SBD(外部链接)
Affected Products
PowerPath/VE for VMwareProducts
PowerPath/VE for VMwareArticle Properties
Article Number: 000022740
Article Type: How To
Last Modified: 22 Aug 2024
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.