Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

使用 Systemd 进行自动系统恢复

Summary: 通过包含对监护程序硬件的支持,systemd 现在可以在 Dell PowerEdge 系统上执行监护程序守护程序 Linux 的功能。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

通过包含此超链接会将您带往 Dell Technologies 之外的网站监护程序此超链接会将您带往 Dell Technologies 之外的网站硬件的支持,systemd此超链接会将您带往 Dell Technologies 之外的网站 现在可以执行监护程序守护程序 Linux 的功能。在 Dell PowerEdge 系统上,此硬件可以是内置于平台芯片组(如 Intel ICH9)或 Dell iDRAC IPMI 兼容的 BMC 监护程序计时器中的芯片组监护程序计时器。

Dell iDRAC 提供 自动系统恢复 ,除了从操作系统锁定中恢复之外,还可以捕获屏幕截图以供以后进行分析。需要在操作系统上 添加软件 才能启用此功能。借助支持 systemd 的较新发行版,此功能可与发行版中原生提供的软件配合使用,从而消除了对附加软件的需求。

但是,可以在 Linux 上使用监督守护程序,但在系统其余部分正常运行时,守护程序本身可能会锁定。systemd 充当所有系统服务的软件监督程序,BMC 监护程序计时器充当 systemd 本身的硬件监护程序。因此,如果 systemd 不运行,则系统很有可能一般无法使用。现在,我们为所有系统服务提供了一种更可靠的方法,服务经理 (systemd) 将被 BMC 的监护程序计时器“监视”。

systemd 和 Dell iDRAC 的 BMC 监护程序之间的粘合剂是ipmi_watchdog内核模块,它使用 /dev/watchdog 为 Linux 监护程序 API此超链接会将您带往 Dell Technologies 之外的网站 提供对 BMC 监护程序的访问权限。Systemd 使用此界面定期启动监护程序。

使用ipmi_watchdog设置系统

可以将 Systemd 配置为将 iDRAC BMC 监护程序与这些步骤配合使用(在 Fedora 19 上):

  1. 由于系统有两个监护程序计时器(芯片组和 BMC),因此我们可以使用其中一个计时器。在此示例中,我们禁用芯片组监护程序。通过将系统 BIOS 中的“Operating system Watchdog Timer”选项设置为“Disabled”(默认值),可以禁用芯片组监护程序。
  2. 达到监护程序的超时值,比如 180 秒。
  3. 启用ipmi_watchdog内核模块以在系统启动时加载,并从上面超时:
  • 方法 1:使用以下内容创建 /etc/modules-load.d/ipmi_watchdog
    • 选项ipmi_watchdog超时 = 180
    • 拒绝列表iTCO_wdt # 可选。如果在 BIOS 设置中未禁用芯片组监护程序。
  • 方法 2:
    • 安装 OpenIPMI rpm
      • $ sudo yum 安装 OpenIPMI
    • 设置 IPMI_WATCHDOG=yes ,并在 /etc/sysconfig/ipmi 中设置超时IPMI_WATCHDOG_OPTIONS。
    • 启用 ipmi 服务以自动启动
      • $ sudo systemctl enable ipmi
  • 启用 systemd 的监护程序:
    • 在 /etc/systemd/system.conf 中取消注释并设置 RuntimeWatchdogSec=180
  • 重新启动系统
    • # systemctl daemon-reexec

测试这是否有效:

  1. 检查看门狗是否处于活动状态
    • $ sudo journalctl |grep -i “hardware watchdog” # 应显示 systemd 已设置为使用 IPMI 监护程序。
    • $ sudo ipmitool mc watchdog get # 检查“Watchdog Timer Is:已启动/正在运行。”
  2. 通过模拟内核死机进行测试(不要在生产系统上执行此操作)。确保 kdump 已禁用。
    • $ sudo echo c > /proc/sysrq-trigger
  3. 系统重置后,验证故障屏幕的图像是否在 iDRAC 中可用
    • 登录到 iDRAC Web UI
    • 概述 -> 服务器 ->故障排除 ->上次崩溃屏幕。
提醒:此功能目前不受戴尔支持,并在此处分享,目的是在 Linux Resources for PowerEdge Servers 上征求社区的反馈。

Article Properties


Last Published Date

19 Sept 2023

Version

6

Article Type

How To