事件：节点已从死机中恢复。有关死机的信息记录在文件中：var tmp panic

摘要: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前，请查看文章的所有部分。

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

事件您
收到一个事件通知，指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中 /var/tmp/ 在受影响的节点上。
例：

4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

原因

节点崩溃的确切原因可能有所不同，但典型原因可能包括：

硬件故障
软件代码故障
配置错误

群集日志分析必须与 PowerScale 支持一起执行，以了解崩溃的确切原因。

解决方案

要开始对问题进行故障处理，请首先确认节点已从死机事件中恢复，并且未关闭或离线。*

要进行故障处理，请打开与节点的 SSH 连接，然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集：

# isi status

而 isi status 命令返回类似于以下内容的输出。如果节点成功重新加入群集，则 Health 列不会显示“D”（关闭）：

                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

通过运行以下命令收集日志，并将日志集提供给 Isilon 技术支持部门以分析崩溃：

# isi_gather_info -f /var/tmp/

提醒： /var/tmp/ 默认日志收集中不收集崩溃数据，您必须使用 isi_gather_info -f /var/tmp/ 以收集适当的恐慌信息。

收到日志后，技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配，则会上报问题以进行进一步评估。技术支持确定需要执行哪些作，例如硬件更换、代码修复、固件更新或其他缓解措施。

*如果节点仍处于关闭状态，则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助，请联系 Isilon 技术支持。

有关更多信息，请参阅文章 55936：Isilon OneFS：事件通知：节点离线 — 事件 ID：200010001、300010003、399990001、900160001、910100006、400150007

其他信息

提醒：

此新的事件通知作为 OneFS v8.1.2.0、v8.2.2.0 和 v9.1.0.5 的 2021 年 3 月汇总修补程序的一部分启用。在 2021 年 3 月汇总修补程序（RUP）之前运行 OneFS 版本的群集不会发布此事件通知。
OneFS 9.2、9.3、9.4 及更高版本均包含此功能。
如果 OneFS 检测到由于节点崩溃而重新启动，更新将触发事件。
事件可能包括核心转储标头等基本信息，以帮助了解问题并对问题进行故障处理。
生成的呼叫总部 SR 可以包含可读格式的其他信息，以便进行分类和分析。

提醒：在安装 2021 年 3 月 RUP 之前，由于群集上可能存在崩溃事件、核心或小型转储，此功能可能会导致假警报。在删除之前，OneFS 可能会继续针对旧的崩溃文件发出警报。执行以下步骤以避免出现假警报。

通过强制轮转日志来清理消息日志。此功能不会检查 gz 归档（如 messages.0.gz、messages.1.gz 等）中任何轮转日志中的崩溃信息。发现任何崩溃时，运行以下命令轮转 /var/log/messages：

isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.

检查每个节点池的 /var/crash 任何核心或小型转储文件的每个节点的目录。在获得批准后将其删除或备份。
运行以下命令以清理 vmcore 位于以下位置的文件： /var/crash 在所有节点上。

isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

受影响的产品

PowerScale OneFS

产品

Isilon

文章编号: 000184828

文章类型: Solution

上次修改时间: 18 9月 2025

版本: 15

事件：节点已从死机中恢复。有关死机的信息记录在文件中：var tmp panic

摘要: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前，请查看文章的所有部分。

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

事件：节点已从死机中恢复。有关死机的信息记录在文件中：var tmp panic

摘要: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前，请查看文章的所有部分。

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务