事件:节点已从死机中恢复。有关死机的信息记录在文件中:var tmp panic

Summary: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前,请查看文章的所有部分。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

事件您
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中 /var/tmp/ 在受影响的节点上。
例:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

节点崩溃的确切原因可能有所不同,但典型原因可能包括:
  • 硬件故障
  • 软件代码故障
  • 配置错误
群集日志分析必须与 PowerScale 支持一起执行,以了解崩溃的确切原因。

Resolution

要开始对问题进行故障处理,请首先确认节点已从死机事件中恢复,并且未关闭或离线。*

要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
# isi status
isi status 命令返回类似于以下内容的输出。如果节点成功重新加入群集,则 Health 列不会显示“D”(关闭):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
通过运行以下命令收集日志,并将日志集提供给 Isilon 技术支持部门以分析崩溃:
# isi_gather_info -f /var/tmp/
 
提醒: /var/tmp/ 默认日志收集中不收集崩溃数据,您必须使用 isi_gather_info -f /var/tmp/ 以收集适当的恐慌信息。

收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。

*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。

有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007

Additional Information

提醒:
  • 此新的事件通知作为 OneFS v8.1.2.0、v8.2.2.0 和 v9.1.0.5 的 2021 年 3 月汇总修补程序的一部分启用。在 2021 年 3 月汇总修补程序 (RUP) 之前运行 OneFS 版本的群集不会发布此事件通知。
  • OneFS 9.2、9.3、9.4 及更高版本均包含此功能。
  • 如果 OneFS 检测到由于节点崩溃而重新启动,更新将触发事件。
  • 事件可能包括核心转储标头等基本信息,以帮助了解问题并对问题进行故障处理。
  • 生成的呼叫总部 SR 可以包含可读格式的其他信息,以便进行分类和分析。

提醒:在安装 2021 年 3 月 RUP 之前,由于群集上可能存在崩溃事件、核心或小型转储,此功能可能会导致假警报。在删除之前,OneFS 可能会继续针对旧的崩溃文件发出警报。执行以下步骤以避免出现假警报。
  1. 通过强制轮转日志来清理消息日志。此功能不会检查 gz 归档(如 messages.0.gz、messages.1.gz 等)中任何轮转日志中的崩溃信息。发现任何崩溃时,运行以下命令轮转 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. 检查每个节点池的 /var/crash 任何核心或小型转储文件的每个节点的目录。在获得批准后将其删除或备份。
  2. 运行以下命令以清理 vmcore 位于以下位置的文件: /var/crash 在所有节点上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon
Article Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.