事件:节点已从死机中恢复。有关死机的信息记录在文件中:var tmp panic

摘要: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前,请查看文章的所有部分。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

事件您
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中 /var/tmp/ 在受影响的节点上。
例:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

原因

节点崩溃的确切原因可能有所不同,但典型原因可能包括:
  • 硬件故障
  • 软件代码故障
  • 配置错误
群集日志分析必须与 PowerScale 支持一起执行,以了解崩溃的确切原因。

解决方案

要开始对问题进行故障处理,请首先确认节点已从死机事件中恢复,并且未关闭或离线。*

要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
# isi status
isi status 命令返回类似于以下内容的输出。如果节点成功重新加入群集,则 Health 列不会显示“D”(关闭):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
通过运行以下命令收集日志,并将日志集提供给 Isilon 技术支持部门以分析崩溃:
# isi_gather_info -f /var/tmp/
 
提醒: /var/tmp/ 默认日志收集中不收集崩溃数据,您必须使用 isi_gather_info -f /var/tmp/ 以收集适当的恐慌信息。

收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。

*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。

有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007

其他信息

提醒:
  • 此新的事件通知作为 OneFS v8.1.2.0、v8.2.2.0 和 v9.1.0.5 的 2021 年 3 月汇总修补程序的一部分启用。在 2021 年 3 月汇总修补程序 (RUP) 之前运行 OneFS 版本的群集不会发布此事件通知。
  • OneFS 9.2、9.3、9.4 及更高版本均包含此功能。
  • 如果 OneFS 检测到由于节点崩溃而重新启动,更新将触发事件。
  • 事件可能包括核心转储标头等基本信息,以帮助了解问题并对问题进行故障处理。
  • 生成的呼叫总部 SR 可以包含可读格式的其他信息,以便进行分类和分析。

提醒:在安装 2021 年 3 月 RUP 之前,由于群集上可能存在崩溃事件、核心或小型转储,此功能可能会导致假警报。在删除之前,OneFS 可能会继续针对旧的崩溃文件发出警报。执行以下步骤以避免出现假警报。
  1. 通过强制轮转日志来清理消息日志。此功能不会检查 gz 归档(如 messages.0.gz、messages.1.gz 等)中任何轮转日志中的崩溃信息。发现任何崩溃时,运行以下命令轮转 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. 检查每个节点池的 /var/crash 任何核心或小型转储文件的每个节点的目录。在获得批准后将其删除或备份。
  2. 运行以下命令以清理 vmcore 位于以下位置的文件: /var/crash 在所有节点上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

受影响的产品

PowerScale OneFS

产品

Isilon
文章属性
文章编号: 000184828
文章类型: Solution
上次修改时间: 18 9月 2025
版本:  15
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。