事件:节点已从死机中恢复。有关死机的信息记录在文件中:var tmp panic
Summary: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前,请查看文章的所有部分。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
事件您
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中
例:
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中
/var/tmp/ 在受影响的节点上。
例:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
节点崩溃的确切原因可能有所不同,但典型原因可能包括:
- 硬件故障
- 软件代码故障
- 配置错误
Resolution
要开始对问题进行故障处理,请首先确认节点已从死机事件中恢复,并且未关闭或离线。*
要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。
*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。
有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007
要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
# isi status而
isi status 命令返回类似于以下内容的输出。如果节点成功重新加入群集,则 Health 列不会显示“D”(关闭):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only通过运行以下命令收集日志,并将日志集提供给 Isilon 技术支持部门以分析崩溃:
# isi_gather_info -f /var/tmp/
提醒:
/var/tmp/ 默认日志收集中不收集崩溃数据,您必须使用 isi_gather_info -f /var/tmp/ 以收集适当的恐慌信息。
收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。
*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。
有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007
Additional Information
提醒:
- 此新的事件通知作为 OneFS v8.1.2.0、v8.2.2.0 和 v9.1.0.5 的 2021 年 3 月汇总修补程序的一部分启用。在 2021 年 3 月汇总修补程序 (RUP) 之前运行 OneFS 版本的群集不会发布此事件通知。
- OneFS 9.2、9.3、9.4 及更高版本均包含此功能。
- 如果 OneFS 检测到由于节点崩溃而重新启动,更新将触发事件。
- 事件可能包括核心转储标头等基本信息,以帮助了解问题并对问题进行故障处理。
- 生成的呼叫总部 SR 可以包含可读格式的其他信息,以便进行分类和分析。
提醒:在安装 2021 年 3 月 RUP 之前,由于群集上可能存在崩溃事件、核心或小型转储,此功能可能会导致假警报。在删除之前,OneFS 可能会继续针对旧的崩溃文件发出警报。执行以下步骤以避免出现假警报。
- 通过强制轮转日志来清理消息日志。此功能不会检查 gz 归档(如 messages.0.gz、messages.1.gz 等)中任何轮转日志中的崩溃信息。发现任何崩溃时,运行以下命令轮转 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- 检查每个节点池的
/var/crash任何核心或小型转储文件的每个节点的目录。在获得批准后将其删除或备份。 - 运行以下命令以清理
vmcore位于以下位置的文件:/var/crash在所有节点上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.