事件:节点已从死机中恢复。有关死机的信息记录在文件中:var tmp panic
摘要: 本文介绍用户和技术支持部门应如何管理“Node has Recovered from a panic”事件或消息。在执行作之前,请查看文章的所有部分。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
事件您
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中
例:
收到一个事件通知,指示一个或多个节点已从死机中恢复。有关死机的信息记录在位于以下位置的文件中
/var/tmp/ 在受影响的节点上。
例:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
原因
节点崩溃的确切原因可能有所不同,但典型原因可能包括:
- 硬件故障
- 软件代码故障
- 配置错误
解决方案
要开始对问题进行故障处理,请首先确认节点已从死机事件中恢复,并且未关闭或离线。*
要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。
*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。
有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007
要进行故障处理,请打开与节点的 SSH 连接,然后使用“root”帐户登录。
运行以下命令以确认节点已重新加入群集:
# isi status而
isi status 命令返回类似于以下内容的输出。如果节点成功重新加入群集,则 Health 列不会显示“D”(关闭):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only通过运行以下命令收集日志,并将日志集提供给 Isilon 技术支持部门以分析崩溃:
# isi_gather_info -f /var/tmp/
提醒:
/var/tmp/ 默认日志收集中不收集崩溃数据,您必须使用 isi_gather_info -f /var/tmp/ 以收集适当的恐慌信息。
收到日志后,技术支持部门将审查和分析崩溃堆栈详细信息。它们确定崩溃堆栈是否与任何已知问题或知识库文章相对应。如果崩溃堆栈详细信息与已知问题或现有知识库文章不匹配,则会上报问题以进行进一步评估。技术支持确定需要执行哪些作,例如硬件更换、代码修复、固件更新或其他缓解措施。
*如果节点仍处于关闭状态,则必须执行其他故障处理以使节点恢复联机状态。如果需要帮助,请联系 Isilon 技术支持。
有关更多信息,请参阅文章 55936:Isilon OneFS:事件通知:节点离线 — 事件 ID:200010001、300010003、399990001、900160001、910100006、400150007
其他信息
提醒:
- 此新的事件通知作为 OneFS v8.1.2.0、v8.2.2.0 和 v9.1.0.5 的 2021 年 3 月汇总修补程序的一部分启用。在 2021 年 3 月汇总修补程序 (RUP) 之前运行 OneFS 版本的群集不会发布此事件通知。
- OneFS 9.2、9.3、9.4 及更高版本均包含此功能。
- 如果 OneFS 检测到由于节点崩溃而重新启动,更新将触发事件。
- 事件可能包括核心转储标头等基本信息,以帮助了解问题并对问题进行故障处理。
- 生成的呼叫总部 SR 可以包含可读格式的其他信息,以便进行分类和分析。
提醒:在安装 2021 年 3 月 RUP 之前,由于群集上可能存在崩溃事件、核心或小型转储,此功能可能会导致假警报。在删除之前,OneFS 可能会继续针对旧的崩溃文件发出警报。执行以下步骤以避免出现假警报。
- 通过强制轮转日志来清理消息日志。此功能不会检查 gz 归档(如 messages.0.gz、messages.1.gz 等)中任何轮转日志中的崩溃信息。发现任何崩溃时,运行以下命令轮转 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- 检查每个节点池的
/var/crash任何核心或小型转储文件的每个节点的目录。在获得批准后将其删除或备份。 - 运行以下命令以清理
vmcore位于以下位置的文件:/var/crash在所有节点上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
受影响的产品
PowerScale OneFS产品
Isilon文章属性
文章编号: 000184828
文章类型: Solution
上次修改时间: 18 9月 2025
版本: 15
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。