Event: 節點已從錯誤中復原。錯誤相關資訊記錄在檔案中:var tmp panic
Summary: 本文說明使用者和技術支援應如何管理「節點已從錯誤中復原」事件或訊息。在採取行動之前,請閱讀文章的所有部分。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
事件
您收到事件通知,指出有一或多個節點從錯誤中復原。當機的相關資訊會記錄在位於
例:
您收到事件通知,指出有一或多個節點從錯誤中復原。當機的相關資訊會記錄在位於
/var/tmp/ 在受影響的節點上。
例:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
節點錯誤的確切原因可能有所不同,但典型原因可能包括:
- 硬體故障
- 軟體程式碼錯誤
- 組態錯誤
Resolution
若要開始故障診斷此問題,請先確認節點已從錯誤事件中復原,且未離線或離線。*
若要進行故障診斷,請開啟與節點的 SSH 連線,然後使用「root」帳戶登入。
執行下列命令,確認節點重新加入叢集:
收到記錄後,技術支援部門將檢閱和分析錯誤的堆疊詳細資料。它們會判斷錯誤堆疊是否對應至任何已知問題或知識文章。如果錯誤堆疊的詳細資料與已知問題或現有 KB 文章不符,則會將問題呈報以進一步評估。技術支援部門會決定需要採取的動作,例如更換硬體、修正程式碼、更新韌體或其他風險降低措施。
*如果節點仍處於關閉狀態,則必須執行額外的故障診斷,才能使節點重新連線。如需協助,請聯絡 Isilon 技術支援。
有關詳細資訊,請參閱文章 55936:Isilon OneFS:事件通知:節點離線 - 事件 ID:200010001, 300010003, 399990001, 900160001, 910100006, 400150007
若要進行故障診斷,請開啟與節點的 SSH 連線,然後使用「root」帳戶登入。
執行下列命令,確認節點重新加入叢集:
# isi status可使用
isi status 命令返回類似於以下內容的輸出。如果節點成功重新加入叢集,健全狀況欄便不會顯示「D」(關閉):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only執行下列命令以收集記錄,並將記錄集提供給 Isilon 技術支援部門以分析錯誤:
# isi_gather_info -f /var/tmp/
注意:
/var/tmp/ 預設記錄收集中不會收集錯誤資料,您必須使用 isi_gather_info -f /var/tmp/ 收集適當的緊急情況資訊。
收到記錄後,技術支援部門將檢閱和分析錯誤的堆疊詳細資料。它們會判斷錯誤堆疊是否對應至任何已知問題或知識文章。如果錯誤堆疊的詳細資料與已知問題或現有 KB 文章不符,則會將問題呈報以進一步評估。技術支援部門會決定需要採取的動作,例如更換硬體、修正程式碼、更新韌體或其他風險降低措施。
*如果節點仍處於關閉狀態,則必須執行額外的故障診斷,才能使節點重新連線。如需協助,請聯絡 Isilon 技術支援。
有關詳細資訊,請參閱文章 55936:Isilon OneFS:事件通知:節點離線 - 事件 ID:200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Additional Information
注意:
- 此新事件通知已在 OneFS 8.1.2.0、8.2.2.0 和 9.1.0.5 版的 2021 年 3 月匯總修補程式中啟用。在 2021 年 3 月匯總修補程式 (RUP) 之前執行 OneFS 版本的叢集不會張貼此事件通知。
- OneFS 9.2、9.3、9.4 及更新版本都包含此功能。
- 如果 OneFS 偵測到因為節點錯誤而重新開機,更新會觸發事件。
- 此事件可能包含核心傾印標頭等基本資訊,以協助您瞭解並故障診斷問題。
- 產生的 dial-home SR 可以採用可讀取的格式包含其他資訊,以進行分級和分析。
注意:在安裝 2021 年 3 月 RUP 之前,由於叢集上可能發生錯誤事件、核心或迷你傾印,此功能可能會導致誤報。在移除之前,OneFS 可能會繼續針對舊的錯誤檔案發出警示。請執行下列步驟,以避免誤報。
- 強制旋轉記錄檔以清理訊息記錄。此功能不會在 gz 封存中的任何旋轉式記錄中檢查錯誤資訊,例如 messages.0.gz、messages.1.gz 等。在發現任何錯誤時,執行下列命令以旋轉 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- 檢查
/var/crash任何核心或 minidumps 檔案的每個節點的目錄。請在取得核准後將其移除或備份。 - 執行下列命令進行清理
vmcore檔案位於/var/crash在所有節點上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.