Event: 節點已從錯誤中復原。錯誤相關資訊記錄在檔案中:var tmp panic
摘要: 本文說明使用者和技術支援應如何管理「節點已從錯誤中復原」事件或訊息。在採取行動之前,請閱讀文章的所有部分。
本文章適用於
本文章不適用於
本文無關於任何特定產品。
本文未識別所有產品版本。
症狀
事件
您收到事件通知,指出有一或多個節點從錯誤中復原。當機的相關資訊會記錄在位於
例:
您收到事件通知,指出有一或多個節點從錯誤中復原。當機的相關資訊會記錄在位於
/var/tmp/ 在受影響的節點上。
例:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
原因
節點錯誤的確切原因可能有所不同,但典型原因可能包括:
- 硬體故障
- 軟體程式碼錯誤
- 組態錯誤
解析度
若要開始故障診斷此問題,請先確認節點已從錯誤事件中復原,且未離線或離線。*
若要進行故障診斷,請開啟與節點的 SSH 連線,然後使用「root」帳戶登入。
執行下列命令,確認節點重新加入叢集:
收到記錄後,技術支援部門將檢閱和分析錯誤的堆疊詳細資料。它們會判斷錯誤堆疊是否對應至任何已知問題或知識文章。如果錯誤堆疊的詳細資料與已知問題或現有 KB 文章不符,則會將問題呈報以進一步評估。技術支援部門會決定需要採取的動作,例如更換硬體、修正程式碼、更新韌體或其他風險降低措施。
*如果節點仍處於關閉狀態,則必須執行額外的故障診斷,才能使節點重新連線。如需協助,請聯絡 Isilon 技術支援。
有關詳細資訊,請參閱文章 55936:Isilon OneFS:事件通知:節點離線 - 事件 ID:200010001, 300010003, 399990001, 900160001, 910100006, 400150007
若要進行故障診斷,請開啟與節點的 SSH 連線,然後使用「root」帳戶登入。
執行下列命令,確認節點重新加入叢集:
# isi status可使用
isi status 命令返回類似於以下內容的輸出。如果節點成功重新加入叢集,健全狀況欄便不會顯示「D」(關閉):
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only執行下列命令以收集記錄,並將記錄集提供給 Isilon 技術支援部門以分析錯誤:
# isi_gather_info -f /var/tmp/
注意:
/var/tmp/ 預設記錄收集中不會收集錯誤資料,您必須使用 isi_gather_info -f /var/tmp/ 收集適當的緊急情況資訊。
收到記錄後,技術支援部門將檢閱和分析錯誤的堆疊詳細資料。它們會判斷錯誤堆疊是否對應至任何已知問題或知識文章。如果錯誤堆疊的詳細資料與已知問題或現有 KB 文章不符,則會將問題呈報以進一步評估。技術支援部門會決定需要採取的動作,例如更換硬體、修正程式碼、更新韌體或其他風險降低措施。
*如果節點仍處於關閉狀態,則必須執行額外的故障診斷,才能使節點重新連線。如需協助,請聯絡 Isilon 技術支援。
有關詳細資訊,請參閱文章 55936:Isilon OneFS:事件通知:節點離線 - 事件 ID:200010001, 300010003, 399990001, 900160001, 910100006, 400150007
其他資訊
注意:
- 此新事件通知已在 OneFS 8.1.2.0、8.2.2.0 和 9.1.0.5 版的 2021 年 3 月匯總修補程式中啟用。在 2021 年 3 月匯總修補程式 (RUP) 之前執行 OneFS 版本的叢集不會張貼此事件通知。
- OneFS 9.2、9.3、9.4 及更新版本都包含此功能。
- 如果 OneFS 偵測到因為節點錯誤而重新開機,更新會觸發事件。
- 此事件可能包含核心傾印標頭等基本資訊,以協助您瞭解並故障診斷問題。
- 產生的 dial-home SR 可以採用可讀取的格式包含其他資訊,以進行分級和分析。
注意:在安裝 2021 年 3 月 RUP 之前,由於叢集上可能發生錯誤事件、核心或迷你傾印,此功能可能會導致誤報。在移除之前,OneFS 可能會繼續針對舊的錯誤檔案發出警示。請執行下列步驟,以避免誤報。
- 強制旋轉記錄檔以清理訊息記錄。此功能不會在 gz 封存中的任何旋轉式記錄中檢查錯誤資訊,例如 messages.0.gz、messages.1.gz 等。在發現任何錯誤時,執行下列命令以旋轉 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- 檢查
/var/crash任何核心或 minidumps 檔案的每個節點的目錄。請在取得核准後將其移除或備份。 - 執行下列命令進行清理
vmcore檔案位於/var/crash在所有節點上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
受影響的產品
PowerScale OneFS產品
Isilon文章屬性
文章編號: 000184828
文章類型: Solution
上次修改時間: 18 9月 2025
版本: 15
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。