Event: 節點已從錯誤中復原。錯誤相關資訊記錄在檔案中:var tmp panic

摘要: 本文說明使用者和技術支援應如何管理「節點已從錯誤中復原」事件或訊息。在採取行動之前,請閱讀文章的所有部分。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

事件
您收到事件通知,指出有一或多個節點從錯誤中復原。當機的相關資訊會記錄在位於 /var/tmp/ 在受影響的節點上。
例:
4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

原因

節點錯誤的確切原因可能有所不同,但典型原因可能包括:
  • 硬體故障
  • 軟體程式碼錯誤
  • 組態錯誤
叢集記錄分析必須在 PowerScale 支援下執行,才能找出錯誤的確切原因。

解析度

若要開始故障診斷此問題,請先確認節點已從錯誤事件中復原,且未離線或離線。*

若要進行故障診斷,請開啟與節點的 SSH 連線,然後使用「root」帳戶登入。
執行下列命令,確認節點重新加入叢集:
# isi status
可使用 isi status 命令返回類似於以下內容的輸出。如果節點成功重新加入叢集,健全狀況欄便不會顯示「D」(關閉):
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
執行下列命令以收集記錄,並將記錄集提供給 Isilon 技術支援部門以分析錯誤:
# isi_gather_info -f /var/tmp/
 
注意: /var/tmp/ 預設記錄收集中不會收集錯誤資料,您必須使用 isi_gather_info -f /var/tmp/ 收集適當的緊急情況資訊。

收到記錄後,技術支援部門將檢閱和分析錯誤的堆疊詳細資料。它們會判斷錯誤堆疊是否對應至任何已知問題或知識文章。如果錯誤堆疊的詳細資料與已知問題或現有 KB 文章不符,則會將問題呈報以進一步評估。技術支援部門會決定需要採取的動作,例如更換硬體、修正程式碼、更新韌體或其他風險降低措施。

*如果節點仍處於關閉狀態,則必須執行額外的故障診斷,才能使節點重新連線。如需協助,請聯絡 Isilon 技術支援。

有關詳細資訊,請參閱文章 55936:Isilon OneFS:事件通知:節點離線 - 事件 ID:200010001, 300010003, 399990001, 900160001, 910100006, 400150007

其他資訊

注意:
  • 此新事件通知已在 OneFS 8.1.2.0、8.2.2.0 和 9.1.0.5 版的 2021 年 3 月匯總修補程式中啟用。在 2021 年 3 月匯總修補程式 (RUP) 之前執行 OneFS 版本的叢集不會張貼此事件通知。
  • OneFS 9.2、9.3、9.4 及更新版本都包含此功能。
  • 如果 OneFS 偵測到因為節點錯誤而重新開機,更新會觸發事件。
  • 此事件可能包含核心傾印標頭等基本資訊,以協助您瞭解並故障診斷問題。
  • 產生的 dial-home SR 可以採用可讀取的格式包含其他資訊,以進行分級和分析。

注意:在安裝 2021 年 3 月 RUP 之前,由於叢集上可能發生錯誤事件、核心或迷你傾印,此功能可能會導致誤報。在移除之前,OneFS 可能會繼續針對舊的錯誤檔案發出警示。請執行下列步驟,以避免誤報。
  1. 強制旋轉記錄檔以清理訊息記錄。此功能不會在 gz 封存中的任何旋轉式記錄中檢查錯誤資訊,例如 messages.0.gz、messages.1.gz 等。在發現任何錯誤時,執行下列命令以旋轉 /var/log/messages:
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
  1. 檢查 /var/crash 任何核心或 minidumps 檔案的每個節點的目錄。請在取得核准後將其移除或備份。
  2. 執行下列命令進行清理 vmcore 檔案位於 /var/crash 在所有節點上。
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

受影響的產品

PowerScale OneFS

產品

Isilon
文章屬性
文章編號: 000184828
文章類型: Solution
上次修改時間: 18 9月 2025
版本:  15
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。