Data Domain:控制器升級後重新開機迴圈 - 記憶體不足且無可終止的程序
Summary: 控制器升級後,系統會在啟用檔案系統 (FS) 後的 5 分鐘內不斷重新開機。根本原因是記憶體不足 (OOM) 情況,導致核心錯誤。系統報告由無效的註冊表設置引起的「記憶體不足」。這可透過移除「系統」來解決。MEM_HUGETLB=FALSE」登錄機碼,然後重新開機系統。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
症狀:
- DD 在控制器升級後持續重新開機;啟用檔案系統 (FS) 時,DD 會在 5 分鐘內重新開機。
- 停用 FS 以避免重新開機循環 (核心錯誤)
- 記錄中出現核心錯誤訊息。
- 記錄中出現記憶體不足錯誤。
- 在 kern.info:「核心錯誤 - 未同步:記憶體不足且無可終止的進程'
Kern.info 顯示「記憶體不足」錯誤:
Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child
Cause
控制器升級後 (例如從 DD9300 升級至 DD9900),系統會不斷重新開機。檔案系統已停用,以防止 DD 在迴圈中重新開機。
核心記錄顯示多個記憶體不足 (OOM) 錯誤,這些錯誤會觸發核心錯誤和後續的重新開機。
問題的根本原因是系統可用的記憶體不足,無法正常運作。這可能是由於多種原因造成的,包括但不限於:
- 系統軟體中的記憶體洩漏
- 分配給特定進程或服務的記憶體不足
- 系統組態不正確,導致記憶體使用量過多
- 硬體問題,例如記憶體模組或其他元件故障
- 可能設置了無效的註冊表項,支持必須刪除此註冊表項;系統。MEM_HUGETLB=假。
需要進一步調查以確定記憶體耗盡的確切原因並相應地解決它。
查看系統日誌和錯誤消息,以識別可能消耗過多記憶體並導致 OOM 錯誤的任何特定進程或服務。
此外,檢查系統的記憶體使用方式和組態有助於識別可能導致問題的任何錯誤組態或硬體問題。
比如:缺少 DIMM 或錯放 DIMM 可能會導致組態不受支援;這會阻止 FS 啟動。
Resolution
- 檢查系統日誌中是否有任何與記憶體使用或系統配置錯誤相關的錯誤消息或警告;相應地解決這些問題。
- 如果問題仍然存在,請考慮聯絡 Dell 支援以取得進一步協助。請務必提供相關的系統記錄或診斷資訊,以協助故障診斷問題。
- 支援包和相關核心|要上傳的核心傾印檔案
Affected Products
Data DomainProducts
Data ProtectionArticle Properties
Article Number: 000228075
Article Type: Solution
Last Modified: 01 Nov 2024
Version: 1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.