Data Domain:控制器升级后出现重新启动循环 - 内存不足且没有可终止的进程

Summary: 控制器升级后,系统会在启用文件系统 (FS) 后的 5 分钟内不断重新启动。根本原因是内存不足 (OOM) 情况,从而导致内核崩溃。系统报告由无效的注册表设置导致的“内存不足”。这可以通过删除“system.MEM_HUGETLB=FALSE“注册表项,然后重新启动系统。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

症状:

  • 控制器升级后,DD 不断重新启动;启用文件系统 (FS) 后,DD 会在 5 分钟内重新启动。
    • 禁用 FS 以防止重新启动循环(内核崩溃)
  • 日志中存在内核严重消息。
  • 日志中存在内存不足错误。
    • 在 kern.info:“内核严重错误 - 未同步:内存不足,没有可终止的进程'

Kern.info 显示“内存不足”错误:

Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child
Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child

Cause

在控制器升级(例如从 DD9300 升级到 DD9900)后,系统不断重新启动。文件系统已禁用,以防止 DD 循环重新启动。
内核日志显示多个内存不足 (OOM) 错误,这会触发内核崩溃和后续重新启动。

问题的根本原因是系统没有足够的可用内存来正常运行。这可能是由多种原因造成的,包括但不限于:

  • 系统软件内存泄漏
  • 为特定进程或服务分配的内存不足
  • 系统配置不正确,导致内存使用率过高
  • 硬件问题,例如内存模块或其他组件出现故障
  • 可能设置了无效的注册表项,支持人员必须删除此注册表项;系统。MEM_HUGETLB=FALSE。

需要进一步调查以确定内存耗尽的确切原因并相应地解决。 

查看系统日志和错误消息,以确定可能消耗过多内存并导致 OOM 错误的任何特定进程或服务。
此外,检查系统的内存使用情况和配置有助于识别可能导致问题出现的任何错误配置或硬件问题。
例如:DIMM 缺失或放错位置可能会导致配置不受支持;这会阻止 FS 启动。

Resolution

  1. 检查系统日志中是否有与内存使用情况或系统配置错误相关的任何错误消息或警告;相应地解决这些问题。
  2. 如果问题仍然存在,请考虑联系戴尔支持以获得进一步的帮助。请务必提供相关的系统日志或诊断信息,以帮助对问题进行故障处理。
    • 支持捆绑包和相关核心|要上传的内核转储文件

Affected Products

Data Domain

Products

Data Protection
Article Properties
Article Number: 000228075
Article Type: Solution
Last Modified: 01 Nov 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.