Data Domain:对内存错误进行故障处理

摘要: 本知识库文章介绍如何对内存警报进行故障处理,包括如何识别需要更换的故障 DIMM。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

本知识库文章介绍如何对内存警报进行故障处理,包括如何识别需要更换的故障 DIMM。

可能的症状/警报:
 

DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

*These may also be reported without the hyphen (-): e.g.
DIMM00001, DIMM00002, DIMM00003, ENVIRONMENT00009, ENVIRONMENT00013, ENVIRONMENT00044, MEM00001, MEM00002
  • IPMI 监护程序重新启动
  • 内存低于预期警报
  • 开机自检 (POST) 可能挂起
  • 系统无法启动或系统崩溃

原因

安装在 Datadomain 系统上的 DIMM 具有“ECC”(错误检查代码),允许动态修复可纠正的内存错误。如果超过错误阈值,DDOS 会标记故障,并应更换受影响的 DIMM。
无法纠正的内存错误可能会导致系统重新启动,并被视为硬核内存故障。
任何单个 DIMM 或内存转接卡(容纳多个 DIMM)的完全故障都可能导致系统关闭事件并阻止启用文件系统。这是因为 DD 文件系统 (DDFS) 进程占用了大部分物理内存。

注意:内存错误可能会被其他症状或警报掩盖 - 例如,CPU 机器检查错误 - 可能需要更深入的日志分析和故障排除。

解决方案

在所有 DDOS 版本上跟踪 DIMM 错误报告。但是,可能需要分析系统日志以确定发生故障的特定 DIMM。
注意:DIMM 可能位于连接到主板的内存提升板内。
         要启用 Data Domain 文件系统 (DDFS),所有已安装的内存必须存在且正常工作。

故障排除可能包括:

  • 离线诊断程序  
  • 日志文件分析
  • 重新拔插可疑 DIMM
  • 将可疑 DIMM 移至“已知良好”的插槽(即故障是否跟随 DIMM、插槽、通道或控制器?)
  • 更换出现故障的 DIMM 或转接卡(视情况而定)  
  • 持续监控,确认硬件更改或更换后的系统稳定性

提醒:如果在执行本知识库文章中的步骤后问题仍然存在,请联系您的支持提供商或创建服务请求

其他信息

受影响的产品

Data Domain, PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
文章属性
文章编号: 000034334
文章类型: Solution
上次修改时间: 05 8月 2025
版本:  7
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。