Data Domain:内存卡或 DIMM 出现故障或错误
摘要: 本文档旨在帮助识别错误或故障并提供解决方案路径。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
Data Domain (DD) 系统监视系统内存硬件 (DIMM) 的状态。如果遇到任何 DIMM 相关错误,将发布相应的警报通知。
适用于:
适用于:
- 所有 Data Domain 系统
- Data Domain 操作系统 (DDOS) 的所有软件版本
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
原因
Data Domain 系统上安装的 DIMM 具有错误检查代码 (ECC),允许动态修复可纠正的内存错误。如果超出了错误阈值,则 DDOS 会识别故障,并将在系统上生成相应的警报。
无法纠正的内存错误可能会导致系统重新启动,并被视为硬内存故障。任何单个 DIMM 或内存转接卡的完全故障都可能导致系统关闭事件,并阻止启用文件系统。这是因为 Data Domain 文件系统 (DDFS) 进程占用了大部分物理内存。
NOTE: 其他症状或警报可能会屏蔽内存错误 - 例如,CPU 机器检查错误 - 可能需要更深入的日志分析和故障处理。
解决方案
NOTE: 如果在基于 Dell PowerEdge 的系统上报告 DIMM 错误,则要恢复的第一个作是重新启动 Data Domain 设备。这将启动 PPR(开机自检软件包修复)来恢复 DIMM。
必须努力确定警报的原因,识别受影响的组件 DIMM、CPU 或主板,并根据需要更换部件。
如果可能,请收集支持包,并向您的签约服务提供商提交服务请求。以下视频介绍如何收集支持包:收集支持包
解决方案指导准则:
- 对于基于 Dell PowerEdge 的系统,启动系统重新启动以方便自动开机自检软件包修复 (PPR);用于恢复 DIMM。
- BIOS 固件的改进允许 PPR 恢复 DIMM 可纠正和不可纠正的错误(参考)
- 将当前系统状态与 DIMM 故障或警报之前的自动支持进行比较
- 用于检查内存的有用的 DD-CLI (SSH) 命令:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- 使用 DDOS 离线诊断程序测试和确定故障。转至戴尔支持以访问 Dell EMC Data Domain Operating System 6.x 离线诊断套件用户指南
- 如果可能,请执行物理故障处理方法,以消除和确定故障组件(使用记录在案的更换指南和程序)。
- 重新拔插 DIMM - 确保两侧均已正确锁定。
- 将其换成来自另一个插槽、通道、内存组或控制器的已知良好的 DIMM:
- 如果系统因可疑的内存/dimm 故障而停机(无法启动),请尝试最小启动选项(卸下外围设备或卡,并在插槽“0”中保留 1 个 DIMM)
其他信息
参考资料:
- 请参阅知识库文章 130388:PowerProtect 和 Data Domain 硬件文档,了解有关 DIMM 配置和布局的相关信息。
- 请参阅相关的知识库文章 82030:Data Domain:系统内存要求和扩展存储配置
受影响的产品
Data Domain, Integrated Data Protection Appliance Family产品
PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware文章属性
文章编号: 000204330
文章类型: Solution
上次修改时间: 03 3月 2025
版本: 11
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。