Data Domain. Сбой или ошибка карты памяти или DIMM

Summary: Данный документ помогает в определении ошибки или и неисправности и выборе пути решения.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Системы Data Domain (DD) отслеживают состояние аппаратных модулей памяти (DIMM). При возникновении ошибок, связанных с DIMM, отображается соответствующее уведомление.

Относится к:
  • Все системы Data Domain
  • Все версии программного обеспечения операционной системы Data Domain (DDOS)
Возможные оповещения, отправляемые DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Модули DIMM, установленные в системах Data Domain, имеют код проверки ошибок (ECC), который позволяет исправлять ошибки памяти в процессе работы. Если превышен порог ошибки, то DDOS определяет неисправность, и в системе создается соответствующее оповещение.

Неустранимые ошибки памяти могут привести к перезагрузке системы и считаются неисправностью жесткой памяти. Полный сбой одного модуля DIMM или переходной платы памяти может привести к сбою системы и невозможности включения файловой системы. Это связано с тем, что процесс DDFS (файловая система Data Domain) заполняет большую часть физической памяти.

ПРИМЕЧАНИЕ. Другие признаки или оповещения могут маскировать ошибки памяти, например ошибка CPU Machine Check — может потребоваться более глубокий анализ журнала и устранение неполадок.

Resolution

ПРИМЕЧАНИЕ. Если в системах на базе Dell PowerEdge появляется ошибка DIMM, первым действием по восстановлению является перезагрузка устройства DataDomain. Это приведет к запуску PPR (POST Package Repair) для восстановления DIMM.

Необходимо предпринять усилия, чтобы определить причину оповещения и определить соответствующие компоненты DIMM, ЦП или системной платы, а также при необходимости заменить их. 

По возможности соберите пакет поддержки и создайте сервисную заявку у своего поставщика услуг. В следующем видеоролике показано, как собрать пакет поддержки: Сбор пакета поддержки Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Рекомендации по решению.

  • Для систем на базе Dell PowerEdge инициируйте перезагрузку системы, чтобы упростить автоматическое восстановление POST-Package Repair (PPR). для восстановления памяти DIMM.
    • Усовершенствования микропрограммы BIOS позволяют PPR восстанавливать исправимые и неисправимые ошибки DIMM (Справочные материалы)
  • Сравните текущее состояние системы с автоматической поддержкой ДО сбоя модуля DIMM или появления оповещения
  • Полезные команды DD-CLI (SSH) для проверки памяти:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Используйте автономную диагностику DDOS для проверки и определения неисправности. Перейдите на сайт службы поддержки Dell, чтобы получить доступ к Руководству пользователя по пакету автономной диагностики Dell EMC Data Domain Operating System 6.x
  • Если возможно, выполните физический поиск и устранение неисправностей, чтобы определить неисправный компонент (используя указанные в документах руководства и процедуры по замене).
  • Переустановите модуль DIMM — убедитесь, что обе стороны надежно зафиксированы.
  • Замените его на заведомо исправный модуль DIMM из другого разъема, канала, банка или контроллера:
  • Если система не работает (нет загрузки) из-за предполагаемой неисправности памяти/модуля DIMM, попробуйте выполнить минимальную загрузку (удалите периферийные устройства или платы и оставьте 1 модуль DIMM в слоте «0»).

Additional Information

Справочные материалы:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.