Data Domain. Сбой или ошибка карты памяти или DIMM
Summary: Данный документ помогает в определении ошибки или и неисправности и выборе пути решения.
Symptoms
Относится к:
- Все системы Data Domain
- Все версии программного обеспечения операционной системы Data Domain (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Модули DIMM, установленные в системах Data Domain, имеют код проверки ошибок (ECC), который позволяет исправлять ошибки памяти в процессе работы. Если превышен порог ошибки, то DDOS определяет неисправность, и в системе создается соответствующее оповещение.
Неустранимые ошибки памяти могут привести к перезагрузке системы и считаются неисправностью жесткой памяти. Полный сбой одного модуля DIMM или переходной платы памяти может привести к сбою системы и невозможности включения файловой системы. Это связано с тем, что процесс DDFS (файловая система Data Domain) заполняет большую часть физической памяти.
Resolution
ПРИМЕЧАНИЕ. Если в системах на базе Dell PowerEdge появляется ошибка DIMM, первым действием по восстановлению является перезагрузка устройства DataDomain. Это приведет к запуску PPR (POST Package Repair) для восстановления DIMM.
Необходимо предпринять усилия, чтобы определить причину оповещения и определить соответствующие компоненты DIMM, ЦП или системной платы, а также при необходимости заменить их.
По возможности соберите пакет поддержки и создайте сервисную заявку у своего поставщика услуг. В следующем видеоролике показано, как собрать пакет поддержки: Сбор пакета поддержки
Рекомендации по решению.
- Для систем на базе Dell PowerEdge инициируйте перезагрузку системы, чтобы упростить автоматическое восстановление POST-Package Repair (PPR). для восстановления памяти DIMM.
- Усовершенствования микропрограммы BIOS позволяют PPR восстанавливать исправимые и неисправимые ошибки DIMM (Справочные материалы)
- Сравните текущее состояние системы с автоматической поддержкой ДО сбоя модуля DIMM или появления оповещения
- Полезные команды DD-CLI (SSH) для проверки памяти:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Используйте автономную диагностику DDOS для проверки и определения неисправности. Перейдите на сайт службы поддержки Dell, чтобы получить доступ к Руководству пользователя по пакету автономной диагностики Dell EMC Data Domain Operating System 6.x
- Если возможно, выполните физический поиск и устранение неисправностей, чтобы определить неисправный компонент (используя указанные в документах руководства и процедуры по замене).
- Переустановите модуль DIMM — убедитесь, что обе стороны надежно зафиксированы.
- Замените его на заведомо исправный модуль DIMM из другого разъема, канала, банка или контроллера:
- Если система не работает (нет загрузки) из-за предполагаемой неисправности памяти/модуля DIMM, попробуйте выполнить минимальную загрузку (удалите периферийные устройства или платы и оставьте 1 модуль DIMM в слоте «0»).
Additional Information
- См. статью базы знаний 130388: Документы по оборудованию PowerProtect и Data Domain для получения соответствующей информации о конфигурации и схеме расположения модулей DIMM.
- См. связанную статью базы знаний 82030: Data Domain. требования к системной памяти и расширенные конфигурации системы хранения данных