Data Domain: Placa de memória ou DIMM com erro de falha ou defeito

Summary: Este documento serve para ajudar a identificar o erro ou a falha e fornecer um caminho de resolução.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Os sistemas Data Domain (DD) monitoram o status do hardware de memória do sistema (DIMMs). Se for encontrado algum erro relacionado ao DIMM, uma notificação de alerta apropriada será publicada.

Aplica-se a:
  • Todos os sistemas Data Domain
  • Todas as versões de software do Data Domain Operating System (DDOS)
Possíveis notificações de alerta publicadas pelo DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Os DIMMs instalados nos sistemas Data Domain têm códigos de verificação de erros (ECC), que permitem que os erros de memória corrigíveis sejam reparados em tempo real. Se um limite de erro for atingido, o DDOS identificará a falha e um alerta apropriado será gerado no sistema.

Erros de memória incorrigíveis podem causar uma reinicialização do sistema e são considerados uma falha de memória dura. A falha total de qualquer DIMM ou riser de memória pode resultar em um evento de paralisação do sistema e impedir que o file system seja ativado. Isso ocorre porque o processo do Data Domain File System (DDFS) preenche a maior parte da memória física.

Nota: Outros sintomas ou alertas podem mascarar erros de memória, por exemplo, erro de verificação de máquina da CPU — pode ser necessária uma análise mais profunda do log e solução de problemas.

Resolution

Nota: Se um erro de DIMM for relatado em sistemas baseados no Dell PowerEdge, a primeira ação a ser recuperada será reinicializar a unidade do Data Domain. Isso iniciará o PPR (POST Package Repair) para recuperar o DIMM.

Devem ser feitos esforços para determinar a causa do alerta e identificar os DIMMs, a CPU ou a placa-mãe dos componentes afetados e substituir as peças conforme necessário. 

Se possível, reúna um pacote de suporte e crie um chamado com seu provedor de serviços contratado. O vídeo a seguir mostra como coletar um pacote de suporte: Coletar um pacote de suporte Esse hiperlink direcionará você para um site fora da Dell Technologies.

Diretrizes de resolução:

  • Para sistemas baseados no Dell PowerEdge, inicie uma reinicialização do sistema para facilitar o reparo automático pós-pacote (PPR); para a recuperação do DIMM.
    • Melhorias no firmware do BIOS permitem que o PPR recupere DIMM corrigíveis & erros incorrigíveis (referência)
  • Compare o estado atual do sistema com um auto-support de antes do alerta ou falha de DIMM
  • Comandos úteis do DD-CLI (SSH) para verificar a memória:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Use o diagnóstico off-line do DDOS para testar e determinar a falha. Acesse o Suporte Dell para acessar o Guia do usuário do pacote de diagnóstico off-line do Dell EMC Data Domain Operating System 6.x
  • Se possível, execute métodos físicos de solução de problemas para eliminar e determinar o componente com falha (usando guias e procedimentos de substituição documentados).
  • Recoloque o DIMM e trave os dois lados corretamente.
  • Troque-o por um DIMM em boas condições de outro slot, canal, banco ou controlador:
  • Se um sistema estiver inativo (sem inicialização) devido a uma suspeita de falha de memória/DIMM, tente uma opção de inicialização mínima (remova dispositivos periféricos ou placas e deixe 1 DIMM no slot "0")

Additional Information

Referências:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.