Data Domain: Placa de memória ou DIMM com erro de falha ou defeito
Summary: Este documento serve para ajudar a identificar o erro ou a falha e fornecer um caminho de resolução.
Symptoms
Aplica-se a:
- Todos os sistemas Data Domain
- Todas as versões de software do Data Domain Operating System (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Os DIMMs instalados nos sistemas Data Domain têm códigos de verificação de erros (ECC), que permitem que os erros de memória corrigíveis sejam reparados em tempo real. Se um limite de erro for atingido, o DDOS identificará a falha e um alerta apropriado será gerado no sistema.
Erros de memória incorrigíveis podem causar uma reinicialização do sistema e são considerados uma falha de memória dura. A falha total de qualquer DIMM ou riser de memória pode resultar em um evento de paralisação do sistema e impedir que o file system seja ativado. Isso ocorre porque o processo do Data Domain File System (DDFS) preenche a maior parte da memória física.
Resolution
Nota: Se um erro de DIMM for relatado em sistemas baseados no Dell PowerEdge, a primeira ação a ser recuperada será reinicializar a unidade do Data Domain. Isso iniciará o PPR (POST Package Repair) para recuperar o DIMM.
Devem ser feitos esforços para determinar a causa do alerta e identificar os DIMMs, a CPU ou a placa-mãe dos componentes afetados e substituir as peças conforme necessário.
Se possível, reúna um pacote de suporte e crie um chamado com seu provedor de serviços contratado. O vídeo a seguir mostra como coletar um pacote de suporte: Coletar um pacote de suporte
Diretrizes de resolução:
- Para sistemas baseados no Dell PowerEdge, inicie uma reinicialização do sistema para facilitar o reparo automático pós-pacote (PPR); para a recuperação do DIMM.
- Melhorias no firmware do BIOS permitem que o PPR recupere DIMM corrigíveis & erros incorrigíveis (referência)
- Compare o estado atual do sistema com um auto-support de antes do alerta ou falha de DIMM
- Comandos úteis do DD-CLI (SSH) para verificar a memória:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Use o diagnóstico off-line do DDOS para testar e determinar a falha. Acesse o Suporte Dell para acessar o Guia do usuário do pacote de diagnóstico off-line do Dell EMC Data Domain Operating System 6.x
- Se possível, execute métodos físicos de solução de problemas para eliminar e determinar o componente com falha (usando guias e procedimentos de substituição documentados).
- Recoloque o DIMM e trave os dois lados corretamente.
- Troque-o por um DIMM em boas condições de outro slot, canal, banco ou controlador:
- Se um sistema estiver inativo (sem inicialização) devido a uma suspeita de falha de memória/DIMM, tente uma opção de inicialização mínima (remova dispositivos periféricos ou placas e deixe 1 DIMM no slot "0")
Additional Information
- Consulte o artigo 130388 da base de conhecimento: Documentos de hardware do PowerProtect e do Data Domain para obter informações relevantes sobre a configuração e o layout do DIMM.
- Consulte o artigo 82030 da base de conhecimento relacionado: Data Domain: Requisitos de memória do sistema e configurações de armazenamento expandido