Data Domain: Loop de reinicialização após o upgrade do controlador - memória insuficiente e sem processos matáveis
Summary: Após um upgrade do controlador, o sistema continua reinicializando dentro de 5 minutos após a ativação do file system (FS). A causa raiz é uma condição de memória insuficiente (OOM), causando uma pane no kernel. O sistema relata "Memória insuficiente" causada por uma configuração de registro inválida. Isso pode ser resolvido removendo o sistema. MEM_HUGETLB=FALSE' chave de registro e reinicializar o sistema. ...
Symptoms
Sintomas:
- O DD continua reinicializando após o upgrade do controlador; quando o file system (FS) está ativado, o DD é reinicializado em 5 minutos.
- Desative o FS para evitar o loop de reinicialização (pane do kernel)
- Mensagens de pânico do kernel estão presentes nos logs.
- Erros de memória insuficiente estão presentes nos logs.
- Em kern.info: 'Pane do kernel - não sincronizando: Sem memória e sem processos matáveis'
Kern.info mostra erros de memória insuficiente:
Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child
Cause
O sistema continua reinicializando após um upgrade da controladora (por exemplo, do DD9300 para o DD9900). O file system foi desativado para evitar que o DD seja reinicializado em um loop.
Os registros do kernel mostram vários erros de falta de memória (OOM), que acionam a pane do kernel e as reinicializações subsequentes.
A causa raiz do problema é a memória insuficiente disponível para que o sistema funcione corretamente. Isso pode ocorrer por vários motivos, incluindo, mas não se limitando a:
- Uma perda de memória no software do sistema
- Memória insuficiente alocada para processos ou serviços específicos
- Configuração incorreta do sistema, levando ao uso excessivo da memória
- Problemas de hardware, como módulos de memória com defeito ou outros componentes
- Uma chave de registro inválida pode ter sido definida, o suporte deve remover essa chave; sistema. MEM_HUGETLB=FALSO.
Uma investigação mais aprofundada é necessária para identificar a causa exata do esgotamento da memória e resolvê-la adequadamente.
Analise os logs do sistema e as mensagens de erro para identificar quaisquer processos ou serviços específicos que possam estar consumindo memória excessiva e causando erros OOM.
Além disso, verificar o uso e a configuração da memória do sistema pode ajudar a identificar erros de configuração ou problemas de hardware que possam estar contribuindo para o problema.
Por exemplo: DIMMs ausentes ou extraviados podem resultar em uma configuração incompatível; o que impede a inicialização do FS.
Resolution
- Verifique se há mensagens de erro ou avisos relacionados ao uso da memória ou à configuração incorreta do sistema nos logs do sistema. aborde-os em conformidade.
- Se o problema ainda persistir, entre em contato com o Suporte Dell para obter mais assistência. Certifique-se de fornecer logs relevantes do sistema ou informações de diagnóstico para ajudar a solucionar o problema.
- Pacote de suporte e núcleo relevante|Arquivos de dump do kernel a serem carregados