Servidores PowerEdge 14G Intel e 15G: Gerenciando eventos de limite de erro corrigíveis
摘要: Este artigo fornece recomendações atualizadas para gerenciar eventos de limite de erro corrigíveis (MEM0802 ou MEM5104) em RDIMMs ou LRDIMMs DDR4 instalados em servidores PowerEdge 14G e 15G baseados em Intel e servidores PowerEdge 15G baseados em AMD. ...
症状
Por meio da evolução dos recursos de confiabilidade, acessibilidade e facilidade de manutenção (RAS) em toda a memória de classe empresarial, a Dell adotou uma abordagem conservadora ao fornecer transparência aos clientes. À medida que essa evolução continua, o mesmo acontece com a abordagem da Dell de geração de relatórios de erros, permitindo o foco em avisos que exigem uma resposta mais urgente em comparação com avisos que são principalmente informativos por natureza.
À medida que as geometrias de memória baseadas em DRAM continuam a diminuir, fornecendo aos clientes o maior desempenho exigido, espera-se um número cada vez maior de erros corrigíveis como parte natural do dimensionamento uniforme.
原因
解决方案
Continuar operando um sistema relatando erros corrigíveis sem uma reinicialização para autocorreção não aumenta o risco de experimentar erros incorrigíveis que podem levar a tempo de inatividade não planejado. Outros no setor comunicaram publicamente que seu manuseio de memória não relata erros corrigíveis.
No BIOS versão 2.5.4 e mais recente do Intel PowerEdge 14G, foi adicionada uma configuração do BIOS chamada "Log de erros corrigíveis" para permitir que os clientes desativem os relatórios de erros corrigíveis, se desejarem, e muitos o fizeram. O BIOS continua a agendar a reinstalação automática para eventos de limite corrigíveis, mesmo sem o registro. Essa reinstalação automática agendada ocorrerá automaticamente durante a reinicialização subsequente do sistema.
Para ficar mais alinhado com o setor e o feedback contínuo dos clientes, a partir de março de 2022, as atualizações do BIOS do Dell PowerEdge alteram a configuração "Correctable Error Logging" para ser desativada por padrão. Essa opção do BIOS pode ser reativada para clientes que desejam continuar a ver eventos corrigíveis de limite de memória. As versões do BIOS com esta alteração de configuração do BIOS incluída são:
- Plataformas Intel 14G - BIOS versões 2.13.3 ou mais recentes
- Plataformas AMD 15G - BIOS versões 2.6.5 ou mais recentes
- Plataformas Intel 15G - BIOS versões 1.5.5 ou mais recentes.
Os benefícios da autocorreção do DIMM DDR4 por meio da reinicialização do sistema:
- Permite o reparo de um DIMM DDR4 sem remoção do sistema; Todos os DIMMs DDR4 fornecidos pela Dell são compatíveis com o recurso de autocorreção de memória.
- Usa linhas sobressalentes disponíveis projetadas na DRAM, onde uma fileira ruim é permanentemente substituída por uma linha em boas condições por fusão elétrica.
- O novo treinamento de memória subsequente otimiza os "olhos de dados" recalibrando os pontos centrais para garantir que o barramento de memória opere no mais alto nível de integridade de sinalização.
Para eventos de limite corrigíveis com a configuração "Correctable Error Logging" do BIOS ativada, se ocorrerem eventos de limite de memória, a Dell Technologies recomenda reinicializar no agendamento de manutenção regular do cliente para permitir que a reinstalação automática ou autocorreção da memória agendada ocorra. Após a reinicialização, os eventos bem-sucedidos ou malsucedidos de reinstalação automática serão registrados para os DIMMs associados.
Com a configuração do BIOS "Correctable Error Logging" Dativada, a Dell Technologies recomenda a reinicialização no agendamento de manutenção regular do cliente. Após a reinicialização, todas as operações agendadas de reinstalação automática são executadas automaticamente. O sistema registra um evento (MEM0805 ou eventos do tipo MEM7114) se a operação de reinstalação automática ou de autocorreção não tiver sido bem-sucedida e recomenda ainda a substituição física do DIMM afetado.
Recomendação:
A engenharia de memória da Dell recomenda que os clientes do servidor PowerEdge com versões mais antigas do BIOS (anteriores às versões do bloco de março de 2022) adotem a alteração da configuração do BIOS "Correctable Error Logging" para Disabled. Isso elimina os eventos esporádicos de limite de memória corrigíveis (como eventos MEM0802 ou do tipo MEM5104) em toda a infraestrutura de servidor que recomendam reinicializações do servidor para permitir a reinstalação automática ou a autocorreção. Como mencionado anteriormente, todas as operações agendadas de reinstalação automática ou correção automática são executadas automaticamente quando o servidor é reinicializado e quaisquer falhas são relatadas.
A configuração do BIOS "Correctable Error Logging" pode ser alterada reinicializando o servidor para as configurações F2 ou usando o iDRAC WebUI.
Para alterar a configuração do BIOS de F2 System Settings:
-
Reinicialize os servidores parando nas configurações F2
-
Na seleção Configurações do BIOS>, Configurações de memória, altere o registro de erros corrigíveis para Desativado.
-
Salve as configurações do BIOS e saia das configurações F2
Para alterar a configuração do BIOS usando a IU Web do iDRAC:
- Faça login no iDRAC WebUI
- Em Configuration >BIOS Settings, expanda a seção Memory Settings
- Altere a configuração Log de erros corrigíveis para Desativado
- Clique no botão Aplicar para salvar as Configurações de memória
- Não se esqueça de selecionar o botão Apply and Reboot(para reinicializar imediatamente) ou No Next Reboot para aplicar as alterações do BIOS.
Os artigos e white papers existentes relacionados à memória são atualizados para refletir essa alteração recomendada.
Managing Correctable Error Notices Dec 2021 v1.pdf."
Este artigo é atualizado à medida que novas informações são disponibilizadas.