Servidores PowerEdge 14G Intel e 15G: Gerenciando eventos de limite de erro corrigíveis

摘要: Este artigo fornece recomendações atualizadas para gerenciar eventos de limite de erro corrigíveis (MEM0802 ou MEM5104) em RDIMMs ou LRDIMMs DDR4 instalados em servidores PowerEdge 14G e 15G baseados em Intel e servidores PowerEdge 15G baseados em AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Nota: Este artigo não se aplica a servidores PowerEdge baseados em AMD 14G, como as plataformas 64x5 ou 74x5, pois eles não têm esse recurso de reinstalação automática pós-reparo de pacote, embora o próprio DIMM seja compatível com ele.

Por meio da evolução dos recursos de confiabilidade, acessibilidade e facilidade de manutenção (RAS) em toda a memória de classe empresarial, a Dell adotou uma abordagem conservadora ao fornecer transparência aos clientes. À medida que essa evolução continua, o mesmo acontece com a abordagem da Dell de geração de relatórios de erros, permitindo o foco em avisos que exigem uma resposta mais urgente em comparação com avisos que são principalmente informativos por natureza.

À medida que as geometrias de memória baseadas em DRAM continuam a diminuir, fornecendo aos clientes o maior desempenho exigido, espera-se um número cada vez maior de erros corrigíveis como parte natural do dimensionamento uniforme.

原因

No setor global de servidores, há um entendimento cada vez mais aceito, compartilhado pela Dell, de que alguns erros corrigíveis por DIMM são inevitáveis e não garantem inerentemente a substituição de um módulo de memória ou mesmo uma reinicialização imediata para iniciar a reinstalação automática.

解决方案

Continuar operando um sistema relatando erros corrigíveis sem uma reinicialização para autocorreção não aumenta o risco de experimentar erros incorrigíveis que podem levar a tempo de inatividade não planejado. Outros no setor comunicaram publicamente que seu manuseio de memória não relata erros corrigíveis.

No BIOS versão 2.5.4 e mais recente do Intel PowerEdge 14G, foi adicionada uma configuração do BIOS chamada "Log de erros corrigíveis" para permitir que os clientes desativem os relatórios de erros corrigíveis, se desejarem, e muitos o fizeram. O BIOS continua a agendar a reinstalação automática para eventos de limite corrigíveis, mesmo sem o registro. Essa reinstalação automática agendada ocorrerá automaticamente durante a reinicialização subsequente do sistema.

Para ficar mais alinhado com o setor e o feedback contínuo dos clientes, a partir de março de 2022, as atualizações do BIOS do Dell PowerEdge alteram a configuração "Correctable Error Logging" para ser desativada por padrão. Essa opção do BIOS pode ser reativada para clientes que desejam continuar a ver eventos corrigíveis de limite de memória. As versões do BIOS com esta alteração de configuração do BIOS incluída são:

  • Plataformas Intel 14G - BIOS versões 2.13.3 ou mais recentes
  • Plataformas AMD 15G - BIOS versões 2.6.5 ou mais recentes
  • Plataformas Intel 15G - BIOS versões 1.5.5 ou mais recentes.

Os benefícios da autocorreção do DIMM DDR4 por meio da reinicialização do sistema:

  • Permite o reparo de um DIMM DDR4 sem remoção do sistema; Todos os DIMMs DDR4 fornecidos pela Dell são compatíveis com o recurso de autocorreção de memória.
 
Nota: Os servidores AMD PowerEdge 14G não têm esse recurso de reinstalação automática.
 
  • Usa linhas sobressalentes disponíveis projetadas na DRAM, onde uma fileira ruim é permanentemente substituída por uma linha em boas condições por fusão elétrica.
  • O novo treinamento de memória subsequente otimiza os "olhos de dados" recalibrando os pontos centrais para garantir que o barramento de memória opere no mais alto nível de integridade de sinalização.

Para eventos de limite corrigíveis com a configuração "Correctable Error Logging" do BIOS ativada, se ocorrerem eventos de limite de memória, a Dell Technologies recomenda reinicializar no agendamento de manutenção regular do cliente para permitir que a reinstalação automática ou autocorreção da memória agendada ocorra. Após a reinicialização, os eventos bem-sucedidos ou malsucedidos de reinstalação automática serão registrados para os DIMMs associados.

Com a configuração do BIOS "Correctable Error Logging" Dativada, a Dell Technologies recomenda a reinicialização no agendamento de manutenção regular do cliente. Após a reinicialização, todas as operações agendadas de reinstalação automática são executadas automaticamente. O sistema registra um evento (MEM0805 ou eventos do tipo MEM7114) se a operação de reinstalação automática ou de autocorreção não tiver sido bem-sucedida e recomenda ainda a substituição física do DIMM afetado.

Recomendação:
A engenharia de memória da Dell recomenda que os clientes do servidor PowerEdge com versões mais antigas do BIOS (anteriores às versões do bloco de março de 2022) adotem a alteração da configuração do BIOS "Correctable Error Logging" para Disabled. Isso elimina os eventos esporádicos de limite de memória corrigíveis (como eventos MEM0802 ou do tipo MEM5104) em toda a infraestrutura de servidor que recomendam reinicializações do servidor para permitir a reinstalação automática ou a autocorreção. Como mencionado anteriormente, todas as operações agendadas de reinstalação automática ou correção automática são executadas automaticamente quando o servidor é reinicializado e quaisquer falhas são relatadas.

A configuração do BIOS "Correctable Error Logging" pode ser alterada reinicializando o servidor para as configurações F2 ou usando o iDRAC WebUI.

Para alterar a configuração do BIOS de F2 System Settings:

  • Reinicialize os servidores parando nas configurações F2
  • Na seleção Configurações do BIOS>, Configurações de memória, altere o registro de erros corrigíveis para Desativado.
  • Salve as configurações do BIOS e saia das configurações F2

Para alterar a configuração do BIOS usando a IU Web do iDRAC:

  • Faça login no iDRAC WebUI
  • Em Configuration >BIOS Settings, expanda a seção Memory Settings
  • Altere a configuração Log de erros corrigíveis para Desativado
  • Clique no botão Aplicar para salvar as Configurações de memória
  • Não se esqueça de selecionar o botão Apply and Reboot(para reinicializar imediatamente) ou No Next Reboot  para aplicar as alterações do BIOS.

Os artigos e white papers existentes relacionados à memória são atualizados para refletir essa alteração recomendada.
 

Nota: A mensagem voltada para o cliente aprovada é anexada como um arquivo a este artigo - "Managing Correctable Error Notices Dec 2021 v1.pdf."


Este artigo é atualizado à medida que novas informações são disponibilizadas.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。