Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Servidores Intel/AMD PowerEdge 14G e 15G: Memória DDR4: gerenciando eventos de limite de erro corrigíveis

Summary: Recomendações atualizadas para clientes ao gerenciar eventos de limite de erro corrigíveis (MEM0802 ou MEM5104) em RDIMMs DDR4 ou LRDIMMs instalados em servidores PowerEdge 14G e 15G baseados em Intel, bem como em servidores PowerEdge 15G baseados em AMD. Nota: Este artigo não se aplica aos servidores PowerEdge baseados em AMD 14G, como as plataformas 64x5 ou 74x5, pois eles não têm esse recurso de reparo pós-pacote/autocorreção, mesmo que o próprio DIMM seja compatível com ele. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Por meio da evolução dos recursos de RAS (confiabilidade, acessibilidade e facilidade de manutenção) em toda a memória de classe empresarial, a Dell adotou uma abordagem conservadora na geração de relatórios de erros para oferecer transparência aos clientes. À medida que essa evolução continua, o mesmo acontece com a abordagem da Dell aos relatórios de erros, que permite o foco em avisos que exigem uma resposta mais urgente, em vez de avisos que são principalmente informativos.

À medida que as geometrias de memória baseadas em DRAM continuam a diminuir, fornecendo aos clientes o maior desempenho exigido, espera-se um número cada vez maior de erros corrigíveis como parte natural do dimensionamento uniforme.

Cause

No setor global de servidores, há um entendimento cada vez mais aceito, compartilhado pela Dell, de que alguns erros corrigíveis por DIMM são inevitáveis e não garantem inerentemente a substituição de um módulo de memória ou mesmo uma reinicialização imediata para iniciar a autocorreção.

Resolution

Continuar operando um sistema relatando erros corrigíveis sem uma reinicialização para autocorreção não aumenta significativamente o risco de encontrar erros incorrigíveis que podem levar a um tempo de inatividade não planejado. Na verdade, outros na indústria comunicaram publicamente que seu manuseio de memória não relata erros corrigíveis.

No BIOS 14G Intel PowerEdge versão 2.5.4 e mais recente, foi adicionada uma configuração do BIOS chamada "Correctable Error Logging" (Log de erros corrigíveis) para permitir que os clientes desativem os relatórios de erros corrigíveis, se assim desejarem, e muitos o fizeram.  O BIOS continuará a agendar a autocorreção para eventos de limite corrigíveis, mesmo sem o registro. Essa autocorreção agendada ocorrerá automaticamente durante a reinicialização subsequente do sistema.

Para ficar mais alinhado com o setor e o feedback contínuo dos clientes, a partir de março de 2022, as atualizações do BIOS do Dell PowerEdge alterarão a configuração "Correctable Error Logging" do BIOS para desabilitada por padrão.  Essa opção do BIOS pode ser reativada para clientes que desejam continuar a ver eventos corrigíveis de limite de memória. As versões do BIOS com esta alteração de configuração do BIOS incluída são:
  • Plataformas Intel 14G - BIOS versões 2.13.3 ou mais recentes
  • Plataformas AMD 15G - BIOS versões 2.6.5 ou mais recentes
  • Plataformas Intel 15G - BIOS versões 1.5.5 ou mais recentes.

Os benefícios da autocorreção do DIMM DDR4 por meio da reinicialização do sistema:
  • Permite o reparo de um DIMM DDR4 sem remoção do sistema; Todos os DIMMs DDR4 fornecidos pela Dell são compatíveis com a autocorreção de memória. Nota: os servidores AMD PowerEdge 14G não têm esse recurso de autocorreção.
  • Utiliza linhas sobressalentes disponíveis projetadas na DRAM, onde uma fileira ruim é permanentemente substituída por uma fileira em boas condições por fusão elétrica.
  • O novo treinamento de memória subsequente otimiza os "olhos de dados" recalibrando os pontos centrais para garantir que o barramento de memória opere no nível mais alto de integridade de sinalização.


Para eventos de limite corrigíveis com a configuração BIOS "Correctable Error Logging" ativada, se ocorrerem eventos de limite de memória, a Dell recomenda reinicializar no agendamento de manutenção regular do cliente para permitir que a memória programada ocorra autocorreção ou autocorreção. Após a reinicialização, os eventos de autocorreção bem-sucedidos ou malsucedidos serão registrados para os DIMMs associados.

Com a configuração do BIOS "Correctable Error Logging" Dativada, a Dell recomenda a reinicialização no agendamento de manutenção regular do cliente. Após a reinicialização, todas as operações de autocorreção agendadas serão executadas automaticamente. O sistema registrará um evento (MEM0805 ou eventos do tipo MEM7114) se a operação de autocorreção/autocorreção não tiver sido bem-sucedida e recomendará ainda a substituição física do DIMM afetado.

Recomendação: a
engenharia de memória da Dell EMC recomenda que os clientes do servidor PowerEdge com versões mais antigas do BIOS (versões anteriores ao bloco de março de 2022) adotem a alteração da configuração do BIOS "Correctable Error Logging" para Disabled. Isso eliminará os eventos esporádicos de limite de memória corrigíveis (como eventos MEM0802 ou de tipo MEM5104) em toda a infraestrutura de servidor que recomendam reinicializações do servidor para permitir a realização de autocorreção ou autocorreção. Como mencionado anteriormente, todas as operações agendadas de autocorreção ou autocorreção serão executadas automaticamente quando o servidor for reinicializado e quaisquer falhas serão relatadas.
 

A configuração do BIOS "Correctable Error Logging" pode ser alterada reinicializando o servidor para as configurações F2 ou por meio da GUI do iDRAC.
 

Para alterar a configuração do BIOS usando as configurações F2:

  • Reinicialize os servidores parando nas configurações F2
  • Na seleção BIOS Settings -> Memory Settings, altere a opção "Correctable Error Logging" para "Disabled".
  • Salve as configurações do BIOS e saia das configurações F2

Para alterar a configuração do BIOS usando a GUI do iDRAC:

  • Faça login na GUI do iDRAC
  • Em Configuração -> Configurações do BIOS, expanda a seção Configurações de memória
  • Altere a configuração "Correctable Error Logging" para desativado
  • Clique no botão Aplicar para salvar as configurações de memória
  • Não se esqueça de selecionar o botão Apply and Reboot (para reinicializar imediatamente) ou o botão Next Reboot para aplicar as alterações do BIOS.


Os artigos e white papers da KB relacionados à memória existente serão atualizados para refletir essa alteração recomendada.

OBSERVAÇÃO: O sistema de mensagens aprovado voltado para o cliente está anexado como um arquivo a este artigo - "Managing Correctable Error Notices Dec 2021 v1.pdf".

Este artigo será atualizado à medida que novas informações forem disponibilizadas.

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution