PowerEdge: O que é a autocorreção DDR4 com processadores escaláveis Intel Xeon

Summary: Erros de memória corrigíveis e não corrigíveis no servidor PowerEdge com DDR4 e alterações nas etapas de solução de problemas

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

O que é a "autocorreção" da DDR4 nos servidores Dell PowerEdge com processadores escaláveis Intel Xeon (primeira ou segunda geração) com BIOS versão 2.1.x ou superior?

Como esses recursos de "autocorreção" da DDR4 (aprimoramentos do BIOS) alteram as ações recomendadas para o cliente e para o Suporte técnico ao encontrar erros de memória em um servidor?

Quais são os aprimoramentos de "autocorreção" incluídos nas versões mais recentes do BIOS?

Cause

Há melhorias e aprimoramentos contínuos no BIOS do Dell PowerEdge para aprimorar as mensagens de eventos de memória, o tratamento de erros e a "autocorreção" que ocorrem após uma reinicialização do servidor. Isso evita a necessidade de uma janela de manutenção agendada ou a presença no local para substituir um DIMM de memória DDR4 que estava registrando eventos de erro.

Resolution

Existem dois aprimoramentos principais de "autocorreção" relacionados à memória do BIOS que foram implementados para servidores PowerEdge com DDR4 executando BIOS versão 2.1.x e posteriores. Esses aprimoramentos alteram as etapas ou ações recomendadas a serem tomadas se erros de memória ocorrerem e forem incluídos no log do LifeCycle.

Nota:
  • Se você identificar mensagens de erro de memória na DDR4 no BIOS 2.0 ou anterior, atualize o BIOS com a revisão mais recente, que inclui muitos recursos de autocorreção de memória e aprimoramentos contínuos. Nós sempre incentivamos os clientes a atualizarem para a versão mais recente do BIOS (e firmware do iDRAC) para que eles possam aproveitar os aprimoramentos mais recentes de autocorreção.
  • As etapas de solução de problemas de memória anteriores movem os DIMMs com falha para um slot diferente a fim de confirmar se os erros seguem o DIMM ou se permanecem no slot de DIMM. Com o BIOS 2.1.x ou posterior, a primeira etapa recomendada é reiniciar (sem mover os DIMMs para um slot diferente). Isso permite que os novos aprimoramentos do BIOS sejam executados, resolvendo potencialmente os erros do DIMM (autocorreção), sem precisar programar a substituição de DIMMs.
  1. Aprimoramentos no novo treinamento de memória

O novo treinamento de memória, que ocorre durante a inicialização (logo nas etapas de configuração da memória), otimiza a temporização e as margens do sinal para cada DIMM/slot, a fim de melhorar o acesso. As características de temporização e margens de sinal de memória de um DIMM podem mudar ao longo do tempo por vários motivos diferentes:

  • Alterações na configuração de memória do servidor
  • Alterações do BIOS (Código de referência da memória - MRC)
  • Diferentes temperaturas operacionais do servidor ou do DIMM
  • O tempo de uso do DIMM

Anteriormente, a detecção de atualizações do BIOS ou alterações de configuração da memória fazia com que o novo treinamento da memória ocorresse durante a inicialização subsequente. A partir da versão 2.1.x do BIOS, foram adicionados "acionadores" extra de erros de memória corrigíveis e não corrigíveis para o novo treinamento agendado:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

O registro de qualquer um desses erros nos logs do SEL ou do Lifecycle resulta no agendamento do novo treinamento de memória para a próxima reinicialização (a quente ou a frio). O BIOS força automaticamente uma reinicialização a frio, independentemente do que foi iniciado.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Esse erro de vários bits pode resultar na reinicialização do servidor devido a um erro fatal se o sistema operacional não conseguir lidar com esse erro. O novo treinamento de memória ocorrerá automaticamente durante essa inicialização. Se o erro de vários bits ocorrer em uma localização de memória não crítica e o sistema operacional conseguir lidar com o erro, uma reinicialização precisará ser programada.

O novo treinamento de memória durante o POST pode "autocorrigir" o DIMM com falha e o slot associado otimizando a temporização e a margem do sinal. Não é necessário substituir o DIMM devido a esses erros, a menos que ocorra falha no novo treinamento da memória (UEFI0106) durante a inicialização ou se os mesmos erros continuem ocorrendo.
 

  1. Reparo pós-pacote (PPR)

O segundo aprimoramento de memória de "autocorreção" é PPR. O PPR repara um local de memória com falha desativando o local ou endereço na camada de hardware, permitindo que uma linha de memória sobressalente seja usada. O número exato de linhas de memória sobressalentes disponíveis depende do dispositivo DRAM e do tamanho do DIMM.

Anteriormente, essa funcionalidade era limitada ao processo de produção. Como ocorre com os aprimoramentos do novo treinamento de memória mencionados anteriormente, existem certos erros de memória corrigíveis que resultarão no agendamento do PPR em um slot do DIMM específico na próxima reinicialização (quente ou fria). O BIOS força automaticamente uma reinicialização a frio, independentemente do que foi iniciado. Como a operação do PPR é agendada em um slot do DIMM específico, NÃO altere as localizações do slot do DIMM até que a operação seja executada. Exemplos de erros:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Qualquer um desses erros nos logs fazem com que o PPR seja agendado para a próxima reinicialização (quente ou fria), no início da fase de Configuração da memória

Nota: A mensagem com ID MEM8000 (Os logs de erro de memória que pode ser corrigido foram desativados em um dispositivo de memória no local DIMM_XX.), sem um MEM0005/MEM0701/MEM0702 correspondente no mesmo local do DIMM, não resulta no agendamento do PPR para a próxima reinicialização.

Consulte a atualização de 10 de julho de 2020 para conhecer as alterações no evento MEM8000, a versão 1.1 atualizada e o white paper mais recente.

Após a reinicialização, verifique se a operação do PPR foi executada com sucesso. Um exemplo de operação bem-sucedida do PPR é semelhante ao seguinte:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Não é necessário substituir o DIMM devido a esses erros de memória corrigíveis, a menos que a operação de PPR ocorra. Exemplo de mensagem de falha crítica do PPR:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Um white paper recém-publicado (versão 1.0) que descreve os recursos de Confiabilidade, Disponibilidade e Facilidade de Manutenção (RAS) relacionados à memória do servidor Dell PowerEdge está disponível. Ele descreve os vários recursos e capacidades de RAS disponíveis nos servidores PowerEdge: Erros de memória e recursos de RAS da memória do servidor Dell PowerEdge YX4X.

 

Atualizado em 24 de abril de 2020

A Dell continua a aprimorar os recursos de "autocorreção". A seção a seguir lista as atualizações e os aprimoramentos associados às diferentes versões do BIOS.

BIOS 2.1.x – Publicação inicial do artigo dos recursos de "autocorreção" disponíveis a partir do BIOS 2.1.6 e superior, incluindo exemplos de mensagens de erro, bem como ações recomendadas.

Alterações no BIOS 2.4.x ou mais recente (dezembro de 2019)

  • MEM0702 (taxa de erro corrigível excedida...) – Mensagem atualizada de Crítica para Advertência. Com as ações recomendadas atualizadas para reinicializar o servidor para permitir que a "autocorreção" ocorra, por exemplo, um reparo pós-pacote.
    • É necessário que o iDRAC de dezembro de 2019 ou mais recente também esteja instalado para que a mensagem seja atualizada
    • Ação recomendada: Reinicie o servidor para permitir que o PPR seja executado
  • MEM9060 - descrição da mensagem atualizada para indicar que a "autocorreção" foi concluída com êxito

BIOS 2.5.x e alterações mais recentes (fevereiro de 2020)

  • Uma opção de BIOS "Correctable Error Logging" foi adicionada para permitir que os clientes desativem todos os logs do ciclo de vida ou SEL relacionados a erros corrigíveis. Todos os recursos de "autocorreção" continuam funcionando. Por exemplo, o PPR e o novo treinamento de memória ainda estão programados e são executados durante a próxima reinicialização (no início do processo de configuração da memória).
  • Adição de erros MEM08xx para RDIMMs e LRDIMMs substituindo mensagens de erro e ações existentes. As mensagens de erro existentes ainda são usadas para plataformas que não são compatíveis com os recursos de "autocorreção".
    • Requer o iDRAC de fevereiro de 2020 ou mais recente para que as novas mensagens sejam registradas.
Nota: Sem o iDRAC atualizado, as novas mensagens do BIOS são "desconhecidas" nos registros do SEL ou do Lifecycle.
  • MEM0802 – Substituiu o MEM0702 – Taxa de erro corrigível excedida
    • Ação recomendada: Reinicie o servidor para permitir que o PPR seja executado. Confirme se o PPR foi bem-sucedido (MEM0802)
  • MEM0804 – Substituiu o MEM9060 indicando que o PPR foi bem-sucedido. Agora inclui a localização de slots DIMM que executou o PPR
    • Ação recomendada: Nenhuma. Esse evento indica que ocorreu a "autocorreção", não é necessário substituir o DIMM.
  • MEM0805 - substituiu o UEFI0278, indicando falha no PPR
    • Ação recomendada: Substitua o DIMM com falha

Atualizado em 10 de julho de 2020

Alterações no BIOS 2.7.x ou mais recente (bloco de versões do BIOS de julho de 2020; meados de julho para publicação na Web)

  • MEM8000 (Log de erro corrigível desativado): a partir do BIOS ~2.0.x, a engenharia da Dell fez uma alteração no BIOS para melhorar a taxa de detecção de erros corrigíveis que podem afetar o desempenho. Essa alteração resultou em um aumento de eventos no MEM8000 que não foi comprovado pelos resultados da análise de falha do DIMM. A partir do BIOS 2.7.x, há duas alterações relacionadas ao MEM8000. Primeira, a sinalização do evento no MEM8000 foi modificada. Segunda, o BIOS agenda a autocorreção (PPR) para a próxima reinicialização. As mensagens do iDRAC ainda não foram atualizadas para refletir as novas ações.
    • Ação recomendada: Reinicialize o servidor para permitir que a autocorreção/o PPR seja executado. Confirme se o PPR foi bem-sucedido (MEM0804).
  • MEM0001 (erro incorrigível) — resulta na autocorreção (PPR) a ser agendada para a próxima reinicialização. As mensagens do iDRAC ainda não foram atualizadas para refletir as novas ações.
    • Ação recomendada: Nenhuma ação necessária se o MEM0001 estiver associado a uma página crítica que o sistema operacional não consegue recuperar; ainda será um erro fatal que resultará em uma reinicialização. Se o MEM0001 estiver associado a uma página não crítica da qual o sistema operacional pode se recuperar, uma reinicialização deverá ser programada para que todas as autocorreções (PPR) ocorram. Confirme se o PPR foi bem-sucedido (MEM0804).

ATUALIZADO em 13 de janeiro de 2021

Alterações no BIOS 2.8.2 ou mais recente (bloco de versões do BIOS de setembro de 2020)

  • MEM9072 (erro incorrigível, identificado pelo processo Patrol Scrub de memória; página não consumida ou em uso) — resulta na autocorreção (PPR) a ser agendada para a próxima reinicialização. As mensagens do iDRAC ainda não foram atualizadas para refletir as novas ações.
    • Ação recomendada: Agende uma reinicialização em breve. O atraso da reinicialização pode causar o consumo da página, resultando em um erro do MEM0001 que pode resultar na reinicialização. O recurso de autocorreção de memória (PPR) é executado durante essa reinicialização. Confirme se o PPR foi bem-sucedido (MEM0804).
Nota: A versão mais recente do white paper de engenharia (versão 1.3 com a data de publicação de 20 de novembro de 2020) pode ser encontrada em:   https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Para obter o conteúdo sobre o Intel Xeon E e o AMD EPYC, continue consultando o white paper original de engenharia (versão 1.0), que pode ser encontrado em: White paper do RAS da memória do servidor PowerEdge YX4X v1.0 (dell.com)

Há outras melhorias de recursos RAS sendo avaliadas para inclusão em futuras atualizações do BIOS.

 
Nota: Para obter uma descrição detalhada e as ações recomendadas para mensagens de código de erro específicas, consulte o seguinte link: Acesse (dell.com). Como os códigos de erro (como MEM0001) se aplicam a várias gerações de servidores e plataformas, as ações recomendadas podem não estar atualizadas para a versão específica do BIOS. Os novos códigos de erro adicionados (como MEM0802, MEM0804, MEM0805 e assim por diante) só se aplicam a servidores com processadores escaláveis Intel Xeon (primeira ou segunda geração).

 

Este artigo será atualizado à medida que novas informações forem disponibilizadas.


Drivers e downloads: Drivers e Downloads

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.