PowerEdge: Self-healing della memoria DDR4 con i processori scalabili Intel Xeon

Summary: Errori di memoria correggibili e non correggibili su server PowerEdge con DDR4 e modifiche alla procedura di risoluzione dei problemi

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

In cosa consiste il self-healing della memoria DDR4 sui server Dell PowerEdge con processori scalabili Intel Xeon (prima o seconda generazione) con BIOS 2.1.x o versione successiva?

In che modo queste funzionalità di self-healing della memoria DDR4 (miglioramenti del BIOS) modificano le azioni consigliate del cliente e del supporto tecnico quando si riscontrano errori di memoria su un server?

Quali sono i miglioramenti di self-healing nelle versioni più recenti del BIOS?

Cause

Sono in corso ottimizzazioni del BIOS Dell PowerEdge per migliorare la messaggistica degli eventi di memoria, la gestione degli errori e la funzione di "self-healing" al riavvio del server. In questo modo si evita la necessità di una finestra di manutenzione pianificata o della presenza onsite per sostituire un DIMM di memoria DDR4 che registrava eventi di errore.

Resolution

Sono presenti due miglioramenti principali del BIOS per il self-healing correlati alla memoria, implementati per i server PowerEdge con memoria DDR4, BIOS 2.1.x e versioni successive. Questi miglioramenti modificano le azioni o i passaggi consigliati da seguire se si verificano errori di memoria e vengono inseriti nel registro di LifeCycle.

Nota:
  • Se si verificano errori di memoria con DDR4 sul BIOS 2.0 o versione precedente, aggiornare il BIOS alla versione più recente che include molti miglioramenti e funzionalità di self-healing della memoria. Si consiglia sempre ai clienti di eseguire l'aggiornamento alla versione più recente del BIOS disponibile (e del firmware iDRAC) in modo da poter sfruttare i miglioramenti del self-healing più recenti.
  • I passaggi precedenti per la risoluzione dei problemi relativi alla memoria includono lo spostamento dei moduli DIMM guasti in uno slot diverso, per verificare se gli errori sono riconducibili ai moduli o allo slot. Con il BIOS 2.1.x o versione successiva, il primo passaggio consigliato è un riavvio (senza spostare i DIMM in uno slot diverso) per consentire l'esecuzione dei nuovi miglioramenti del BIOS, risolvendo (self-healing) potenzialmente gli errori dei DIMM senza doverne pianificare la sostituzione o lo spostamento.
  1. Miglioramenti della reimpostazione della memoria

La reimpostazione della memoria che si verifica durante l'avvio (all'inizio della procedura di configurazione della memoria) ottimizza la temporizzazione e i margini del segnale per l'accesso ottimale per ogni DIMM/slot. Le caratteristiche di temporizzazione e margini del segnale di memoria di un modulo DIMM possono cambiare nel corso del tempo per diversi motivi:

  • Modifiche alla configurazione della memoria del server
  • Modifiche del BIOS (Memory Reference Code - MRC)
  • Temperature di esercizio diverse del server o del DIMM
  • Obsolescenza del DIMM

In precedenza, gli aggiornamenti del BIOS o le modifiche alla configurazione della memoria rilevate avrebbero determinato una reimpostazione della memoria all'avvio successivo. A partire dal BIOS 2.1.x, sono stati aggiunti altri trigger di errori di memoria correggibili e non correggibili per la reimpostazione pianificata:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

La registrazione di uno di questi errori nei registri SEL o Lifecycle comporta la pianificazione della reimpostazione della memoria al riavvio successivo (a caldo o a freddo). Il BIOS forzerà automaticamente un riavvio a freddo indipendentemente dalla richiesta di inizializzazione.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Questo errore multibit può causare il riavvio del server per un errore irreversibile se il sistema operativo non è in grado di gestire tale errore. La reimpostazione della memoria si verificherà automaticamente durante l'avvio. Se l'errore multibit si verifica in una posizione di memoria non critica gestibile dal sistema operativo, è necessario pianificare un riavvio.

La reimpostazione della memoria durante il POST può eseguire il "self-healing" del modulo DIMM guasto e dello slot associato ottimizzando la temporizzazione e i margini del segnale. Per questi errori non è necessario sostituire un modulo DIMM, a meno che la reimpostazione della memoria abbia esito negativo (UEFI0106) durante l'avvio o se si continuano a verificare gli stessi errori.
 

  1. Post Package Repair (PPR)

Il secondo miglioramento per il self-healing della memoria è l'operazione PPR, che comporta la riparazione di una posizione di memoria con errori disabilitando la posizione o l'indirizzo a livello di hardware e consentendo l'utilizzo di una riga di memoria di riserva. Il numero esatto di righe di memoria di riserva disponibili dipende dal dispositivo DRAM e dalle dimensioni del modulo DIMM.

In precedenza, questa funzionalità era limitata al processo di produzione. Come per i miglioramenti di reimpostazione della memoria menzionati in precedenza, alcuni errori di memoria correggibili comportano la pianificazione dell'operazione PPR su uno slot DIMM specifico per il riavvio successivo (a caldo o a freddo). Il BIOS forzerà automaticamente un riavvio a freddo indipendentemente dalla richiesta di inizializzazione. Poiché l'operazione è pianificata su uno slot di DIMM specifico, NON modificare le posizioni degli slot fino a quando non verrà eseguita la riparazione del pacchetto POST. Esempi di errori:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Uno qualsiasi di questi eventi nei registri comporta la pianificazione dell'operazione PPR per il successivo riavvio (a caldo o a freddo) all'inizio della fase di configurazione della memoria.

Nota: un ID messaggio MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX.), senza un evento MEM0005/MEM0701/MEM0702 corrispondente sulla stessa posizione DIMM, non comporta la pianificazione di un'operazione PPR per il riavvio successivo.

Vedere l'aggiornamento del 10 luglio 2020 per le modifiche all'evento MEM8000 e versione 1.1 aggiornata e il white paper più recente.

Dopo il riavvio, verificare che l'operazione di riparazione del pacchetto POST sia stata eseguita correttamente. Un esempio di operazione di riparazione del pacchetto POST corretta sarà simile alla seguente:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Per questi errori di memoria correggibili non è necessario sostituire il modulo DIMM, a meno che l'operazione PPR abbia esito negativo dopo il riavvio. Esempio di messaggio di errore critico per l'operazione PPR:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

È ora disponibile un white paper appena pubblicato (versione 1.0) che descrive le varie funzioni RAS (Reliability, Availability, and Serviceability) correlate alla memoria dei server Dell PowerEdge disponibili sui server PowerEdge: Memory Errors and Dell PowerEdge YX4X Server Memory RAS Features.

 

Aggiornamento: 24 aprile 2020

Dell continua a migliorare le funzionalità di self-healing. La sezione seguente elenca gli aggiornamenti e i miglioramenti associati alle varie versioni del BIOS.

BIOS 2.1.x: pubblicazione iniziale dell'articolo relativo alle funzionalità di self-healing disponibili a partire dal BIOS 2.1.6 e versioni successive, inclusi messaggi di errore di esempio e azioni consigliate.

Modifiche BIOS 2.4.x e successive (dicembre 2019)

  • MEM0702 (Correctable error rate exceeded...) - Messaggio aggiornato da Critical a Warning. Con le azioni consigliate aggiornate per riavviare il server per consentire il self-healing, ad esempio Post Package Repair.
    • iDRAC di dicembre 2019 o successivo da installare per ricevere il messaggio aggiornato
    • Azione consigliata: riavviare il server per consentire l'esecuzione della PPR
  • MEM9060 - Descrizione del messaggio aggiornata per indicare che il self-healing è stato completato correttamente

Modifiche BIOS 2.5.x e successive (febbraio 2020)

  • È stata aggiunta un'opzione del BIOS "Correctable Error Logging" per consentire ai clienti di disabilitare tutte le registrazioni del ciclo di vita o SEL relative agli errori correggibili. Tutte le funzioni di self-healing continuano a funzionare: ad esempio, la PPR e la reimpostazione della memoria sono ancora pianificate ed eseguite durante il riavvio successivo (all'inizio del processo di configurazione della memoria).
  • Aggiunta di errori MEM08xx per RDIMM e LRDIMM che sostituiscono i messaggi di errore e le azioni esistenti. I messaggi di errore esistenti vengono ancora utilizzati per le piattaforme che non supportano le funzionalità di self-healing.
    • È richiesto iDRAC di febbraio 2020 o versione successiva per la registrazione dei nuovi messaggi.
Nota: Senza l'iDRAC aggiornato, i nuovi messaggi del BIOS sono "sconosciuti" nei registri SEL o Lifecycle.
  • MEM0802 - Sostituisce MEM0702 - Tasso di errori correggibili superato
    • Azione consigliata: riavviare il server per consentire l'esecuzione della PPR. Verificare che la PPR abbia avuto esito positivo (MEM0802)
  • MEM0804 - Sostituisce MEM9060 che indicava che la PPR aveva avuto esito positivo. Ora include la posizione dello slot DIMM che ha eseguito la PPR
    • Azione consigliata: nessuna, questo evento indica che si è verificato il self-healing, non è necessaria alcuna sostituzione di DIMM.
  • MEM0805 - ha sostituito UEFI0278 che indicava che la PPR non era riuscita
    • Azione consigliata: Sostituire un modulo DIMM malfunzionante

Aggiornamento: 10 luglio 2020

Modifiche BIOS 2.7.x e successive (BIOS del blocco di luglio 2020, previsto a metà luglio per la pubblicazione sul Web)

  • MEM8000 (Correctable error logging disabled): a partire dal BIOS ~2.0.x, Dell Engineering ha apportato una modifica per migliorare il rilevamento del tasso di errori correggibili che può influire sulle prestazioni. Questa modifica ha portato a un aumento degli eventi MEM8000 non supportati dai risultati dell'analisi dei guasti dei moduli DIMM. A partire dal BIOS 2.7.x, sono state apportate due modifiche correlate a MEM8000. La prima è la segnalazione della modifica dell'evento MEM8000. La seconda è la pianificazione del PPR per il self-healing d aparte del BIOS al successivo riavvio. . I messaggi iDRAC non sono stati ancora aggiornati per riflettere le nuove azioni.
    • Azione consigliata: riavviare il server per consentire l'esecuzione di self-healing/PPR. Verificare che la PPR sia stata eseguita correttamente (MEM0804).
  • MEM0001 (Uncorrectable Error): determina la pianificazione del self-healing (PPR) per il riavvio successivo. I messaggi iDRAC non sono stati ancora aggiornati per riflettere le nuove azioni
    • Azione consigliata: nessuna azione necessaria se MEM0001 è associato a una pagina critica che il sistema operativo non è in grado di ripristinare - È ancora un errore irreversibile che determina un riavvio. Se MEM0001 è associato a una pagina non critica dalla quale il sistema operativo può eseguire il ripristino, è necessario pianificare un riavvio per il self-healing (PPR). Verificare che la PPR sia stata eseguita correttamente (MEM0804).

Aggiornamento: 13 gennaio 2021

Modifiche BIOS 2.8.2 e successive (BIOS del blocco di settembre 2020)

  • MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is currently notconsumed or in use): si traduce in self-healing (PPR) da pianificare per il riavvio successivo. I messaggi iDRAC non sono stati ancora aggiornati per riflettere le nuove azioni.
    • Azione consigliata: pianificare un riavvio in tempi brevi. Ritardare il riavvio potrebbe comportare l'utilizzo della pagina con conseguente errore MEM0001 che potrebbe causare il riavvio. La funzione di self-healing della memoria (PPR) viene eseguita durante il riavvio. Verificare che la PPR sia stata eseguita correttamente (MEM0804).
Nota: l'ultima versione del white paper Engineering (versione 1.3 - data di rilascio 20 novembre 2020) è disponibile all'indirizzo:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Per i contenuti Intel Xeon E e AMD EPYC, continuare a fare riferimento al white paper Engineering originale (versione 1.0): PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)

Esistono ulteriori miglioramenti delle funzioni RAS in fase di valutazione per essere inclusi nei futuri aggiornamenti del BIOS.

 
Nota: per una descrizione dettagliata e le azioni consigliate per messaggi di codice errore specifici, fare riferimento al seguente link: Look Up (dell.com). Poiché i codici errore (ad esempio, MEM0001) si applicano a più generazioni di server e piattaforme, le azioni consigliate potrebbero non essere aggiornate per la specifica versione del BIOS. I nuovi codici errore aggiunti (ad esempio, MEM0802, MEM0804, MEM0805 e così via) si applicano solo ai server con processori scalabili Intel Xeon (prima o seconda generazione).

 

Questo articolo viene aggiornato non appena sono disponibili nuove informazioni.


Driver e download: Driver e download

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.