NVDIMM-N: cosa sapere sulle differenze dei messaggi di errore e sulle funzionalità "self-healing"

Riepilogo: Questo articolo illustra i vari messaggi di errore sulla memoria NVDIMM-N e la funzione di self-healing, con le eventuali differenze tra moduli RDIMM e LRDIMM.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

NVDIMM-N:


NVDIMM-N supporta le funzionalità "self-healing" fornite per la memoria RDIMM/LRDIMM standard nell'ambito del BIOS 2.1.8 e versioni successive?
Quali sono alcune delle differenze nel comportamento di registrazione degli errori in seguito alle modifiche del BIOS?
Cosa consiglia il supporto tecnico e quali azioni devono essere intraprese per i diversi messaggi di errore?
Quali sono le differenze principali tra i moduli RDIMM/LRDIMM e NVDIMM-N?


 


Funzionalità self-healing

Post Package Repair (PPR): i moduli di memoria NVDIMM-N non supportano funzionalità PPR come i moduli RDIMM/LRDIMM standard.
Riaddestramento della memoria: i moduli di memoria NVDIMM-N supportano il riaddestramento della memoria. La pianificazione del riaddestramento della memoria non è specifica di una posizione di slot DIMM, ma si applica a tutti i dispositivi collegati al bus di memoria. Pertanto si applicano tutti gli stessi trigger dei moduli RDIMM/LRDIMM, ovvero errori di memoria, modifiche alla configurazione e così via.
Lo scrubbing della memoria persistente aiuta a identificare errori a più bit o non correggibili sulla memoria NVDIMM-N, mitigando i futuri errori, anche se non si tratta di una funzionalità self-healing.
Il BIOS registra l'errore e fornisce la posizione della memoria al sistema operativo, che la aggiunge a un elenco di posizioni di memoria non consentite da evitare. Quando queste posizioni di memoria non vengono utilizzate o non sono in uso da parte del sistema operativo, non si tratta di errori critici e non sono irreversibili.

Esistono tre impostazioni del BIOS per lo scrubbing della memoria persistente:

Auto: il sistema esegue automaticamente la scansione della memoria persistente durante il POST quando vengono rilevati errori a più bit.
Questa è un'operazione in background.
One Shot: il sistema pulisce la memoria persistente durante il POST sull'intero intervallo di memoria persistente una sola volta. Al successivo avvio, il sistema torna alla modalità "Auto" di scrubbing della memoria persistente.
Enable: il sistema pulisce la memoria persistente durante il POST sull'intero intervallo di memoria persistente a ogni avvio.

 

Nota: lo scrubbing della memoria persistente (One Shot o Enable) potrebbe richiedere più di 60 minuti durante il POST, a seconda della popolazione della memoria, prima di avviare il sistema operativo.



Possibili messaggi di errore e azioni o raccomandazioni di scrubbing della memoria persistente NVDIMM-N.

 

 

Nota: eventuali errori di I/O di VxFlex OS che si verificano a seguito di uno qualsiasi dei seguenti errori segnalati da LifeCycle/SEL potrebbero richiedere azioni di ripristino specifiche di VxFlex.

 

 

Nota: Nota: non sostituire automaticamente i moduli NVDIMM-N quando si verifica uno dei seguenti errori. Il primo passo consiste nel rivedere i registri di LifeCycle/SEL per determinare quali azioni o eventi possano aver determinato l'errore che viene registrato al loro interno. Questi errori potrebbero non essere effettivi, ma dovuti alla mancata esecuzione delle azioni consigliate, ad esempio dopo un downgrade del firmware o lo spostamento dei moduli NVDIMM-N.


Vedere gli esempi nella sezione seguente sulle principali differenze tra i moduli NVDIMM-N e RDIMM/LRDIMM standard.

 


MEM0001: tutte le revisioni del BIOS

Multi bit memory errors detected on a memory device at location arg1
Lo scrubbing della memoria persistente ha identificato un errore a più bit/non correggibile su una pagina di memoria in uso.
Informazioni:  la pagina o la posizione non valida viene aggiunta all'elenco degli elementi non consentiti nella NVRAM a più bit per lo slot. Durante il POST, a seconda della versione del BIOS del server, potrebbero essere segnalati errori MEM0702/MEM9072/MEM9022, poiché la pagina o la posizione non è ancora stata utilizzata.
Consiglio:  sostituire la memoria NVDIMM-N referenziata.

 

MEM0702: versioni precedenti al BIOS 2.5.4 (febbraio 2020)

Messaggio effettivo: Correctable memory error rate exceeded for arg1
Significato secondario per NVDIMM-N: lo scrubbing della memoria persistente ha identificato un errore non correggibile su una pagina o una posizione di memoria non utilizzata. La pagina o la posizione della memoria è stata inserita nell'elenco degli elementi non consentiti del sistema operativo per evitarne l'uso.
Informazioni: se questo errore è dovuto a una pagina o a una posizione non valida identificata da uno scrubbing della memoria persistente, si verifica durante il POST a ogni riavvio. Per determinare se l'errore è dovuto a una percentuale di errori correggibili o a una pagina non valida identificata dallo scrubbing della memoria, controllare i dati SPD.
Consiglio:  sostituire la memoria NVDIMM-N referenziata.

 

MEM9072: dal BIOS 2.5.4 (febbraio 2020) al BIOS 2.6.4 (maggio 2020)

Messaggio effettivo: The system memory has faced an uncorrectable multi-bit memory error in the non-execution path of a memory device at the location arg1.
Significato secondario per NVDIMM-N: lo scrubbing della memoria persistente ha identificato un errore non correggibile su una pagina o una posizione di memoria non utilizzata (percorso non di esecuzione). La pagina o la posizione della memoria è stata inserita nell'elenco degli elementi non consentiti del sistema operativo per evitarne l'uso.
Informazioni: A differenza degli errori MEM0001, sebbene questo errore sia non correggibile/a più bit, non si tratta di un errore "irreversibile" che determina un riavvio del server quando si verifica.
Consiglio: Non è necessario eseguire alcuna azione. La pagina o la posizione della memoria non valida è stata inserita nell'elenco degli elementi non consentiti del sistema operativo per evitarne l'uso. Questo messaggio di errore si verifica durante il POST a ogni riavvio.

 

Nota: la versione del BIOS 2.7.x non segnala errori relativi allo scrubbing della memoria (MEM0702 o MEM9072), ma la pagina o la posizione non valida associata viene comunque aggiunta all'elenco degli elementi non consentiti (mantenuto nella NVRAM MB) associato a tale posizione dello slot.

 

MEM9022: versioni successive al BIOS 2.7.x (dopo luglio 2020), modifiche pianificate

Messaggio effettivo: A Non-Critical event was detected on the Non-Volatile Dual In-line memory module (NVDIMM) device in the slot arg1.
Lo scrubbing della memoria persistente ha identificato un errore non correggibile su una pagina o una posizione di memoria non utilizzata. La pagina o la posizione della memoria è stata inserita nell'elenco degli elementi non consentiti del sistema operativo per evitarne l'uso.
Consiglio:  Non è necessario eseguire alcuna azione. La pagina o la posizione della memoria non valida è stata inserita nell'elenco degli elementi non consentiti del sistema operativo per evitarne l'uso.

Principali differenze tra i moduli NVDIMM-N e RDIMM/LRDIMM standard
Non spostare i moduli NVDIMM-N tra tipi di server diversi, ossia da server basati su AMD a server basati su Intel.
I dati persistenti esistenti sul modulo NVDIMM-N potrebbero non essere più accessibili.
Esistono differenze negli algoritmi CRC per i diversi tipi di sistema che determinano errori imprevisti (MEM0001, MEM0702, MEM9072 o MEM9022).
Quando si sposta un modulo NVDIMM-N su un sistema diverso, è necessario sanificarlo nel nuovo sistema per garantire che funzioni come previsto. La sanificazione dei moduli NVDIMM-N comporta la cancellazione di tutti i dati presenti sulla memoria NVDIMM-N.
Non spostare i moduli NVDIMM-N da uno slot all'altro, ad esempio per la risoluzione dei problemi. I moduli NVDIMM-N nel sistema operativo sono caratterizzati da una configurazione autonoma o di interleaving, in base allo slot. Il riposizionamento fisico dei moduli NVDIMM-N può causare la perdita di dati nel momento in cui il modulo NVDIMM-N in una determinata posizione dello slot non corrisponde più alla configurazione del sistema operativo corrente.
Se non vi sono dati validi sulla memoria NVDIMM-N e i moduli NVDIMM-N devono essere spostati in uno slot diverso (ossia, invertiti per la risoluzione dei problemi):
Assicurarsi di sanificare (cancellare) i moduli NVDIMM-N associati. Se sono presenti errori di scrubbing della memoria persistente registrati durante il POST (quando si fornisce un elenco di elementi non validi esistente al sistema operativo) in uno slot specifico, gli errori persistono su tale slot anche se il modulo NVDIMM-N interessato viene scambiato/spostato in uno slot diverso. L'operazione di sanificazione, oltre alla cancellazione dei dati sul modulo NVDIMM-N, cancella l'elenco di elementi non consentiti della memoria NVRAM MB associato a un determinato slot.
Configurare i moduli NVDIMM-N secondo necessità nel sistema operativo e ripristinare i dati del cliente.
I moduli NVDIMM-N contengono firmware che possono introdurre problemi di dipendenza dal comportamento quando si modificano le versioni del firmware. Se il firmware di un modulo NVDIMM-N viene sottoposto a downgrade rispetto alla versione originale, è necessario sanificarlo prima dell'uso. In caso contrario, lo scrubbing della memoria persistente potrebbe generare errori non effettivi (MEM0702, MEM9072 o MEM9022). 
In un caso recente, in più server era stato eseguito il downgrade del firmware NVDIMM-N dalla versione 9772 alla versione 9324 senza sanificare successivamente i moduli. Questi server segnalavano errori MEM0702 (durante o subito dopo il POST) in molti moduli NVDIMM-N. La sanificazione (cancellazione) dei moduli NVDIMM-N ha risolto questi errori non effettivi di scrubbing della memoria persistente.

 

 

Nota: assicurarsi di aggiornare il BIOS alla versione più recente come indicato nel sito del Supporto Dell.

 

Ulteriori informazioni sulla memoria NVDIMM-N sono disponibili nel documento Dell EMC NVDIMM-N Persistent Memory User Guide, nella scheda Manuali e documentazione della piattaforma all'indirizzo: https://www.dell.com/support/home

Prodotti interessati

VxFlex Ready Nodes, PowerFlex Appliance, OEMR R340, OEMR R440, PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R740, OEMR XL R740, OEMR R840, OEMR R940, OEMR T140, OEMR T340, OEMR T440, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340 , PowerEdge FC640, PowerEdge M640, PowerEdge M640 (for PE VRTX), PowerEdge MX5016s, PowerEdge MX7000, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R240, PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R6415, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R7415, PowerEdge R7425, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T140, PowerEdge T340, PowerEdge T40, PowerEdge T440, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, VxFlex Ready Node ...
Proprietà dell'articolo
Numero articolo: 000052811
Tipo di articolo: How To
Ultima modifica: 17 apr 2026
Versione:  7
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.