Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Server Intel 14G e 15G Intel/AMD PowerEdge: Memoria DDR4: gestione degli eventi di soglia di errore correggibili

Summary: Suggerimenti aggiornati per i clienti nella gestione degli eventi di soglia di errore correggibili (MEM0802 o MEM5104) su RDIMM o LRDIMM DDR4 installati nei server PowerEdge 14G e 15G basati su Intel e nei server PowerEdge 15G basati su AMD. Nota: Questo articolo non si applica ai server PowerEdge 14G basati su AMD, come le piattaforme 64x5 o 74x5, in quanto non dispongono di questa funzionalità Post Package Repair/self-healing, anche se il DIMM stesso la supporta. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Con l'evoluzione delle funzioni RAS (Reliability, Accessibility and Serviceability) nella memoria di livello enterprise, Dell ha adottato un approccio conservativo nella segnalazione degli errori per garantire trasparenza ai clienti. Con questa evoluzione, aumenta anche l'approccio di Dell alla segnalazione degli errori per consentire di concentrarsi sulle notifiche che richiedono una risposta più urgente rispetto alle notifiche di natura principalmente informativa.

Poiché le geometrie della memoria basata su DRAM continuano a ridursi, fornendo ai clienti le maggiori prestazioni richieste, si prevede un numero crescente di errori correggibili come parte naturale del dimensionamento uniforme.

Cause

Nel settore globale dei server, è sempre più accettato, condiviso da Dell, l'idea che alcuni errori correggibili per ogni DIMM siano inevitabili e non giustifichino di per sé la sostituzione del modulo di memoria o un riavvio immediato per avviare il self-healing.

Resolution

Continuando a utilizzare un sistema che segnala errori correggibili senza un riavvio per il self-healing, non aumenta in modo significativo il rischio di riscontrare errori non correggibili che potrebbero portare a downtime non pianificati. In effetti, altri operatori del settore hanno comunicato pubblicamente che la loro gestione della memoria non segnala errori correggibili.

In BIOS Intel PowerEdge 14G versione 2.5.4 e successive è stata aggiunta un'impostazione del BIOS denominata "Correctable Error Logging" per consentire ai clienti di scegliere di disabilitare la segnalazione di errori correggibili, se lo desiderano, e molti lo hanno fatto.  Il BIOS continuerà a pianificare il self-healing per gli eventi di soglia correggibili anche senza la registrazione. Il self-healing pianificato si verificherà automaticamente durante il successivo riavvio del sistema.

A partire da marzo 2022, gli aggiornamenti del BIOS Dell PowerEdge modificheranno l'impostazione del BIOS "Correctable Error Logging" su Disabled per impostazione predefinita.  Questa opzione del BIOS può essere riabilitata per consentire ai clienti che desiderano continuare a visualizzare gli eventi di soglia di memoria correggibili. Le versioni del BIOS con questa modifica alle impostazioni del BIOS inclusa sono:
  • Piattaforme Intel 14G - BIOS 2.13.3 o versioni successive
  • Piattaforme AMD 15G - BIOS versioni 2.6.5 o successive
  • Piattaforme Intel 15G - BIOS versione 1.5.5 o successive.

I vantaggi del self-healing dei DIMM DDR4 tramite il riavvio del sistema:
  • Consente la riparazione di un DIMM DDR4 senza rimuoverlo dal sistema. tutti i DIMM DDR4 forniti da Dell supportano il self-healing della memoria. Nota: i server AMD PowerEdge di 14a generazione non dispongono di questa funzionalità di self-healing.
  • Utilizza le file di riserva disponibili architettate nella DRAM in cui una riga danneggiata viene sostituita in modo permanente con una sicuramente funzionante mediante fusibile elettrico.
  • La successiva ripetizione del training della memoria ottimizza gli "occhi dei dati" ricalibrando i punti centrali per garantire che il bus di memoria funzioni al massimo livello di integrità del segnale.


Per gli eventi di soglia correggibili con l'impostazione del BIOS "Correctable Error Logging" abilitata, se si verificano eventi di soglia della memoria, Dell consiglia di riavviare in base alla normale pianificazione di manutenzione del cliente per consentire il self-healing o la correzione automatica della memoria pianificata. Dopo il riavvio, verranno registrati gli eventi di self-healing riusciti o non riusciti per i moduli DIMM associati.

Con l'impostazione Disfigurata del BIOS "Correctable Error Logging", Dell consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente. Al riavvio, tutte le operazioni di self-healing pianificate verranno eseguite automaticamente. Se l'operazione di self-healing/autocorrezione, il sistema registrerà un evento (eventi di tipo MEM0805 o MEM7114) e consiglierà inoltre di sostituire fisicamente il modulo DIMM interessato.

Raccomandazione:
Dell EMC Memory Engineering consiglia ai clienti di server PowerEdge su versioni del BIOS precedenti (versioni del BIOS precedenti al blocco di marzo 2022) di modificare l'impostazione del BIOS "Correctable Error Logging" su Disabled. In questo modo verranno eliminati sporadici eventi di soglia di memoria correggibili (ad esempio eventi di tipo MEM0802 o MEM5104) nell'infrastruttura server che consigliano il riavvio del server per consentire il self-healing o l'autocorrezione. Come accennato in precedenza, tutte le operazioni di self-healing o self-correction pianificate verranno eseguite automaticamente al riavvio del server e verranno segnalati eventuali errori.
 

L'impostazione del BIOS "Correctable Error Logging" può essere modificata riavviando il server con le impostazioni F2 o tramite la GUI di iDRAC.
 

Per modificare le impostazioni del BIOS utilizzando F2 Settings:

  • Riavviare i server arrestandosi alle impostazioni F2
  • Nella selezione BIOS Settings -> Memory Settings, impostare "Correctable Error Logging" su Disabled.
  • Salvare le impostazioni del BIOS e uscire dalle impostazioni F2

Per modificare le impostazioni del BIOS utilizzando la GUI di iDRAC:

  • Accedere alla GUI di iDRAC
  • In Configuration -> BIOS Settings, espandere la sezione Memory Settings
  • Modificare l'impostazione "Correctable Error Logging" su disabled
  • Fare clic sul pulsante Applica per salvare le impostazioni di memoria
  • Non dimenticare di selezionare il pulsante Applica e riavvia (per riavviare immediatamente) o il pulsante Al riavvio successivo per applicare le modifiche del BIOS.


Gli articoli della Knowledge Base e i white paper esistenti correlati alla memoria verranno aggiornati per riflettere questa modifica consigliata.

NOTA BENE: I messaggi approvati per i clienti sono allegati come file a questo articolo, "Managing Correctable Error Notices Dec 2021 v1.pdf".

Questo articolo verrà aggiornato non appena saranno disponibili nuove informazioni.

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution