Server PowerEdge 14G Intel e 15G: Gestione degli eventi di soglia di errore correggibili

摘要: Questo articolo fornisce suggerimenti aggiornati per la gestione degli eventi di soglia di errore correggibili (MEM0802 o MEM5104) su RDIMM o LRDIMM DDR4 installati nei server PowerEdge 14G e 15G basati su Intel e nei server PowerEdge 15G basati su AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Nota: Questo articolo non si applica ai server PowerEdge 14G basati su AMD, come le piattaforme 64x5 o 74x5, in quanto non dispongono di questa funzionalità di reinstallazione automatica Post Package Repair, anche se il modulo DIMM stesso la supporta.

Attraverso l'evoluzione delle caratteristiche RAS (affidabilità, accessibilità e facilità di manutenzione) nelle memorie di livello enterprise, Dell ha adottato un approccio conservativo nel fornire trasparenza ai clienti. Con il proseguimento di questa evoluzione, aumenta anche l'approccio di Dell alla segnalazione degli errori, che consente di concentrarsi sulle notifiche che richiedono una risposta più urgente rispetto alle notifiche di natura principalmente informativa.

Poiché le geometrie di memoria basate su DRAM continuano a ridursi, fornendo ai clienti le maggiori prestazioni richieste, si prevede un numero crescente di errori correggibili come parte naturale del dimensionamento uniforme.

原因

Nel settore dei server a livello globale, è opinione sempre più diffusa, condivisa da Dell, che alcuni errori correggibili per ogni DIMM siano inevitabili e non giustifichino di per sé la sostituzione del modulo di memoria o un riavvio immediato per avviare la reinstallazione automatica.

解决方案

Continuando a utilizzare un sistema che segnala errori correggibili senza un riavvio per il self-healing, non aumenta il rischio di riscontrare errori non correggibili che potrebbero causare downtime non pianificati. Altri operatori del settore hanno comunicato pubblicamente che la gestione della memoria non riporta errori correggibili.

In Intel PowerEdge BIOS 2.5.4 di 14a generazione e versioni successive è stata aggiunta un'impostazione del BIOS denominata "Correctable Error Logging" per consentire ai clienti di disattivare la segnalazione di errori correggibili, se lo desiderano, e molti lo hanno fatto. Il BIOS continua a pianificare la reinstallazione automatica per gli eventi di soglia correggibili anche senza registrazione. Questa reinstallazione automatica pianificata avviene automaticamente durante il successivo riavvio del sistema.

A partire da marzo 2022, gli aggiornamenti del BIOS Dell PowerEdge modificano l'impostazione del BIOS "Correctable Error Logging" disabilitata per impostazione predefinita. Questa opzione del BIOS può essere riabilitata per i clienti che desiderano continuare a visualizzare gli eventi di soglia di memoria correggibili. Le versioni del BIOS con questa modifica alle impostazioni del BIOS inclusa sono:

  • Piattaforme Intel 14G - BIOS 2.13.3 o versioni successive
  • Piattaforme AMD 15G - BIOS versioni 2.6.5 o successive
  • Piattaforme Intel 15G - BIOS versione 1.5.5 o successive.

I vantaggi del self-healing dei DIMM DDR4 mediante il riavvio del sistema:

  • Consente la riparazione di un DIMM DDR4 senza rimuoverlo dal sistema; tutti i DIMM DDR4 di origine Dell supportano la funzione di self-healing della memoria.
 
Nota: I server AMD PowerEdge 14G non dispongono di questa funzionalità di reinstallazione automatica.
 
  • Utilizza le righe di riserva disponibili progettate nella DRAM, in cui una riga danneggiata viene sostituita in modo permanente con una sicuramente funzionante mediante fusibile elettrico.
  • La successiva ripetizione del training della memoria ottimizza gli "occhi dei dati" ricalibrando i punti centrali per garantire che il bus di memoria funzioni al massimo livello di integrità del segnale.

Per gli eventi di soglia correggibili con l'impostazione del BIOS "Correctable Error Logging" abilitata, se si verificano eventi di soglia della memoria, Dell Technologies consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente per consentire la reinstallazione automatica o la correzione automatica della memoria pianificata. Dopo il riavvio, verranno registrati eventi di reinstallazione automatica riusciti o non riusciti per i DIMM associati.

Con l'impostazione Disfigurata del BIOS "Correctable Error Logging", Dell Technologies consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente. Al riavvio, vengono eseguite automaticamente tutte le operazioni di reinstallazione automatica pianificate. Se l'operazione di reinstallazione automatica o di correzione automatica, il sistema registra un evento (eventi di tipo MEM0805 o MEM7114) e consiglia inoltre di sostituire fisicamente il modulo DIMM interessato.

Raccomandazione:
Dell Memory Engineering consiglia ai clienti di server PowerEdge su versioni del BIOS precedenti (prima delle versioni del blocco di marzo 2022) di modificare l'impostazione del BIOS "Correctable Error Logging" su Disabled. In questo modo si eliminano sporadici eventi di soglia di memoria correggibili (ad esempio eventi di tipo MEM0802 o MEM5104) nell'infrastruttura server che consigliano il riavvio del server per consentire la reinstallazione automatica o l'autocorrezione. Come accennato in precedenza, tutte le operazioni di reinstallazione o correzione automatica pianificate vengono eseguite automaticamente al riavvio del server e vengono segnalati eventuali errori.

L'impostazione del BIOS "Correctable Error Logging" può essere modificata riavviando il server con le impostazioni F2 o utilizzando l'interfaccia utente web di iDRAC.

Per modificare l'impostazione del BIOS da F2 System Settings:

  • Riavviare i server arrestandosi alle impostazioni F2
  • Nella selezione BIOS Settings>Memory Settings modificare Correctable Error Logging su Disabled.
  • Salvare le impostazioni del BIOS e uscire dalle impostazioni F2

Per modificare le impostazioni del BIOS utilizzando l'interfaccia utente web di iDRAC:

  • Accesso all'interfaccia utente web di iDRAC
  • In Configuration >BIOS Settings, espandere la sezione Memory Settings
  • Modificare l'impostazione Correctable Error Logging su Disabled
  • Cliccare sul pulsante Apply per salvare le impostazioni di memoria
  • Non dimenticare di selezionare il pulsante Applica e riavvia(per riavviare immediatamente) o il pulsante Al prossimo riavvio per applicare le modifiche del BIOS.

Gli articoli e i white paper esistenti relativi alla memoria sono stati aggiornati per riflettere questa modifica consigliata.
 

Nota: I messaggi approvati per i clienti sono allegati come file a questo articolo:Managing Correctable Error Notices Dec 2021 v1.pdf".


Questo articolo viene aggiornato man mano che si rendono disponibili nuove informazioni.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。