Server PowerEdge 14G Intel e 15G: Gestione degli eventi di soglia di errore correggibili
摘要: Questo articolo fornisce suggerimenti aggiornati per la gestione degli eventi di soglia di errore correggibili (MEM0802 o MEM5104) su RDIMM o LRDIMM DDR4 installati nei server PowerEdge 14G e 15G basati su Intel e nei server PowerEdge 15G basati su AMD. ...
症状
Attraverso l'evoluzione delle caratteristiche RAS (affidabilità, accessibilità e facilità di manutenzione) nelle memorie di livello enterprise, Dell ha adottato un approccio conservativo nel fornire trasparenza ai clienti. Con il proseguimento di questa evoluzione, aumenta anche l'approccio di Dell alla segnalazione degli errori, che consente di concentrarsi sulle notifiche che richiedono una risposta più urgente rispetto alle notifiche di natura principalmente informativa.
Poiché le geometrie di memoria basate su DRAM continuano a ridursi, fornendo ai clienti le maggiori prestazioni richieste, si prevede un numero crescente di errori correggibili come parte naturale del dimensionamento uniforme.
原因
解决方案
Continuando a utilizzare un sistema che segnala errori correggibili senza un riavvio per il self-healing, non aumenta il rischio di riscontrare errori non correggibili che potrebbero causare downtime non pianificati. Altri operatori del settore hanno comunicato pubblicamente che la gestione della memoria non riporta errori correggibili.
In Intel PowerEdge BIOS 2.5.4 di 14a generazione e versioni successive è stata aggiunta un'impostazione del BIOS denominata "Correctable Error Logging" per consentire ai clienti di disattivare la segnalazione di errori correggibili, se lo desiderano, e molti lo hanno fatto. Il BIOS continua a pianificare la reinstallazione automatica per gli eventi di soglia correggibili anche senza registrazione. Questa reinstallazione automatica pianificata avviene automaticamente durante il successivo riavvio del sistema.
A partire da marzo 2022, gli aggiornamenti del BIOS Dell PowerEdge modificano l'impostazione del BIOS "Correctable Error Logging" disabilitata per impostazione predefinita. Questa opzione del BIOS può essere riabilitata per i clienti che desiderano continuare a visualizzare gli eventi di soglia di memoria correggibili. Le versioni del BIOS con questa modifica alle impostazioni del BIOS inclusa sono:
- Piattaforme Intel 14G - BIOS 2.13.3 o versioni successive
- Piattaforme AMD 15G - BIOS versioni 2.6.5 o successive
- Piattaforme Intel 15G - BIOS versione 1.5.5 o successive.
I vantaggi del self-healing dei DIMM DDR4 mediante il riavvio del sistema:
- Consente la riparazione di un DIMM DDR4 senza rimuoverlo dal sistema; tutti i DIMM DDR4 di origine Dell supportano la funzione di self-healing della memoria.
- Utilizza le righe di riserva disponibili progettate nella DRAM, in cui una riga danneggiata viene sostituita in modo permanente con una sicuramente funzionante mediante fusibile elettrico.
- La successiva ripetizione del training della memoria ottimizza gli "occhi dei dati" ricalibrando i punti centrali per garantire che il bus di memoria funzioni al massimo livello di integrità del segnale.
Per gli eventi di soglia correggibili con l'impostazione del BIOS "Correctable Error Logging" abilitata, se si verificano eventi di soglia della memoria, Dell Technologies consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente per consentire la reinstallazione automatica o la correzione automatica della memoria pianificata. Dopo il riavvio, verranno registrati eventi di reinstallazione automatica riusciti o non riusciti per i DIMM associati.
Con l'impostazione Disfigurata del BIOS "Correctable Error Logging", Dell Technologies consiglia di eseguire il riavvio in base alla normale pianificazione di manutenzione del cliente. Al riavvio, vengono eseguite automaticamente tutte le operazioni di reinstallazione automatica pianificate. Se l'operazione di reinstallazione automatica o di correzione automatica, il sistema registra un evento (eventi di tipo MEM0805 o MEM7114) e consiglia inoltre di sostituire fisicamente il modulo DIMM interessato.
Raccomandazione:
Dell Memory Engineering consiglia ai clienti di server PowerEdge su versioni del BIOS precedenti (prima delle versioni del blocco di marzo 2022) di modificare l'impostazione del BIOS "Correctable Error Logging" su Disabled. In questo modo si eliminano sporadici eventi di soglia di memoria correggibili (ad esempio eventi di tipo MEM0802 o MEM5104) nell'infrastruttura server che consigliano il riavvio del server per consentire la reinstallazione automatica o l'autocorrezione. Come accennato in precedenza, tutte le operazioni di reinstallazione o correzione automatica pianificate vengono eseguite automaticamente al riavvio del server e vengono segnalati eventuali errori.
L'impostazione del BIOS "Correctable Error Logging" può essere modificata riavviando il server con le impostazioni F2 o utilizzando l'interfaccia utente web di iDRAC.
Per modificare l'impostazione del BIOS da F2 System Settings:
-
Riavviare i server arrestandosi alle impostazioni F2
-
Nella selezione BIOS Settings>Memory Settings modificare Correctable Error Logging su Disabled.
-
Salvare le impostazioni del BIOS e uscire dalle impostazioni F2
Per modificare le impostazioni del BIOS utilizzando l'interfaccia utente web di iDRAC:
- Accesso all'interfaccia utente web di iDRAC
- In Configuration >BIOS Settings, espandere la sezione Memory Settings
- Modificare l'impostazione Correctable Error Logging su Disabled
- Cliccare sul pulsante Apply per salvare le impostazioni di memoria
- Non dimenticare di selezionare il pulsante Applica e riavvia(per riavviare immediatamente) o il pulsante Al prossimo riavvio per applicare le modifiche del BIOS.
Gli articoli e i white paper esistenti relativi alla memoria sono stati aggiornati per riflettere questa modifica consigliata.
Managing Correctable Error Notices Dec 2021 v1.pdf".
Questo articolo viene aggiornato man mano che si rendono disponibili nuove informazioni.