Data Domain: scheda di memoria o DIMM con errore o guasto
Summary: Questo documento aiuta a identificare l'errore o il guasto e fornisce un percorso di risoluzione.
Symptoms
Si applica a:
- Tutti i sistemi Data Domain
- Tutte le versioni software di Data Domain Operating System (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
I moduli DIMM installati sui sistemi Data Domain dispongono di un codice ECC (Error Checking Code) che consente di correggere al volo gli errori di memoria correggibili. Se viene superata una soglia di errore, DDOS identifica l'errore e genera un avviso appropriato sul sistema.
Gli errori di memoria non correggibili possono causare un riavvio del sistema e sono considerati un errore della memoria rigida. Il guasto totale di un singolo modulo DIMM o riser di memoria può causare un evento system down e impedire l'abilitazione del file system. Ciò è dovuto al fatto che il processo DDFS (Data Domain File System) riempie la maggior parte della memoria fisica.
Resolution
NOTA: Se viene segnalato un errore DIMM sui sistemi basati su Dell PowerEdge, la prima azione da eseguire per il ripristino consiste nel riavviare l'unità DataDomain. Verrà avviata la riparazione del pacchetto POST (PPR) per ripristinare il modulo DIMM.
È necessario fare il possibile per determinare la causa dell'avviso, identificare i DIMM, la CPU o la scheda madre dei componenti interessati e sostituire i componenti in base alle esigenze.
Se possibile, raccogliere un pacchetto di supporto e creare una Service Request con il fornitore di servizi con contratto. Il seguente video mostra come raccogliere un pacchetto di supporto: Raccolta di un pacchetto di supporto
Linee guida per la risoluzione:
- Per i sistemi basati su Dell PowerEdge, avviare un riavvio del sistema per facilitare la riparazione automatica del pacchetto POST (PPR); per il ripristino del modulo DIMM.
- I miglioramenti apportati al firmware BIOS consentono a PPR di recuperare gli errori DIMM correggibili e non correggibili (Reference)
- Confrontare lo stato corrente del sistema con un Auto-Supporto PRECEDENTE il guasto o l'avviso DIMM
- Comandi DD-CLI (SSH) utili per il controllo della memoria:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Utilizzare DDOS Offline Diagnostics per testare e determinare l'errore. Andare al supporto Dell per accedere alla Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite User Guide
- Se possibile, adottare metodi di risoluzione dei problemi fisici per eliminare e determinare i componenti difettosi (utilizzando guide e procedure di sostituzione documentate).
- Ricollocare il modulo DIMM: accertarsi che entrambi i lati siano agganciati correttamente.
- Sostituirlo con un DIMM funzionante di un altro slot, canale, banco o controller:
- Se un sistema è inattivo (mancato avvio) a causa di un guasto di memoria/dimm sospetto, provare un'opzione di avvio minima (rimuovere periferiche o schede e lasciare un DIMM nello slot '0')
Additional Information
- Consultare l'articolo della knowledgebase 130388: Documenti hardware PowerProtect e Data Domain per informazioni pertinenti sulla configurazione e il layout dei moduli DIMM.
- Consultare l'articolo della knowledgebase 82030 correlato: Data Domain: requisiti di memoria di sistema e configurazioni di storage espanse