Data Domain: scheda di memoria o DIMM con errore o guasto

Summary: Questo documento aiuta a identificare l'errore o il guasto e fornisce un percorso di risoluzione.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

I sistemi Data Domain (DD) monitorano lo stato dell'hardware di memoria del sistema (DIMM). Se vengono rilevati errori correlati a DIMM, viene pubblicata una notifica di avviso appropriata.

Si applica a:
  • Tutti i sistemi Data Domain
  • Tutte le versioni software di Data Domain Operating System (DDOS)
Possibili notifiche di avviso pubblicate da DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

I moduli DIMM installati sui sistemi Data Domain dispongono di un codice ECC (Error Checking Code) che consente di correggere al volo gli errori di memoria correggibili. Se viene superata una soglia di errore, DDOS identifica l'errore e genera un avviso appropriato sul sistema.

Gli errori di memoria non correggibili possono causare un riavvio del sistema e sono considerati un errore della memoria rigida. Il guasto totale di un singolo modulo DIMM o riser di memoria può causare un evento system down e impedire l'abilitazione del file system. Ciò è dovuto al fatto che il processo DDFS (Data Domain File System) riempie la maggior parte della memoria fisica.

NOTA: Altri sintomi o avvisi potrebbero mascherare errori di memoria, ad esempio ERRORE di controllo computer CPU Machine Check Error - Deeper log analysis and troubleshooting may be required.

Resolution

NOTA: Se viene segnalato un errore DIMM sui sistemi basati su Dell PowerEdge, la prima azione da eseguire per il ripristino consiste nel riavviare l'unità DataDomain. Verrà avviata la riparazione del pacchetto POST (PPR) per ripristinare il modulo DIMM.

È necessario fare il possibile per determinare la causa dell'avviso, identificare i DIMM, la CPU o la scheda madre dei componenti interessati e sostituire i componenti in base alle esigenze. 

Se possibile, raccogliere un pacchetto di supporto e creare una Service Request con il fornitore di servizi con contratto. Il seguente video mostra come raccogliere un pacchetto di supporto: Raccolta di un pacchetto di supporto Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

Linee guida per la risoluzione:

  • Per i sistemi basati su Dell PowerEdge, avviare un riavvio del sistema per facilitare la riparazione automatica del pacchetto POST (PPR); per il ripristino del modulo DIMM.
    • I miglioramenti apportati al firmware BIOS consentono a PPR di recuperare gli errori DIMM correggibili e non correggibili (Reference)
  • Confrontare lo stato corrente del sistema con un Auto-Supporto PRECEDENTE il guasto o l'avviso DIMM
  • Comandi DD-CLI (SSH) utili per il controllo della memoria:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Utilizzare DDOS Offline Diagnostics per testare e determinare l'errore. Andare al supporto Dell per accedere alla Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite User Guide
  • Se possibile, adottare metodi di risoluzione dei problemi fisici per eliminare e determinare i componenti difettosi (utilizzando guide e procedure di sostituzione documentate).
  • Ricollocare il modulo DIMM: accertarsi che entrambi i lati siano agganciati correttamente.
  • Sostituirlo con un DIMM funzionante di un altro slot, canale, banco o controller:
  • Se un sistema è inattivo (mancato avvio) a causa di un guasto di memoria/dimm sospetto, provare un'opzione di avvio minima (rimuovere periferiche o schede e lasciare un DIMM nello slot '0')

Additional Information

Riferimenti:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.