Data Domain: Minnekort eller DIMM med feil eller feil
Summary: Dette dokumentet hjelper deg med å identifisere feilen eller feilen og gi en løsningsbane.
Symptoms
Gjelder:
- Alle Data Domain-systemer
- Alle programvareversjoner av Data Domain Operating System (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
DIMM-ene som er installert på Data Domain-systemer, har ECC (Error Checking Code) som gjør det mulig å rette opp korrigerbare minnefeil underveis. Hvis en feilterskel brytes, identifiserer DDOS feilen, og et passende varsel genereres på systemet.
Minnefeil som ikke kan rettes opp, kan føre til at systemet startes på nytt, og regnes som en harddiskfeil. Hvis en total svikt i en enkelt DIMM eller Memory Riser kan det føre til en System Down-hendelse og hindre at filsystemet aktiveres. Dette skyldes at DDFS-prosessen (Data Domain File System) fyller mesteparten av det fysiske minnet.
Resolution
MERK: Hvis det rapporteres en DIMM-feil på Dell PowerEdge-baserte systemer, er den første gjenopprettingen å starte DataDomain-enheten på nytt. Dette vil starte PPR (POST Package Repair) for å gjenopprette DIMM.
Det må gjøres en innsats for å finne årsaken til varselet og identifisere de berørte DIMM-komponentene, CPU-en eller hovedkortet, og skifte ut deler etter behov.
Hvis det er mulig, samler du inn en støttepakke og oppretter en serviceforespørsel hos den avtalte tjenesteleverandøren. Følgende video viser hvordan du samler en støttepakke: Samle en støttepakke
Retningslinjer for oppløsning:
- For Dell PowerEdge-baserte systemer må du starte en omstart av systemet for å legge til rette for automatisk POST-Package Repair (PPR). for gjenvinning av DIMM.
- Forbedringer i BIOS-fastvaren gjør det mulig for PPR å gjenopprette korrigerbare og ikke-korrigerbare feil (referanse)
- Sammenlign gjeldende systemtilstand med automatisk støtte fra FØR DIMM-feilen eller -varselet
- Nyttige DD-CLI (SSH)-kommandoer for å sjekke minnet:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Bruk frakoblet DDOS-diagnostikk til å teste og fastslå feil. Gå til Dell Support for å få tilgang til brukerveiledningen for Dell EMC Data Domain Operating System 6.x Offline Diagnostics Suite
- Hvis mulig, utfør fysiske feilsøkingsmetoder for å eliminere og fastslå defekte komponenter (ved hjelp av dokumenterte veiledninger og prosedyrer for utskifting).
- Sett på plass DIMM-en – kontroller at begge sider er ordentlig låst.
- Bytt den ut med en DIMM som fungerer, fra et annet spor, en annen kanal, bank eller kontroller:
- Hvis et system er nede (ingen oppstart) på grunn av en mistenkt minne-/DIMM-feil, kan du prøve et minimalt oppstartsalternativ (fjern eksterne enheter eller kort, og la 1x DIMM være i spor '0')
Additional Information
- Se kunnskapsartikkel 130388: PowerProtect- og Data Domain-maskinvaredokumenter for relevant informasjon om DIMM-konfigurasjon og -oppsett.
- Se relatert kunnskapsartikkel 82030: Data Domain: Systemminnekrav og utvidede lagringskonfigurasjoner