Data Domain: Awaria karty pamięci lub modułu DIMM

Summary: Niniejszy dokument pomaga w identyfikacji błędu lub usterki oraz zapewnia sposób rozwiązania problemu.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Systemy Data Domain (DD) monitorują stan sprzętu pamięci systemowej (moduły DIMM). W przypadku napotkania błędów związanych z modułem DIMM zostanie wysłane odpowiednie powiadomienie.

Dotyczy:
  • Wszystkie systemy Data Domain
  • Wszystkie wersje oprogramowania systemu operacyjnego Data Domain (DDOS)
Możliwe powiadomienia wysłane przez DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Moduły DIMM zainstalowane w systemach Data Domain mają funkcję korekcji błędów (ECC), która umożliwia naprawianie usuwalnych błędów pamięci w trakcie pracy. W przypadku przekroczenia progu błędu DDOS identyfikuje usterkę, a w systemie generowany jest odpowiedni alert.

Nieusuwalne błędy pamięci mogą spowodować ponowne uruchomienie systemu i są uważane za awarię pamięci twardej. Całkowita awaria pojedynczego modułu DIMM lub karty rozszerzeń pamięci może spowodować awarię systemu i uniemożliwić włączenie systemu plików. Dzieje się tak, ponieważ proces Data Domain File System (DDFS) wypełnia większość pamięci fizycznej.

UWAGA: inne objawy lub alerty mogą maskować błędy pamięci — na przykład błąd sprawdzania komputera CPU. Wymagana jest dokładniejsza analiza dziennika i podjęcie zaawansowanych czynności rozwiązywania problemów.

Resolution

UWAGA: W przypadku zgłoszenia błędu modułu DIMM w systemach Dell PowerEdge pierwszą czynnością do odzyskania jest ponowne uruchomienie jednostki DataDomain. Spowoduje to zainicjowanie testu PPR (POST Package Repair) w celu odzyskania modułu DIMM.

Należy podjąć działania w celu ustalenia przyczyny alertu i zidentyfikowania wadliwych podzespołów — DIMM, procesora lub płyty głównej — oraz, w razie potrzeby, wymiany części. 

Jeśli to możliwe, zbierz pakiet pomocy technicznej i utwórz zgłoszenie serwisowe u zakontraktowanego usługodawcy. Poniższy film pokazuje, w jaki sposób zebrać pakiet pomocy technicznej: Zbieranie pakietu pomocy technicznej Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Wytyczne dotyczące rozwiązania problemu:

  • W przypadku systemów Dell PowerEdge zainicjowanie ponownego uruchomienia systemu w celu ułatwienia automatycznej naprawy po zakończeniu pakietu (PPR). do odzyskiwania modułu DIMM.
    • Ulepszenia w oprogramowaniu wewnętrznym systemu BIOS umożliwiają PPR odzyskiwanie korygowalnych i niekorygowalnych błędów DIMM (odniesienie)
  • Porównaj bieżący stan systemu z automatyczną obsługą PRZED awarią lub alertem DIMM.
  • Przydatne polecenia DD-CLI (SSH) do sprawdzania pamięci:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Użyj narzędzia DDOS Offline Diagnostics, aby przetestować i określić błąd. Przejdź do działu pomocy technicznej firmy Dell, aby uzyskać dostęp do podręcznika użytkownika pakietu Dell EMC Data Domain Operating System 6.x Offline Diagnostics
  • Jeśli to możliwe, należy wykonać fizyczne metody rozwiązywania problemów w celu wyeliminowania i określenia wadliwego elementu (przy użyciu udokumentowanych przewodników i procedur wymiany).
  • Wyjmij i włóż ponownie moduł DIMM — upewnij się, że obie strony modułu zostały prawidłowo osadzone.
  • Wymień na inny, sprawny moduł DIMM z innego gniazda, kanału, banku lub kontrolera:
  • Jeśli system nie działa (brak rozruchu) z powodu podejrzewanej awarii pamięci / modułu DIMM, spróbuj uruchomić system w minimalnej konfiguracji (usuń urządzenia peryferyjne, karty rozszerzeń i pozostaw jeden moduł DIMM w gnieździe 0).

Additional Information

Referencje:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.