Data Domain: Awaria karty pamięci lub modułu DIMM
Summary: Niniejszy dokument pomaga w identyfikacji błędu lub usterki oraz zapewnia sposób rozwiązania problemu.
Symptoms
Dotyczy:
- Wszystkie systemy Data Domain
- Wszystkie wersje oprogramowania systemu operacyjnego Data Domain (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Moduły DIMM zainstalowane w systemach Data Domain mają funkcję korekcji błędów (ECC), która umożliwia naprawianie usuwalnych błędów pamięci w trakcie pracy. W przypadku przekroczenia progu błędu DDOS identyfikuje usterkę, a w systemie generowany jest odpowiedni alert.
Nieusuwalne błędy pamięci mogą spowodować ponowne uruchomienie systemu i są uważane za awarię pamięci twardej. Całkowita awaria pojedynczego modułu DIMM lub karty rozszerzeń pamięci może spowodować awarię systemu i uniemożliwić włączenie systemu plików. Dzieje się tak, ponieważ proces Data Domain File System (DDFS) wypełnia większość pamięci fizycznej.
Resolution
UWAGA: W przypadku zgłoszenia błędu modułu DIMM w systemach Dell PowerEdge pierwszą czynnością do odzyskania jest ponowne uruchomienie jednostki DataDomain. Spowoduje to zainicjowanie testu PPR (POST Package Repair) w celu odzyskania modułu DIMM.
Należy podjąć działania w celu ustalenia przyczyny alertu i zidentyfikowania wadliwych podzespołów — DIMM, procesora lub płyty głównej — oraz, w razie potrzeby, wymiany części.
Jeśli to możliwe, zbierz pakiet pomocy technicznej i utwórz zgłoszenie serwisowe u zakontraktowanego usługodawcy. Poniższy film pokazuje, w jaki sposób zebrać pakiet pomocy technicznej: Zbieranie pakietu pomocy technicznej
Wytyczne dotyczące rozwiązania problemu:
- W przypadku systemów Dell PowerEdge zainicjowanie ponownego uruchomienia systemu w celu ułatwienia automatycznej naprawy po zakończeniu pakietu (PPR). do odzyskiwania modułu DIMM.
- Ulepszenia w oprogramowaniu wewnętrznym systemu BIOS umożliwiają PPR odzyskiwanie korygowalnych i niekorygowalnych błędów DIMM (odniesienie)
- Porównaj bieżący stan systemu z automatyczną obsługą PRZED awarią lub alertem DIMM.
- Przydatne polecenia DD-CLI (SSH) do sprawdzania pamięci:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Użyj narzędzia DDOS Offline Diagnostics, aby przetestować i określić błąd. Przejdź do działu pomocy technicznej firmy Dell, aby uzyskać dostęp do podręcznika użytkownika pakietu Dell EMC Data Domain Operating System 6.x Offline Diagnostics
- Jeśli to możliwe, należy wykonać fizyczne metody rozwiązywania problemów w celu wyeliminowania i określenia wadliwego elementu (przy użyciu udokumentowanych przewodników i procedur wymiany).
- Wyjmij i włóż ponownie moduł DIMM — upewnij się, że obie strony modułu zostały prawidłowo osadzone.
- Wymień na inny, sprawny moduł DIMM z innego gniazda, kanału, banku lub kontrolera:
- Jeśli system nie działa (brak rozruchu) z powodu podejrzewanej awarii pamięci / modułu DIMM, spróbuj uruchomić system w minimalnej konfiguracji (usuń urządzenia peryferyjne, karty rozszerzeń i pozostaw jeden moduł DIMM w gnieździe 0).
Additional Information
- Zapoznaj się z artykułem bazy wiedzy nr 130388: Dokumentacja sprzętowa PowerProtect i Data Domain w celu uzyskania istotnych informacji na temat konfiguracji i układu modułów DIMM.
- Zapoznaj się z artykułem nr 82030: Data Domain: Wymagania dotyczące pamięci systemowej i rozszerzone konfiguracje pamięci masowej