Przejdź do głównej zawartości
  • Szybkie i łatwe składanie zamówień
  • Wyświetlanie zamówień i śledzenie stanu wysyłki
  • Tworzenie i dostęp do listy produktów
  • Na firmowej stronie administracji możesz zarządzać witrynami, produktami i danymi kontaktowymi firmy Dell EMC.

Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy różnych modułów pamięci

Podsumowanie: Wymiana modułów pamięci DIMM w celu rozwiązywania problemów z pamięcią w serwerach Dell Technologies PowerEdge.

Ten artykuł mógł zostać automatycznie przetłumaczony. Jeśli masz uwagi na temat jego jakości, przekaż je nam, korzystając z formularza u dołu tej strony.

Treść artykułu


Objawy

UWAGA: ten artykuł nie dotyczy nowszych komputerów ze skalowalnym procesorem Xeon. W przypadku nowszych systemów zapoznaj się z tym artykułem Co to jest autonaprawa pamięci DDR4 na serwerach Dell PowerEdge ze skalowalnymi procesorami Intel Xeon.

Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy różnych modułów pamięci

W przypadku zgłoszenia błędu jednobitowego (SBE) i/lub błędu wielobitowego (MBE) w jednej lub większej liczbie lokalizacji modułów pamięci DIMM przyczyna może nie leżeć po stronie samego modułu DIMM. Należy więc przeprowadzić proste rozwiązywanie problemów, aby dokładnie określić, gdzie dokładnie leży usterka. Przykład błędów pamięci pojawiających się w interfejsie kontrolera iDRAC serwera R715 przedstawiono na rys. 1 .

Dzienniki kontrolera iDRAC 6
Rysunek 1: Błędy pamięci wyświetlane w dziennikach kontrolera iDRAC 6 (Tylko w języku angielskim)

Izolowanie problemów z pamięcią oznacza wymianę modułów pamięci DIMM na różne gniazda, kanały, banki i kontrolery. Istnieje kilka sposobów wymiany modułów DIMM w celu określenia usterki. Konieczne może być zastosowanie więcej niż jednej z tych metod w celu zidentyfikowania uszkodzonego modułu DIMM lub gniazda. Poniżej znajduje się prezentacja tych metod. Aby uprościć wyjaśnienie, zakładamy, że wadliwy moduł DIMM to A1 lub jeden z zestawów oznaczonych kolorem niebieskim na ilustracjach.

UWAGA: Więcej informacji na temat pamięci systemowej można znaleźć w naszych artykułach dotyczących pamięci.


Wymiana modułów DIMM w grupach (według kanału lub banku), a nie pojedynczo to najlepsza metoda identyfikacji uszkodzonych modułów DIMM.
Po zidentyfikowaniu grupy modułów DIMM, które zawierają uszkodzone moduły DIMM, można użyć pojedynczych modułów DIMM do zidentyfikowania, które moduły DIMM uległy awarii.


Metoda 1:

Zamiana modułu DIMM A1 (oznaczonego na niebiesko) na moduł DIMM A9 (oznaczonego na czerwono) w celu podłączenia modułu DIMM do innego kanału i banku


Moduły DIMM od A1 do A9pamięci Rysunek 2: Zamiana modułu DIMM A1 na DIMM A9
 

Metoda 2:

Zamiana modułu DIMM A1 (oznaczonego kolorem niebieskim) na moduł DIMM B1 (zaznaczonego na czerwono) powoduje umieszczenie modułu DIMM na zupełnie innym kontrolerze pamięci (CPU).

Moduły DIMM od A1 do B1
Rysunek 3: Zamiana modułu DIMM A1 na DIMM B1
 

Metoda 3:

Zamiana całego banku modułów DIMM (A1, A2, A3 — oznaczonych na niebiesko) na inny bank (B1, B2, B3 — oznaczonych na czerwono) spowoduje przetestowanie całego banku modułów DIMM w nowym banku na nowym kontrolerze pamięci.

Od DIMMA 123 do B123
Rysunek 4: Wymiana modułów DIMM A1, A2, A3 na moduły DIMM B1, B2, B3
 

Metoda 4

Zamiana całego kanału modułów DIMM (A1, A4, A7 — oznaczonych na niebiesko) na inny kanał (B1, B2, B3 — oznaczony na czerwono) Przetestuj cały kanał modułów DIMM w nowym kanale i na nowym kontrolerze pamięci.

Moduły DIMM od A147 do B147
Rysunek 5: Wymiana modułów DIMM A1, A4, A7 na moduły DIMM B1, B4, B7
 

Analiza wyników po wymianie modułów DIMM

Ogólnie rzecz biorąc, błędy modułów DIMM są zwykle powiązane z modułami DIMM określonymi w błędach. Na przykład w przypadku zgłaszania SBE modułu DIMM A1 zamiana tego modułu DIMM na inny moduł DIMM powoduje jeden z następujących rezultatów:

  1. Komunikat o błędzie nie jest już zgłaszany, a problem został rozwiązany
  •   Oznacza to, że ponowne osadzenie modułów pamięci rozwiązało problem
  1. Komunikat o błędzie jest powiązany z modułem DIMM (moduł DIMM A1 zostały zamieniony na moduł DIMM B1, a komunikaty o błędach są teraz zgłaszane w odniesieniu do modułu DIMM B1)
  • Oznacza to, że moduł DIMM najprawdopodobniej nie działa i wymaga wymiany.
  1. Komunikat o błędzie jest zgodny z gniazdem DIMM (moduł DIMM A1 został zamieniony na DIMM B1, a komunikaty o błędach są nadal zgłaszane w odniesieniu do modułu DIMM A1)
  • Najprawdopodobniej oznacza to awarię płyty głównej lub procesora.
  • Wymiana procesora potwierdza, który element wymaga wymiany.
  • Jeśli problem jest związany z procesorem (komunikat o błędzie zostaje przeniesiony po wymianie procesora), wymień procesor
  • Jeśli problem nadal występuje w gnieździe DIMM, należy wymienić płytę główną.
  1. Komunikat o błędzie nie zostaje przeniesiony po wymianie modułu DIMM lub gniazda (błąd jest zgłaszany w odniesieniu do innego modułu DIMM po zamianie)
  • Oznacza to, że inne moduły DIMM są najprawdopodobniej uszkodzone.
 
UWAGA: Zalecamy również aktualizowanie poziomów oprogramowania wewnętrznego, ponieważ może to zmniejszyć ryzyko wystąpienia błędów pamięci i wydłużyć żywotność modułów DIMM.
Więcej informacji można uzyskać w artykule bazy wiedzy firmy Dell Dell Repository Manager (DRM).

Przyczyna

Nie dotyczy

Rozwiązanie

Nie dotyczy

Właściwości artykułu


Produkt, którego dotyczy problem

PowerEdge

Data ostatniej publikacji

15 kwi 2024

Wersja

8

Typ artykułu

Solution