Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy różnych modułów pamięci
Summary:Wymiana modułów pamięci DIMM w celu rozwiązywania problemów z pamięcią w serwerach Dell Technologies PowerEdge.
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy różnych modułów pamięci
W przypadku zgłoszenia błędu jednobitowego (SBE) i/lub błędu wielobitowego (MBE) w jednej lub większej liczbie lokalizacji modułów pamięci DIMM przyczyna może nie leżeć po stronie samego modułu DIMM. Należy więc przeprowadzić proste rozwiązywanie problemów, aby dokładnie określić, gdzie dokładnie leży usterka. Przykład błędów pamięci pojawiających się w interfejsie kontrolera iDRAC serwera R715 przedstawiono na rys. 1 .
Rysunek 1: Błędy pamięci wyświetlane w dziennikach kontrolera iDRAC 6 (Tylko w języku angielskim)
Izolowanie problemów z pamięcią oznacza wymianę modułów pamięci DIMM na różne gniazda, kanały, banki i kontrolery. Istnieje kilka sposobów wymiany modułów DIMM w celu określenia usterki. Konieczne może być zastosowanie więcej niż jednej z tych metod w celu zidentyfikowania uszkodzonego modułu DIMM lub gniazda. Poniżej znajduje się prezentacja tych metod. Aby uprościć wyjaśnienie, zakładamy, że wadliwy moduł DIMM to A1 lub jeden z zestawów oznaczonych kolorem niebieskim na ilustracjach.
Wymiana modułów DIMM w grupach (według kanału lub banku), a nie pojedynczo to najlepsza metoda identyfikacji uszkodzonych modułów DIMM. Po zidentyfikowaniu grupy modułów DIMM, które zawierają uszkodzone moduły DIMM, można użyć pojedynczych modułów DIMM do zidentyfikowania, które moduły DIMM uległy awarii.
Metoda 1:
Zamiana modułu DIMM A1 (oznaczony na niebiesko) z modułem DIMM A9 (oznaczony na czerwono) w celu wypróbowania modułu DIMM w innym kanale pamięci i banku
Rysunek 2: Zamiana modułu DIMM A1 na DIMM A9
Metoda 2:
Zamiana modułu DIMM A1 (oznaczonego kolorem niebieskim) na moduł DIMM B1 (zaznaczonego na czerwono) powoduje umieszczenie modułu DIMM na zupełnie innym kontrolerze pamięci (CPU).
Rysunek 3: Zamiana modułu DIMM A1 na DIMM B1
Metoda 3:
Zamiana całego banku modułów DIMM (A1, A2, A3 — oznaczonych na niebiesko) na inny bank (B1, B2, B3 — oznaczonych na czerwono) spowoduje przetestowanie całego banku modułów DIMM w nowym banku na nowym kontrolerze pamięci.
Zamiana całego kanału modułów DIMM (A1, A4, A7 — oznaczonych na niebiesko) na inny kanał (B1, B2, B3 — oznaczony na czerwono) Przetestuj cały kanał modułów DIMM w nowym kanale i na nowym kontrolerze pamięci.
Ogólnie rzecz biorąc, błędy modułów DIMM są zwykle powiązane z modułami DIMM określonymi w błędach. Na przykład w przypadku zgłaszania SBE modułu DIMM A1 zamiana tego modułu DIMM na inny moduł DIMM powoduje jeden z następujących rezultatów:
Komunikat o błędzie nie jest już zgłaszany, a problem został rozwiązany
Oznacza to, że ponowne osadzenie modułów pamięci rozwiązało problem
Komunikat o błędzie jest powiązany z modułem DIMM (moduł DIMM A1 zostały zamieniony na moduł DIMM B1, a komunikaty o błędach są teraz zgłaszane w odniesieniu do modułu DIMM B1)
Oznacza to, że moduł DIMM najprawdopodobniej nie działa i wymaga wymiany.
Komunikat o błędzie jest zgodny z gniazdem DIMM (moduł DIMM A1 został zamieniony na DIMM B1, a komunikaty o błędach są nadal zgłaszane w odniesieniu do modułu DIMM A1)
Najprawdopodobniej oznacza to awarię płyty głównej lub procesora.
Wymiana procesora potwierdza, który element wymaga wymiany.
Jeśli problem jest związany z procesorem (komunikat o błędzie zostaje przeniesiony po wymianie procesora), wymień procesor
Jeśli problem nadal występuje w gnieździe DIMM, należy wymienić płytę główną.
Komunikat o błędzie nie zostaje przeniesiony po wymianie modułu DIMM lub gniazda (błąd jest zgłaszany w odniesieniu do innego modułu DIMM po zamianie)
Oznacza to, że inne moduły DIMM są najprawdopodobniej uszkodzone.
UWAGA: Zalecamy również aktualizowanie poziomów oprogramowania wewnętrznego, ponieważ może to zmniejszyć ryzyko wystąpienia błędów pamięci i wydłużyć żywotność modułów DIMM.
Więcej informacji można uzyskać w artykule bazy wiedzy firmy Dell Dell Repository Manager (DRM).