Baza wiedzy

Diagnozowanie błędów pamięci w serwerach PowerEdge poprzez przekładanie modułów pamięci (testy krzyżowe)




Wystąpienie błędu single-bit error (SBE) i/lub multi-bit error (MBE) w jednym lub wielu slotach pamięci nie zawsze oznacza uszkodzenie samego modułu pamięci. Koniecznym jest wykonanie prostych testów diagnostycznych, aby określić dokładną przyczynę problemu. Ilustracja 1 (j.ang.) przedstawia przykładowe błędy pamięci raportowane poprzez interfejs iDRACa w serwerze R715.


Ilustracja 1: Błędy pamięci raportowane w logach iDRAC 6

Określenie dokładnej przyczyny błędu pamięci wymaga przekładania modułów pamięci pomiędzy różnymi slotami, kanałami, bankami i kontrolerami. Moduły pamięci można poprzekładać na kilka różnych sposobów. Niekiedy określenie dokładnej przyczyny błędu (slotu lub modułu pamięci) może wymagać wykonania kilku przełożeń. Poniżej znajdują się przykłady różnych metod przekładania modułów pamięci. W tym przykładzie zakładamy, że uszkodzenie jest zgłaszane na module DIMM A1 lub w jednym ze slotów oznaczonych na niebiesko.

Więcej informacji o pamięci w naszych serwerach można znaleźć w tych artykułach.


Przekładanie modułów pamięci grupami (cały kanał lub bannk), zamiast przekładania ich pojedynczo, jest najlepszą metodą na rozpoczęcie identyfikowania uszkodzonego modułu/modułów.
Kiedy uda się określić grupę zawierającą uszkodzony moduł/moduły, można wtedy poprzekładać pojedyncze moduły, aby wskazać konkretną przyczynę problemu.

Archiwum wideo o pamięciach zawiera nagrania pokazujące jak wyjmować i instalować moduły pamięci w różnych serwerach.


Metoda 1:

Zamiana miejscami modułu DIMM A1 (zaznaczony na niebiesko) z modułem DIMM A9 (zaznaczonym na czerwono), której celem jest wypróbowanie modułu pamięci w innym kanale i banku.


Ilustracja 2: Zamiana miejscami modułów DIMM A1 z DIMM A9

Metoda 2:

Zamiana miejscami modułu DIMM A1 (zaznaczony na niebiesko) z modułem DIMM B1 (zaznaczonym na czerwono), której celem jest umieszczenie modułu w slocie przypisanym do innego kontrolera pamięci (CPU).


Ilustracja 3: Zamiana miejscami modułów DIMM A1 z DIMM B1

Metoda 3:

Zamiana miejscami całego banku pamięci (A1, A2, A3 - oznaczony na niebiesko) z innym bankiem (B1, B2, B3 - oznaczonym na czerwono), której celem jest przetestowanie całego banku modułów pamięci w nowym banku, z nowym kontrolerem pamięci (CPU).


Ilustracja 4: Zamiana miejscami modułów DIMM A1, A2, A3 z modułami DIMM B1, B2, B3

Metoda 4:

Zamiana miejscami całego kanału pamięci (A1, A4, A7 - oznaczony na niebiesko) z innym kanałem (B1, B4, B7 - oznaczonym na czerwono), której celem jest przetestowanie całego kanału pamięci w innym kanale pamięci, z nowym kontorlerem pamięci (CPU).


Ilustracja 5: Zamiana miejscami modułów DIMM A1, A4, A7 z modułami DIMM B1, B4, B7

Interpretacja rezultatów przekładania modułów pamięci

Najczęściej błąd podąża za modułem pamięci wskazanym w logach. Np. w przypadku błędu SBE zgłoszonego na module DIMM A1, zamiana miejscami tego modułu z innym modułem może przynieść następujące rezultaty:

  1. Komunikat błędu nie będzie już zgłaszany i problem zostanie rozwiązany
  • Oznacza to, że wyciągnięcie i osadzenie modułu pamięci (tzw. reseat) rozwiązało problem
  1. Komunikat błędu podąża za modułem pamięci (DIMM A1 zamieniono z DIMM B1 i komunikaty błędów są zgłaszane na DIMM B1)
  • To oznacza, że dany moduł jest najprawdopodobniej uszkodzony i wymaga wymiany.
  1. Komunikat błędu jest wciąż zgłaszany w tym samym slocie pamięci (DIMM A1 zamieniono z DIMM B1, a komunikaty błędów są zgłaszane wciąż na DIMM A1)
  • Oznacza to, że płyta główna lub procesor uległy awarii
  • Zamiana procesorów miejscami pozwoli określić, który komponent wymaga wymiany
  • Jeśli problem podąży za procesorem (komunikat błędu zmienia się po zamianie procesorów), to wymienić należy procesor
  • Jeśli problem pozostaje na tym samym slocie pamięci, należy wymienić płytę główną
  1. Komunikat błędu nie podąża za modułem pamięci i nie pozostaje na tym samym slocie pamięci (po zamianie miejscami błąd zgłaszany jest na zupełnie innym module pamięci)
  • Oznacza to, że inny moduł pamięci najprawdopodobniej uległ awarii
Zalecamy regularne aktualizowanie firmware, gdyż zmniejsza to ryzyko wystąpienia błędów pamięci i przedłuża żywotność modułów.

Potrzebujesz pomocy?
Wyszukaj dodatkowe Zasoby produktów

Wejdź na stronę Społeczności i uzyskaj o pomoc

Utwórz i wyślij Wniosek online


Identyfikator artykułu: SLN289424

Data ostatniej modyfikacji: 28.03.2018 13:16


Oceń ten artykuł

Trafne
Przydatne
Łatwe do zrozumienia
Czy ten artykuł był przydatny?
Tak Nie
Wyślij nam swoją opinię
Komentarze nie mogą zawierać znaków specjalnych: <>()\
Niestety, nasz system przekazywania opinii jest obecnie niedostępny. Spróbuj ponownie później.

Dziękujemy za uwagi.