Kroki potwierdzania i rozwiązywania problemów z błędami DIMM na serwerze Cisco serii C

Summary: Kroki potwierdzania i rozwiązywania problemów z błędami DIMM na serwerze Cisco serii C

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Usuwanie błędów DIMM na serwerze VxBlock UCS z serii C

Fakty

  • Serwery Cisco C-Series montowane w szafie serwerowej (mogą, ale nie muszą być zarządzane przez UCSM)

Objawy
  •  W CIMC lub UCSM pojawią się alerty, takie jak:

F0184
F0185
F0137
F1236
F1237

  • PSOD — fioletowy ekran śmierci (na KVM lub konsoli hosta)

Rozwiązanie

Zbiór dzienników
 
Przechwyć dzienniki z serwera, którego dotyczy problem, PRZED wykonaniem jakichkolwiek czynności rozwiązywania problemów. Potrzebujemy punktu odniesienia, aby określić skuteczność kroków rozwiązywania problemów.

Serwery stelażowe z serii C mogą być autonomiczne lub zarządzane przez UCSM.  Kroki zbierania i przeglądania dzienników będą się nieco różnić w zależności od tego, który to jest.
  • Autonomiczny.
  • Zarządzane przez UCSM — w polu Opcje wybierz opcję "Rack Mount" zamiast "chassis" lub "ucsm".
  • Jeśli masz tylko dzienniki CIMC, możesz stwierdzić, że pochodzą one z serwera zarządzanego przez UCSM, ponieważ nazwa pliku będzie zawierać CIMCXXX.  Pliki dziennika będą również znajdować się w skompresowanym katalogu o nazwie Server XX, a nie bezpośrednio w głównym spakowanym katalogu.  Jeśli tak się stanie, wymagane będą również dzienniki UCSM.
Jeśli na serwerze wystąpił PSOD, zrób zrzut ekranu PSOD, a także zbierz dzienniki vSphere/hosta.

Analiza dzienników

  Główne różnice między dziennikami to:
  • Dodatkowe informacje są dostępne w pliku UCSM sam_techsupport dla serwerów zarządzanych przez UCSM
  • Lokalizacja katalogów. (patrz uwaga w sekcji Kolekcja dzienników)
Przydatne lokalizacje dzienników w dziennikach UCSM i CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (potwierdź numer seryjny serwera, zlokalizuj PID). Example:
Serwer 1:
     Modelu: UCSC-C220-M4S
     Potwierdzony numer seryjny (SN): FCHXXXXXXXXXX
     Potwierdzona nazwa produktu: Cisco UCS C220 M4S
     Potwierdzony identyfikator PID: UCSC-C220-M4S
  • 'show fault detail' (lokalizowanie skojarzonych usterek) — przykład:
Severity: Głównych
Kod: F0844
Czas ostatniego przejścia: 2017-05-23T12:40:40.774
Opis: DIMM DIMM_B2 na serwerze 24 operaState: wyłączone
  • "show server memory detail" (zlokalizuj DIMM PID, którego dotyczy problem) – przykład:
Lokalizacja: DIMM_A1
Nazwa produktu: 16GB DDR4-2400-MHz RDIMM / PC4-19200 / jednobankowa / x4 / 1,2v
PID: UCS-MR-xxxxxxxx-A
Uwaga – większość tych informacji jest dostępna w sam_techsupport dla serwerów

zarządzanych przez UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Obszar informacyjny obudowy
Znajdź numer seryjny serwera wymieniony jako "Numer seryjny obudowy". Przykład: 
====================[ Obszar informacji o obudowie ]======================
            Numer części obudowy: [74-XXXXX-02]
            Numer seryjny obudowy: [FCHXXXXXXXXX]
 
  • Obszar tablicy
Znajdź numer PID i numer seryjny płyty głównej. Przykład: 
========================[ Obszar tablicy ]=========================
            Nazwa produktu płyty: [UCSC-C240-Mxxxx]
            Numer seryjny płyty: [FCHXXXXXXXX]
 
  • Zrzut tabeli SMBIOS BEGIN    
                Znajdź numer części modułu DIMM w obszarze Urządzenie pamięci\Lokalizator części. Przykład: 
                Uwaga: może to nie być PID Cisco, ale można go skorelować, aby go znaleźć
Urządzenie pamięci
           Lokalizator: DIMM_A1
           Numer części: 36ASxxxxxx-2G3B1
  Sekcja odpytywania wszystkich czujników IPMI:
Błędy możliwe do skorygowania i niekorygowalne:
Nazwa czujnika | Czytanie | Jednostka | Stan | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | błąd | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | błąd | UNR | na | na | na | na | na | 60250.000
DDR4_P2_E3_ECC | 63250.000 | błąd | UNR | na | na | na | na | na | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Przejrzyj dzienniki pod kątem błędów ECC, które można naprawić i których nie można naprawić:
Pamięć DDR4_P2_E2_ECC #0xb0 | odczyt 512 możliwych do naprawienia błędów ECC na procesorze DIMM E2 CPU2 | Potwierdzone
  • Przejrzyj dzienniki pod kątem CATERR_N ... Potwierdzone | Wpisy asertywne, przykład jest następujący:
03/06/2017 20:02:12 | CIMC | CATERR_N #0x70 procesora | Przewidywana awaria potwierdzona | Potwierdzone
  Uwaga: oczekuje się, że zachowanie spowoduje wycofanie CATERR_N | Asercja w dziennikach podczas rozruchu [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Znajdź liczbę możliwych do skorygowania/nienaprawialnych błędów dla modułów DIMM, których dotyczy problem, i skopiuj odpowiednie pola, przykład jest następujący:
================== PODSUMOWANIE BŁĘDÓW MODUŁÓW DIMM ===================
------- modułów DIMM E2 ----------
  AKTUALNA LICZBA BŁĘDÓW GNIAZDA:
      Możliwe do skorygowania błędy ECC od ostatniego uruchomienia serwera: 0
      Łączna liczba korygowalnych błędów ECC: 2560
      Nienaprawialne błędy ECC od ostatniego uruchomienia serwera: 0
      Łączna liczba niekorygowalnych błędów ECC: 3
   LICZBA BŁĘDÓW POPRZEDNIEGO GNIAZDA:
      Liczba błędów ECC z możliwością korekty: 0
      Liczba nienaprawialnych błędów ECC: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Graj po grze z sel entry'ami i faultami
eventLogMaxEntries: 1445
eventLogList: 
---
Identyfikator: 1440
Ważności: Krytyczne
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Opis: "Zdarzenie oprogramowania systemowego: Czujnik słupa, gniazdo DIMM 3, kanał E, gniazdo procesora 2. Wyłączono z powodu awarii innej pamięci w tym samym kanale. [0xE542] został potwierdzony"

W przypadku serwerów autonomicznych:
  • tmp\tech_support.frupids
====== Dumping IPMI FRU Records ======
Nazwa produktu: UCSC-C220-xxx
Numer części produktu: 74-XXXX-01
Wersja produktu: A
 Numer seryjny produktu: FCHxxxxxxxN — numer seryjny serwera

====== Dumping PID katalogu zapasów ======
DIMMList: 
Name: DIMM_A1Description: 8 GB pamięci RDIMM DDR3-1333 MHz / PC3-10600 / dwubankowa / 1,35 V
PID: UCS-MR-1X082RX-A — DIMM PID


Analiza końcowa
Po przeprowadzeniu analizy upewnij się, że zgłoszenie serwisowe zostało zaktualizowane przy użyciu prawidłowego numeru seryjnego serwera, którego dotyczy problem, a baza danych została przeszukana pod kątem poprzednich RMA powiązanych z badanym serwerem kasetowym.  Jeśli moduł DIMM wykazujący usterki został niedawno wymieniony, podejrzany może być problem z płytą główną.

Dodaj swoją analizę do zgłoszenia serwisowego.

Rozwiązywanie problemów
 
logicznychPo zidentyfikowaniu błędów spróbujemy usunąć je wszystkie i będziemy monitorować liczniki i kartę usterek w UCSM, aby sprawdzić, czy nadal występują.
Zaloguj się do wiersza polecenia serwera.

Wyczyść liczniki błędów pamięci
Obudowa zakresu serwera#
Server /chassis # reset-ecc
Wyczyść systemowe dzienniki zdarzeń za pomocą poniższych poleceń:
Server# scope sel
Serwer /sel # clear 
Ta operacja spowoduje wyczyszczenie całego sel.
Kontynuować? [y|N]y

 Zresetuj dziennik CIMC przy użyciu poniższych poleceń:
Zakres# serwera# cimc
Serwer /cimc # dziennik zakresu
Serwer /cimc/log # wyczyść

Monitoruj środowisko przez 48 godzin.
Jeśli błędy nie ustąpią, przechwyć nowy zestaw dzienników UCS i obudowy, potwierdź analizę, sformułuj plan działania na podstawie dowodów i przejdź do następnej sekcji.

Spowodować
  • Błędy modułu DIMM są zwykle spowodowane wadliwym modułem DIMM, a czasami złą płytą główną.

Uwagi
  • None

Additional Information

Zapoznaj się z tym filmem:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.