Кроки щодо підтвердження та усунення помилок DIMM на сервері Cisco C-Series

Summary: Кроки щодо підтвердження та усунення помилок DIMM на сервері Cisco C-Series

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Як видалити помилки DIMM на сервері VxBlock UCS серії C

Факти

  • Сервери Cisco C-серії для монтажу в стійку (можуть управлятися або не управлятися UCSM)

Симптоми
  •  Сповіщення з'являтимуться в CIMC або UCSM, наприклад:

Ф0184
Ф0185
Ф0137
Ф1236
Ф1237

  • PSOD – Фіолетовий екран смерті (на KVM або консолі хоста)

Рішення

Збір
 
журналівЗчитуйте журнали з ураженого сервера ДО того, як буде виконано усунення будь-яких несправностей. Нам потрібен базовий рівень, щоб визначити успішність кроків з усунення несправностей.

Стійкові сервери серії C можуть бути як автономними, так і управлятися UCSM.  Кроки для збору та перегляду журналів будуть дещо відрізнятися залежно від того, що це таке.
  • Автономний.
  • Керовано UCSM - Виберіть "Rack Mount" замість "chassis" або "ucsm" у полі Options
  • Якщо у вас є лише журнали CIMC, ви можете визначити, що вони надходять із сервера, керованого UCSM, оскільки ім'я файлу міститиме CIMCXXX.  Файли журналу також будуть знаходитися в заархівованому каталозі під назвою Server XX, а не безпосередньо в головному архівному каталозі.  Якщо ви бачите це, вам також знадобляться журнали UCSM.
Якщо на сервері з'явився PSOD, зробіть скріншот PSOD, а також зберіть журнали vSphere/хоста.

Аналіз

журналів  Основними відмінностями колод є
  • Додаткова інформація доступна у файлі UCSM sam_techsupport для керованих серверів UCSM
  • Розташування каталогів. (див. примітку в розділі «Збір журналів»)
Корисні розташування журналів у журналах UCSM та CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show servery inventory expand' (підтвердити серійний номер сервера, знайти PID). Приклад:
Сервер 1:
     Модель: UCSC-C220-M4S
     Підтверджений серійний номер (SN): ФХХХХХХХХХХ
     Визнана назва продукту: Cisco UCS C220 M4S
     Визнаний PID: UCSC-C220-M4S
  • 'show fault detail' (знайти пов'язані несправності) - Приклад:
Тяжкості: Основних
Код: Ф0844
Час останнього переходу: 2017-05-23T12:40:40.774
Опис: DIMM DIMM_B2 на сервері 24 operaСтан: вимкнено
  • 'show server memory detail' (знайти PID DIMM, який зазнав впливу)- Приклад:
Мі́сце: DIMM_A1
Назва продукту: 16 ГБ пам'яті DDR4-2400-МГц RDIMM/PC4-19200/одноранговий/x4/1,2 В
ПІД: UCS-MR-xxxxxxxx-A
Примітка – більша частина цієї інформації доступна в sam_techsupport для серверів

, керованих UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Інформаційна зона шасі
Знайдіть серійний номер сервера, вказаний як «Серійний номер шасі». Приклад такий: 
====================[ Інформаційна зона шасі ]======================
            Номер частини шасі: [74-хх-02]
            Серійний номер шасі: [FCHXXXXXXXXX]
 
  • Зона правління
Знайдіть PID материнської плати та серійний номер. Приклад такий: 
========================[ Зона правління ]=========================
            Дошка Назва продукту: [UCSC-C240-Mxxxx]
            Серійний номер плати: [ФХХХХХХХХ]
 
  • Дамп таблиці SMBIOS BEGIN    
                Знайдіть номер деталі DIMM у розділі Пристрій пам'яті\Пошук деталей. Приклад такий: 
                Примітка: це може бути не PID Cisco, але його можна співвіднести, щоб знайти його
Пристрій пам'яті
           Локатор: DIMM_A1
           Номер деталі: 36ASxxxxxx-2G3B1
  Запит до розділу «Усі датчики IPMI»:
Помилки, які можна виправити, і помилки, які неможливо виправити:
Ім'я датчика | Читання | Одиниця виміру | Статус | ЛНР | ЛК | ЛНК | УНЦ | UC | УНР    
DDR4_P2_E1_ECC | 63250.000 | помилка | УНР | на | на | на | на | на | 60250.000 DDR4_P2_E2_ECC | 63750.000 | помилка | УНР | на | на | на | на | на | 60250.000
DDR4_P2_E3_ECC | 63250.000 | помилка | УНР | на | на | на | на | на | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Перегляньте журнали на наявність будь-яких помилок ECC, які можна виправити та не можна виправити:
Пам'ять DDR4_P2_E2_ECC #0xb0 | читання 512 виправлених помилок ECC на процесорі CPU2 DIMM E2 | Стверджував
  • Перегляньте журнали для будь-якого CATERR_N ... Затверджено | Стверджувані записи, приклад такий:
06.03.2017 20:02:12 | CIMC | Процесор CATERR_N #0x70 | Заявлена прогностична невдача | Стверджував
  Примітка: очікується, що поведінка CATERR_N буде скасовано | Затверджується в журналах під час завантаження [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Знайдіть кількість помилок, які можна виправити/не можна виправити, для відповідних модулів модуля (модулів) і скопіюйте відповідні поля (приклад:
================== ПІДСУМОК ПОМИЛОК DIMM ===================
------- модуль DIMM E2 ----------
  КІЛЬКІСТЬ ПОТОЧНИХ ПОМИЛОК СЛОТА:
      Помилки ECC, які можна виправити з моменту останнього завантаження сервера: 0
      Кумулятивна кількість помилок ECC, що виправляється: 2560
      Помилки ECC, які неможливо виправити після останнього завантаження сервера: 0
      Кумулятивна кількість помилок ECC, що не підлягає корекції: 3
   КІЛЬКІСТЬ ПОМИЛОК ПОПЕРЕДНЬОГО СЛОТА:
      Кількість помилок ECC, що виправляється: 0
      Кількість помилок ECC, які неможливо виправити: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Гра за грою входів і помилок
eventLogMaxEntries: 1445
eventLogList: 
---
Ідентифікатор: 1440
Тяжкості: Критичний
dateTime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
опис: "Подія "Системне програмне забезпечення": Пост-датчик, роз'єм DIMM 3, канал E, процесорний роз'єм 2. вимкнено через збій іншої пам'яті в тому ж каналі. [0xE542] стверджувалося»

Для автономних серверів:
  • tmp\tech_support.frupids
====== Скидання записів IPMI FRU ======
Назва продукту: UCSC-C220-xxx
Номер деталі продукту: 74-хххх-01
Версія продукту: A
 Серійний номер продукту: FCHxxxxxxxN – серійний номер сервера

====== Каталог демпінгових запасів PIDs ======
DIMMList: 
Ім'я: DIMM_A1Description: 8 ГБ DDR3-1333-МГц RDIMM/PC3-10600/подвійний ранг/1,35 В
ПІД: UCS-MR-1X082RX-A – DIMM PID


Пост-аналіз
Після виконання аналізу переконайтеся, що запит на обслуговування оновлено правильним серійним номером ураженого сервера, а в базі даних виконується пошук будь-яких попередніх RMA, пов'язаних із досліджуваним блейдом.  Якщо модуль DIMM, що показує несправності, був замінений нещодавно, материнська плата може бути під підозрою.

Додайте свій аналіз до запиту на обслуговування.

Логічне усунення
 
несправностейПісля того, як помилки будуть виявлені, ми спробуємо очистити їх усі та відстежити лічильники та вкладку «Несправності» в UCSM, щоб побачити, чи зберігаються вони.
Увійдіть в командний рядок Server.

Очистити лічильники помилок пам'яті
server# сфера застосування шасі
сервер /шасі # reset-ecc
Очистити системні події Журнали команд нижче:
Server# scope sel
Server /sel # clear 
Ця операція очистить все село.
Продовжити? [y|Н]й

 Скиньте журнал CIMC за допомогою наведених нижче команд:
Server# scope cimc
Server /cimc # журнал області видимості
Server /cimc/log # clear

Слідкуйте за навколишнім середовищем протягом 48 годин.
Якщо помилки не зникають, зафіксуйте свіжий набір журналів UCS і шасі, підтвердьте аналіз, сформулюйте план дій на основі доказів і перейдіть до наступного розділу.

Причиною
  • Помилки модуля DIMM зазвичай виникають через несправний модуль DIMM, а іноді й через несправність материнської плати

Нотатки
  • Ніхто

Additional Information

Будь ласка, перегляньте це відео:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.