Кроки щодо підтвердження та усунення помилок DIMM на сервері Cisco C-Series
Summary: Кроки щодо підтвердження та усунення помилок DIMM на сервері Cisco C-Series
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Як видалити помилки DIMM на сервері VxBlock UCS серії C
Факти
- Сервери Cisco C-серії для монтажу в стійку (можуть управлятися або не управлятися UCSM)
Симптоми
- Сповіщення з'являтимуться в CIMC або UCSM, наприклад:
Ф0184
Ф0185
Ф0137
Ф1236
Ф1237
- PSOD – Фіолетовий екран смерті (на KVM або консолі хоста)
Рішення
Збір
журналівЗчитуйте журнали з ураженого сервера ДО того, як буде виконано усунення будь-яких несправностей. Нам потрібен базовий рівень, щоб визначити успішність кроків з усунення несправностей.
Стійкові сервери серії C можуть бути як автономними, так і управлятися UCSM. Кроки для збору та перегляду журналів будуть дещо відрізнятися залежно від того, що це таке.
- Автономний.
- Керовано UCSM - Виберіть "Rack Mount" замість "chassis" або "ucsm" у полі Options
- Якщо у вас є лише журнали CIMC, ви можете визначити, що вони надходять із сервера, керованого UCSM, оскільки ім'я файлу міститиме CIMCXXX. Файли журналу також будуть знаходитися в заархівованому каталозі під назвою Server XX, а не безпосередньо в головному архівному каталозі. Якщо ви бачите це, вам також знадобляться журнали UCSM.
Аналіз
журналів Основними відмінностями колод є
- Додаткова інформація доступна у файлі UCSM sam_techsupport для керованих серверів UCSM
- Розташування каталогів. (див. примітку в розділі «Збір журналів»)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'show servery inventory expand' (підтвердити серійний номер сервера, знайти PID). Приклад:
Сервер 1:
Модель: UCSC-C220-M4S
Підтверджений серійний номер (SN): ФХХХХХХХХХХ
Визнана назва продукту: Cisco UCS C220 M4S
Визнаний PID: UCSC-C220-M4S
- 'show fault detail' (знайти пов'язані несправності) - Приклад:
Тяжкості: Основних Код: Ф0844 Час останнього переходу: 2017-05-23T12:40:40.774 Опис: DIMM DIMM_B2 на сервері 24 operaСтан: вимкнено
- 'show server memory detail' (знайти PID DIMM, який зазнав впливу)- Приклад:
Мі́сце: DIMM_A1 Назва продукту: 16 ГБ пам'яті DDR4-2400-МГц RDIMM/PC4-19200/одноранговий/x4/1,2 В ПІД: UCS-MR-xxxxxxxx-AПримітка – більша частина цієї інформації доступна в sam_techsupport для серверів
, керованих UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Інформаційна зона шасі
====================[ Інформаційна зона шасі ]======================
Номер частини шасі: [74-хх-02]
Серійний номер шасі: [FCHXXXXXXXXX]
- Зона правління
========================[ Зона правління ]=========================
Дошка Назва продукту: [UCSC-C240-Mxxxx]
Серійний номер плати: [ФХХХХХХХХ]
- Дамп таблиці SMBIOS BEGIN
Примітка: це може бути не PID Cisco, але його можна співвіднести, щоб знайти його
Пристрій пам'яті
Локатор: DIMM_A1
Номер деталі: 36ASxxxxxx-2G3B1 Запит до розділу «Усі датчики IPMI»:
Помилки, які можна виправити, і помилки, які неможливо виправити: Ім'я датчика | Читання | Одиниця виміру | Статус | ЛНР | ЛК | ЛНК | УНЦ | UC | УНР DDR4_P2_E1_ECC | 63250.000 | помилка | УНР | на | на | на | на | на | 60250.000 DDR4_P2_E2_ECC | 63750.000 | помилка | УНР | на | на | на | на | на | 60250.000 DDR4_P2_E3_ECC | 63250.000 | помилка | УНР | на | на | на | на | на | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Перегляньте журнали на наявність будь-яких помилок ECC, які можна виправити та не можна виправити:
Пам'ять DDR4_P2_E2_ECC #0xb0 | читання 512 виправлених помилок ECC на процесорі CPU2 DIMM E2 | Стверджував
- Перегляньте журнали для будь-якого CATERR_N ... Затверджено | Стверджувані записи, приклад такий:
06.03.2017 20:02:12 | CIMC | Процесор CATERR_N #0x70 | Заявлена прогностична невдача | СтверджувавПримітка: очікується, що поведінка CATERR_N буде скасовано | Затверджується в журналах під час завантаження [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Знайдіть кількість помилок, які можна виправити/не можна виправити, для відповідних модулів модуля (модулів) і скопіюйте відповідні поля (приклад:
================== ПІДСУМОК ПОМИЛОК DIMM =================== ------- модуль DIMM E2 ---------- КІЛЬКІСТЬ ПОТОЧНИХ ПОМИЛОК СЛОТА: Помилки ECC, які можна виправити з моменту останнього завантаження сервера: 0 Кумулятивна кількість помилок ECC, що виправляється: 2560 Помилки ECC, які неможливо виправити після останнього завантаження сервера: 0 Кумулятивна кількість помилок ECC, що не підлягає корекції: 3 КІЛЬКІСТЬ ПОМИЛОК ПОПЕРЕДНЬОГО СЛОТА: Кількість помилок ECC, що виправляється: 0 Кількість помилок ECC, які неможливо виправити: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Гра за грою входів і помилок
eventLogMaxEntries: 1445 eventLogList: --- Ідентифікатор: 1440 Тяжкості: Критичний dateTime: 2017-03-10 00:57:17 dateTimeOrder: 00005 опис: "Подія "Системне програмне забезпечення": Пост-датчик, роз'єм DIMM 3, канал E, процесорний роз'єм 2. вимкнено через збій іншої пам'яті в тому ж каналі. [0xE542] стверджувалося»
Для автономних серверів:
- tmp\tech_support.frupids
====== Скидання записів IPMI FRU ====== Назва продукту: UCSC-C220-xxx Номер деталі продукту: 74-хххх-01 Версія продукту: A Серійний номер продукту: FCHxxxxxxxN – серійний номер сервера ====== Каталог демпінгових запасів PIDs ====== DIMMList: Ім'я: DIMM_A1Description: 8 ГБ DDR3-1333-МГц RDIMM/PC3-10600/подвійний ранг/1,35 В ПІД: UCS-MR-1X082RX-A – DIMM PID
Пост-аналіз
Після виконання аналізу переконайтеся, що запит на обслуговування оновлено правильним серійним номером ураженого сервера, а в базі даних виконується пошук будь-яких попередніх RMA, пов'язаних із досліджуваним блейдом. Якщо модуль DIMM, що показує несправності, був замінений нещодавно, материнська плата може бути під підозрою.
Додайте свій аналіз до запиту на обслуговування.
Логічне усунення
несправностейПісля того, як помилки будуть виявлені, ми спробуємо очистити їх усі та відстежити лічильники та вкладку «Несправності» в UCSM, щоб побачити, чи зберігаються вони.
Увійдіть в командний рядок Server.
Очистити лічильники помилок пам'яті
server# сфера застосування шасі сервер /шасі # reset-eccОчистити системні події Журнали команд нижче:
Server# scope sel Server /sel # clear Ця операція очистить все село. Продовжити? [y|Н]й
Скиньте журнал CIMC за допомогою наведених нижче команд:
Server# scope cimc Server /cimc # журнал області видимості Server /cimc/log # clear
Слідкуйте за навколишнім середовищем протягом 48 годин.
Якщо помилки не зникають, зафіксуйте свіжий набір журналів UCS і шасі, підтвердьте аналіз, сформулюйте план дій на основі доказів і перейдіть до наступного розділу.
Причиною
- Помилки модуля DIMM зазвичай виникають через несправний модуль DIMM, а іноді й через несправність материнської плати
Нотатки
- Ніхто
Additional Information
Будь ласка, перегляньте це відео:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.