Инструкции по подтверждению и устранению ошибок DIMM на сервере Cisco серии C
Summary: Инструкции по подтверждению и устранению ошибок DIMM на сервере Cisco серии C
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Как устранить ошибки DIMM на сервере VxBlock UCS серии C
Факты
- Стоечные серверы Cisco серии C (могут управляться или не управляться UCSM)
Симптомы
- В CIMC или UCSM будут отображаться следующие оповещения:
Ф0184
Ф0185
Ф0137
Ф1236
Ф1237
- PSOD — фиолетовый экран смерти (на KVM или консоли хоста)
Решение
Сбор
журналовСоберите журналы с затронутого сервера ПЕРЕД поиском и устранением неисправностей. Нам нужны исходные данные для определения успешности действий по устранению неисправностей.
Стоечные серверы серии C могут быть автономными или управляться UCSM. Действия по сбору и просмотру журналов будут немного отличаться в зависимости от того, какой именно.
- Автономный.
- Под управлением UCSM — выберите «Rack Mount» вместо «chassis» или «UCSM» в поле «Options»
- Если у вас есть только журналы CIMC, вы можете определить, что они получены от сервера, управляемого UCSM, так как имя файла будет содержать CIMCXXX. Файлы журнала также будут находиться в заархивированном каталоге под названием «Сервер XX», а не непосредственно в основном ZIP-каталоге. Если вы видите это, также потребуются журналы UCSM.
Анализ
журналов Основные различия между журналами заключаются в
- Дополнительная информация доступна в файле UCSM sam_techsupport для управляемых серверов UCSM
- Расположение каталогов. (См. примечание в разделе «Сбор журналов»)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- «show server inventory expand» (подтвердите серийный номер сервера, найдите PID). Пример.
Сервер 1:
Модели: УСКК-К220-М4С
Подтвержденный серийный номер (SN): ФЧХХХХХХХХХХХ
Подтвержденное наименование продукта: Cisco UCS C220 M4S
Подтвержденный PID: УСКК-К220-М4С
- «show fault detail» (поиск связанных неисправностей) — пример:
Severity. Основных Код: Ф0844 Время последнего перехода: 2017-05-23T12:40:40.774 Описание: DIMM_B2 DIMM на сервере 24 operaState: отключено
- «show server memory detail» (найдите затронутый DIMM PID) — пример:
Location: DIMM_A1 Название продукта: 16 Гбайт памяти DDR4 RDIMM/PC4-19200, 2400 МГц, одноранговая/x4/1,2 В PID: UCS-MR-xxxxxxxx-AПримечание. Большая часть этой информации доступна в sam_techsupport для серверов
, управляемых UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Область информации о корпусе
====================[ Область информации о корпусе ]======================
Номер детали корпуса : [74-х-02]
Серийный номер корпуса: [ФЧХХХХХХХХХ]
- Область платы
========================[ Область платы ]=========================
Название продукта Board: [УЦСК-К240-МХХХХ]
Серийный номер платы : [ФЧХХХХХХХХХ]
- Дамп таблицы SMBIOS НАЧАЛО
Примечание. Это может быть не PID Cisco, но его можно соотнести
Устройство памяти
Локатор: DIMM_A1
Номер по каталогу: 36ASxxxxxx-2G3B1 Запрос в разделе «Все датчики IPMI»:
Исправимые и неисправимые ошибки: Имя датчика | Чтение | Единица | Статус | ЛНР | ЛК | ЛНК | UNC | Унифицированный университет | УНР DDR4_P2_E1_ECC | 63250.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Просмотрите журналы на наличие исправимых и неисправимых ошибок ECC.
Память DDR4_P2_E2_ECC #0xb0 | 512 исправимых ошибок ECC на CPU2 DIMM E2 | Утверждал
- Просмотрите журналы на наличие CATERR_N ... Утверждается | Утвержденные записи, пример выглядит следующим образом:
03/06/2017 20:02:12 | КИМЦ | Процессор CATERR_N #0x70 | Прогнозный сбой подтвержден | УтверждалПримечание. Ожидается, что CATERR_N будет снят с утверждения | Подтверждено в журналах во время загрузки [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Найдите количество исправимых/неисправимых ошибок для затронутых модулей DIMM и скопируйте соответствующие поля. Например,
================== СВОДКА ОШИБОК DIMM =================== ------- ---------- DIMM E2 КОЛИЧЕСТВО ОШИБОК ТЕКУЩЕГО СЛОТА: Исправимые ошибки ECC с момента последней загрузки сервера: 0 Кумулятивное количество исправимых ошибок ECC : 2560 Неустранимые ошибки ECC с момента последней загрузки сервера: 0 Кумулятивное количество неустранимых ошибок ECC : 3 КОЛИЧЕСТВО ОШИБОК ПРЕДЫДУЩИХ СЛОТОВ : Количество исправимых ошибок ECC : 0 Количество неустранимых ошибок ECC : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Воспроизведение записей и ошибок
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Тяжести: Критических Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Описание: «Событие, посвященное системному программному обеспечению. Датчик POST, разъем DIMM 3, канал E, разъем процессора 2. Отключено из-за сбоя другой памяти в том же канале. [0xE542] утверждалось»
Для автономных серверов:
- tmp\tech_support.frupids
====== Дамп записей IPMI FRU ====== Название продукта: УКСК-C220-xxx Артикул продукта: 74-х-01 Версия продукта: A Серия продукта: FCHxxxxxxxN — серийный номер сервера ====== Dumping Inventory Catalog PID ====== DIMMList: Name. DIMM_A1Description: 8 Гбайт памяти DDR3 RDIMM/PC3-10600, 1333 МГц, двухранговая, 1,35 В PID: UCS-MR-1X082RX-A — МОДУЛЬ DIMM PID
Пост-анализ
После выполнения анализа убедитесь, что сервисная заявка обновлена правильным серийным номером затронутого сервера, и выполните поиск в базе данных всех предыдущих RMA, связанных с исследуемым блейд-сервером. Если неисправный модуль памяти DIMM был заменен недавно, возможно, системная плата вызывает подозрения.
Добавьте свой анализ в сервисную заявку.
Логический поиск и устранение
неисправностейПосле выявления ошибок мы попытаемся устранить их все. Отслеживайте счетчики и вкладку сбоев в UCSM, чтобы проверить, сохраняются ли они.
Войдите в командную строку сервера.
Очистка счетчиков ошибок памяти
Корпус с областью действия Server# Сервер /корпус # сброс ECCОчистка журналов системных событий с помощью следующих команд:
Server# scope sel Server /sel # очистить Эта операция очистит все SEL. Продолжить? [y|N]y
Выполните сброс журнала CIMC с помощью следующих команд:
Область CIMC в области Server# Журнал области /cimc # сервера Сервер /cimc/log # очистить
Мониторинг среды в течение 48 часов.
Если ошибки не будут устранены, соберите новый набор журналов UCS и корпуса, подтвердите анализ, сформулируйте план действий на основе полученных данных и перейдите к следующему разделу.
Вызвать
- Ошибки DIMM обычно вызваны неисправностью модуля DIMM или неисправностью системной платы
Примечания
- Нет
Additional Information
Ознакомьтесь с этим видео.
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.