Инструкции по подтверждению и устранению ошибок DIMM на сервере Cisco серии C

Summary: Инструкции по подтверждению и устранению ошибок DIMM на сервере Cisco серии C

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Как устранить ошибки DIMM на сервере VxBlock UCS серии C

Факты

  • Стоечные серверы Cisco серии C (могут управляться или не управляться UCSM)

Симптомы
  •  В CIMC или UCSM будут отображаться следующие оповещения:

Ф0184
Ф0185
Ф0137
Ф1236
Ф1237

  • PSOD — фиолетовый экран смерти (на KVM или консоли хоста)

Решение

Сбор
 
журналовСоберите журналы с затронутого сервера ПЕРЕД поиском и устранением неисправностей. Нам нужны исходные данные для определения успешности действий по устранению неисправностей.

Стоечные серверы серии C могут быть автономными или управляться UCSM.  Действия по сбору и просмотру журналов будут немного отличаться в зависимости от того, какой именно.
  • Автономный.
  • Под управлением UCSM — выберите «Rack Mount» вместо «chassis» или «UCSM» в поле «Options»
  • Если у вас есть только журналы CIMC, вы можете определить, что они получены от сервера, управляемого UCSM, так как имя файла будет содержать CIMCXXX.  Файлы журнала также будут находиться в заархивированном каталоге под названием «Сервер XX», а не непосредственно в основном ZIP-каталоге.  Если вы видите это, также потребуются журналы UCSM.
Если на сервере возник PSOD, сделайте снимок экрана PSOD, а также соберите журналы vSphere/хоста.

Анализ

журналов  Основные различия между журналами заключаются в
  • Дополнительная информация доступна в файле UCSM sam_techsupport для управляемых серверов UCSM
  • Расположение каталогов. (См. примечание в разделе «Сбор журналов»)
Полезные места в журналах UCSM и CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • «show server inventory expand» (подтвердите серийный номер сервера, найдите PID). Пример.
Сервер 1:
     Модели: УСКК-К220-М4С
     Подтвержденный серийный номер (SN): ФЧХХХХХХХХХХХ
     Подтвержденное наименование продукта: Cisco UCS C220 M4S
     Подтвержденный PID: УСКК-К220-М4С
  • «show fault detail» (поиск связанных неисправностей) — пример:
Severity. Основных
Код: Ф0844
Время последнего перехода: 2017-05-23T12:40:40.774
Описание: DIMM_B2 DIMM на сервере 24 operaState: отключено
  • «show server memory detail» (найдите затронутый DIMM PID) — пример:
Location: DIMM_A1
Название продукта: 16 Гбайт памяти DDR4 RDIMM/PC4-19200, 2400 МГц, одноранговая/x4/1,2 В
PID: UCS-MR-xxxxxxxx-A
Примечание. Большая часть этой информации доступна в sam_techsupport для серверов

, управляемых UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Область информации о корпусе
Найдите серийный номер сервера в разделе «Chassis Serial Number». Пример следующий: 
====================[ Область информации о корпусе ]======================
            Номер детали корпуса : [74-х-02]
            Серийный номер корпуса: [ФЧХХХХХХХХХ]
 
  • Область платы
Найдите PID и серийный номер системной платы. Пример следующий: 
========================[ Область платы ]=========================
            Название продукта Board: [УЦСК-К240-МХХХХ]
            Серийный номер платы : [ФЧХХХХХХХХХ]
 
  • Дамп таблицы SMBIOS НАЧАЛО    
                Найдите номер по каталогу DIMM в разделе Memory Device\Part Locator. Пример следующий: 
                Примечание. Это может быть не PID Cisco, но его можно соотнести
Устройство памяти
           Локатор: DIMM_A1
           Номер по каталогу: 36ASxxxxxx-2G3B1
  Запрос в разделе «Все датчики IPMI»:
Исправимые и неисправимые ошибки:
Имя датчика | Чтение | Единица | Статус | ЛНР | ЛК | ЛНК | UNC | Унифицированный университет | УНР    
DDR4_P2_E1_ECC | 63250.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Ошибка | УНР | д/о | д/о | д/о | д/о | д/о | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Просмотрите журналы на наличие исправимых и неисправимых ошибок ECC.
Память DDR4_P2_E2_ECC #0xb0 | 512 исправимых ошибок ECC на CPU2 DIMM E2 | Утверждал
  • Просмотрите журналы на наличие CATERR_N ... Утверждается | Утвержденные записи, пример выглядит следующим образом:
03/06/2017 20:02:12 | КИМЦ | Процессор CATERR_N #0x70 | Прогнозный сбой подтвержден | Утверждал
  Примечание. Ожидается, что CATERR_N будет снят с утверждения | Подтверждено в журналах во время загрузки [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Найдите количество исправимых/неисправимых ошибок для затронутых модулей DIMM и скопируйте соответствующие поля. Например,
================== СВОДКА ОШИБОК DIMM ===================
------- ---------- DIMM E2
  КОЛИЧЕСТВО ОШИБОК ТЕКУЩЕГО СЛОТА:
      Исправимые ошибки ECC с момента последней загрузки сервера: 0
      Кумулятивное количество исправимых ошибок ECC : 2560
      Неустранимые ошибки ECC с момента последней загрузки сервера: 0
      Кумулятивное количество неустранимых ошибок ECC : 3
   КОЛИЧЕСТВО ОШИБОК ПРЕДЫДУЩИХ СЛОТОВ :
      Количество исправимых ошибок ECC : 0
      Количество неустранимых ошибок ECC : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Воспроизведение записей и ошибок
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Тяжести: Критических
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Описание: «Событие, посвященное системному программному обеспечению. Датчик POST, разъем DIMM 3, канал E, разъем процессора 2. Отключено из-за сбоя другой памяти в том же канале. [0xE542] утверждалось»

Для автономных серверов:
  • tmp\tech_support.frupids
====== Дамп записей IPMI FRU ======
Название продукта: УКСК-C220-xxx
Артикул продукта: 74-х-01
Версия продукта: A
 Серия продукта: FCHxxxxxxxN — серийный номер сервера

====== Dumping Inventory Catalog PID ======
DIMMList: 
Name. DIMM_A1Description: 8 Гбайт памяти DDR3 RDIMM/PC3-10600, 1333 МГц, двухранговая, 1,35 В
PID: UCS-MR-1X082RX-A — МОДУЛЬ DIMM PID


Пост-анализ
После выполнения анализа убедитесь, что сервисная заявка обновлена правильным серийным номером затронутого сервера, и выполните поиск в базе данных всех предыдущих RMA, связанных с исследуемым блейд-сервером.  Если неисправный модуль памяти DIMM был заменен недавно, возможно, системная плата вызывает подозрения.

Добавьте свой анализ в сервисную заявку.

Логический поиск и устранение
 
неисправностейПосле выявления ошибок мы попытаемся устранить их все. Отслеживайте счетчики и вкладку сбоев в UCSM, чтобы проверить, сохраняются ли они.
Войдите в командную строку сервера.

Очистка счетчиков ошибок памяти
Корпус с областью действия Server#
Сервер /корпус # сброс ECC
Очистка журналов системных событий с помощью следующих команд:
Server# scope sel
Server /sel # очистить 
Эта операция очистит все SEL.
Продолжить? [y|N]y

 Выполните сброс журнала CIMC с помощью следующих команд:
Область CIMC в области Server#
Журнал области /cimc # сервера
Сервер /cimc/log # очистить

Мониторинг среды в течение 48 часов.
Если ошибки не будут устранены, соберите новый набор журналов UCS и корпуса, подтвердите анализ, сформулируйте план действий на основе полученных данных и перейдите к следующему разделу.

Вызвать
  • Ошибки DIMM обычно вызваны неисправностью модуля DIMM или неисправностью системной платы

Примечания
  • Нет

Additional Information

Ознакомьтесь с этим видео.

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.