如何確認和排除 Cisco C 系列伺服器上的 DIMM 錯誤的步驟

Summary: 如何確認和排除 Cisco C 系列伺服器上的 DIMM 錯誤的步驟

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

如何清除 VxBlock UCS C 系列伺服器上的 DIMM 錯誤

事實

  • Cisco C 系列機架式伺服器 (可能由 UCSM 管理,也可能不由 UCSM 管理)

症狀
  •  警報將顯示在 CIMC 或 UCSM 中,例如:

F0184
、F0185
、F0137
、F1236
、F1237

  • PSOD – 紫色當機畫面 (在主機的 KVM 或主控台上)

解決方案

記錄收集
 
在進行任何故障診斷之前,請先從受影響的伺服器擷取記錄。我們需要一個基線來判斷故障診斷步驟是否成功。

C 系列機架式伺服器可以是獨立的,也可以由 UCSM 管理。  收集和檢閱記錄的步驟會視記錄的不同而略有不同。
  • 獨立。
  • 由 UCSM 管理:在「選項」欄位中選取 「機架安裝」, 而非「機箱」或「ucsm」
  • 如果只有 CIMC 紀錄,則可以判斷它們來自 UCSM 管理的伺服器,因為檔名將包含 CIMCXXX。  日誌檔也將位於名為 Server XX 的壓縮目錄中,而不是直接位於主壓縮目錄中。  如果您看到此訊息,則也需要 UCSM 記錄。
如果伺服器發生 PSOD,請擷取 PSOD 的螢幕擷取畫面,並收集 vSphere/主機記錄。

記錄分析

日誌之間的主要區別是
  • UCSM sam_techsupport 檔案中提供 UCSM 管理伺服器的其他資訊
  • 目錄的位置。(請參閱記錄收集下的備註)
UCSM 和 CIMC 記錄中有用的記錄位置:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 「show server inventory expand」(確認伺服器序號,找到 PID)。範例:
伺服器 1:
     型號:UCSC-C220-M4S
     已確認序列 (SN):噗��
     確認的產品名稱:Cisco UCS C220 M4S
     已確認的 PID:UCSC-C220-M4S
  • “顯示故障詳細資訊”(查找關聯的故障)-示例:
Severity: 專業
程式碼:F0844
上次轉換時間:2017-05-23T12:40:40.774
說明:伺服器 24 OperaState 上的 DIMM DIMM_B2:已停用
  • 「顯示伺服器記憶體詳細資料」(找出受影響的 DIMM PID)- 範例:
位置:DIMM_A1
產品名稱:16GB DDR4-2400-MHz RDIMM/PC4-19200/單排/x4/1.2v
PID:UCS-MR-xxxxxxxx-A
注意 – 大部分資訊可在 UCSM 管理伺服器

的sam_techsupport中取得 [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • 機箱資訊區域
尋找列為「機箱序號」的伺服器序號。範例如下: 
====================[機箱資訊區域]======================
            機箱零件編號:[74-xxxxx-02]
            機箱序號:[FCHXXXXXXXXX]
 
  • 董事會面積
尋找主機板 PID 和序號。範例如下: 
========================[ 電路板面積 ]=========================
            板產品名稱 :[UCSC-C240-Mxxxx]
            電路板序列號 :[FCHXXXXXXXX]
 
  • SMBIOS 表傾印開始    
                在記憶體裝置\零件定位器下尋找 DIMM 零件編號。範例如下: 
                注意:這可能不是思科 PID,但可以關聯以找到它
記憶體裝置
           定位器:DIMM_A1
           零件編號:36ASxxxxxx-2G3B1
  查詢所有 IPMI 感應器區段:
可修正與無法修正的錯誤:
感應器名稱 |閱讀 |單位 |狀態 |LNR |液相色譜 |液化天然氣 |北卡羅來納大學 |加州大學 |聯合國代表處   
DDR4_P2_E1_ECC |63250.000 |錯誤 |UNR |不適用 |不適用 |不適用 |不適用 |不適用 |60250.000 DDR4_P2_E2_ECC |63750.000 |錯誤 |UNR |不適用 |不適用 |不適用 |不適用 |不適用 |60250.000
DDR4_P2_E3_ECC |63250.000 |錯誤 |UNR |不適用 |不適用 |不適用 |不適用 |不適用 |60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • 檢閱記錄是否有任何可修正與無法修正的 ECC 錯誤:
記憶體DDR4_P2_E2_ECC #0xb0 |讀取 CPU2 DIMM E2 上的 512 個可修正 ECC 錯誤 |已斷言
  • 檢閱記錄是否有任何CATERR_N...已斷言 |斷言條目,示例如下:
2017/03/06 20:02:12 |中集 |處理器CATERR_N #0x70 |斷言預測性故障 |已斷言
  注意:預期行為為取消聲明CATERR_N |在開機時於記錄中發出訊號[ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt 
  • 尋找受影響 DIMM 的可修正/無法修正的錯誤計數,並複製相關欄位,範例如下:
================== DIMM 錯誤摘要===================
------- DIMM E2 ----------
  目前的插槽錯誤計數:
      自上次伺服器開機以來可修正的 ECC 錯誤:0
      累計可修正 ECC 錯誤計數:2560
      自上次伺服器開機以來無法修正的 ECC 錯誤:0
      累計無法修正的 ECC 錯誤計數:3
   先前的插槽錯誤計數:
      可修正的 ECC 錯誤計數:0
      無法修正的 ECC 錯誤計數:0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • 播放 sel 項目與錯誤
eventLogMaxEntries:1445
eventLogList: 
---
ID:1440
嚴重性:嚴重
日期時間:2017-03-10 00:57:17
日期時間順序:00005
說明:「系統軟體事件:後置感應器、DIMM 插槽 3、通道 E、處理器插槽 2。由於相同通道中的其他記憶體故障,已停用。[0xE542]被斷言”

若為獨立伺服器:
  • tmp\tech_support.frupids
====== ======傾印 IPMI FRU 記錄
產品名稱:UCSC-C220-xxx
產品零件編號:74-xxxx-01
產品版本:A
 產品編號:FCHxxxxxxxN – 伺服器序號

====== ======傾銷庫存目錄 PID
DIMMList: 
名稱:DIMM_A1Description:8 GB DDR3-1333-MHz RDIMM/PC3-10600/雙排/1.35 V
PID:UCS-MR-1X082RX-A – DIMM PID



分析後執行分析后,請確保使用受影響伺服器的正確序列號更新服務請求,並在資料庫中搜索與正在調查的刀片式伺服器關聯的任何先前 RMA。  如果最近更換了顯示故障的 DIMM,則可能是可疑的主機板。

將您的分析新增至服務要求。

邏輯故障診斷
 
識別錯誤後,我們會嘗試全部清除,並監控 UCSM 中的計數器和「錯誤」標籤,以查看這些錯誤是否仍然存在。
登入伺服器命令列。

清除記憶體錯誤計數器
伺服器 # 範圍機箱
伺服器/機箱 # 重設-ECC
清除系統事件記錄下列命令:
Server# scope sel
伺服器 /sel # 清除
此作業將清除整個 sel。
繼續?[y|N]y

 使用以下命令重設 CIMC 記錄:
伺服器 # 範圍 CIMC
伺服器 /cimc # 範圍記錄
伺服器 /cimc/log # 清除

監視環境48小時。
如果錯誤仍然存在,請擷取一組全新的 UCS 和機箱記錄、確認分析、根據證據制定行動計劃,然後繼續進行下一章節。

原因
  • DIMM 錯誤通常是由故障的 DIMM 所造成,有時也是由主機板故障所造成

Additional Information

請參閱此影片:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.