Cisco C Serisi Sunucularda DIMM hatalarını onaylama ve sorun giderme adımları

Summary: Cisco C Serisi Sunucularda DIMM hatalarını onaylama ve sorun giderme adımları

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

VxBlock UCS C Serisi Sunucuda DIMM hatalarını temizleme

Gerçekler

  • Cisco C Serisi Rafa Monte Sunucular (UCSM tarafından yönetilebilir veya yönetilmeyebilir)

Belirtiler
  •  CIMC veya UCSM'de aşağıdakiler gibi uyarılar gösterilir:

F0184
, F0185
, F0137
, F1236
, F1237

  • PSOD – Mor Ekran (KVM'de veya ana bilgisayarın konsolunda)

Çözüm

Günlük toplama
 
Herhangi bir sorun giderme işlemi yapılmadan ÖNCE etkilenen sunucudan günlükleri yakalayın. Sorun giderme adımlarının başarılı olup olmadığını belirlemek için bir temel gereklidir.

C Serisi Raf Tipi sunucular bağımsız olabilir veya UCSM tarafından yönetilebilir.  Günlükleri toplama ve gözden geçirme adımları, günlüklerin hangisi olduğuna bağlı olarak biraz farklılık gösterir.
  • Bağımsız.
  • UCSM tarafından yönetilir - Seçenekler alanında "kasa" veya "ucsm" yerine " Rafa Montaj " seçeneğini belirleyin
  • Yalnızca CIMC günlükleriniz varsa, dosya adı CIMCXXX içereceğinden bunların UCSM tarafından yönetilen bir sunucudan geldiğini anlayabilirsiniz.  Ayrıca günlük dosyaları, doğrudan ana sıkıştırılmış dizin yerine Server XX adlı sıkıştırılmış dizinde bulunur.  Bunu görürseniz UCSM günlükleri de gerekli olacaktır.
Sunucu bir PSOD ile karşılaştıysa PSOD'nin ekran görüntüsünü alın ve vSphere/ana bilgisayar günlüklerini alın.

Günlük analizi

  Günlükler arasındaki temel farklar şunlardır:
  • UCSM tarafından yönetilen sunucular için UCSM sam_techsupport dosyasında ek bilgiler mevcuttur
  • Dizinlerin konumu. (Günlük toplama altındaki nota bakın)
UCSM ve CIMC günlüklerindeki yararlı günlük konumları:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • show server inventory expand" (sunucu seri numarasını onaylayın, PID yi bulun). Example:
Sunucu 1:
     Modeli: UCSC-C220-M4S
     Onaylanan Seri (SN): FCHXXXXXXXXXX
     Onaylanan Ürün Adı: Cisco UCS C220 M4S
     Kabul Edilen PID: UCSC-C220-M4S
  • show fault detail" (ilişkili arızaları bulun) - Örnek:
Severity (Önem Derecesi): Büyük
Kod: F0844 Serisi
Son Geçiş Zamanı: 2017-05-23T12:40:40.774
Açıklama: DIMM DIMM_B2 on server 24 operaState: disabled
  • show server memory detail" (etkilenen DIMM PID yi bulun)- Örnek:
Konum: DIMM_A1
Product Name: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/tek aşama/x4/1,2 v
PID: UCS-MR-xxxxxxxx-A
Not – bu bilgilerin çoğu UCSM tarafından yönetilen sunucular

için sam_techsupport'de mevcuttur [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Kasa Bilgi Alanı
Kasa Seri Numarası" olarak listelenen sunucu Seri numarasını bulun. Örnek aşağıdaki gibidir: 
====================[ Kasa Bilgi Alanı ]======================
            Kasa Parça Numarası: [74-xxxxx-02]
            Kasa Seri Numarası: [FCHXXXXXXXXX]
 
  • Yönetim Kurulu Alanı
Anakart PID ve seri numarasını bulun. Örnek aşağıdaki gibidir: 
========================[ Pano Alanı ]=========================
            Anakart Ürün Adı: [UCSC-C240-MXXXX]
            Kart Seri Numarası : [FCHXXXXXXXX]
 
  • SMBIOS Tablo Dökümü BAŞLANGIÇ    
                Bellek Aygıtı\Parça Bulucu altında DIMM Parça numarasını bulun. Örnek aşağıdaki gibidir: 
                Not: Bu Cisco PID olmayabilir, ancak bulmak için ilişkilendirilebilir
Hafıza Aygıtı
           Konumlandırıcı: DIMM_A1
           Parça Numarası: 36ASxxxxxx-2G3B1
  Tüm IPMI Sensörlerini Sorgulama bölümü:
Düzeltilebilir ve Düzeltilemez Hatalar:
Sensör Adı | Okuma | Birim | Durum | LNR | LC | LNC | ÇİL | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Düzeltilebilir ve Düzeltilemez ECC Hataları için günlükleri gözden geçirin:
Bellek DDR4_P2_E2_ECC #0xb0 | oku CPU512 DIMM E2'de 2 düzeltilebilir ECC hataları | Iddia
  • Herhangi bir CATERR_N için günlükleri gözden geçirin... İddia edildi | Öne sürülen girişler, örnek aşağıdaki gibidir:
03/06/2017 20:02:12 | CIMC | İşlemci CATERR_N #0x70 | Öngörülen Başarısızlık öne sürüldü | Iddia
  Not: CATERR_N onayının kaldırılması beklenen bir davranıştır | Önyükleme sırasında günlüklerde onaylandı [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Etkilenen DIMM'ler için düzeltilebilir/düzeltilemez hata sayılarını bulun ve ilgili alanları kopyalayın. Aşağıdaki gibi bir örnek verilmiştir:
================== DIMM HATALARININ ÖZETI ===================
------- DIMM E2 ----------
  GEÇERLI YUVA HATA SAYILARI:
      Son sunucu önyüklemesinden bu yana düzeltilebilir ECC hataları: 0
      Kümülatif Düzeltilebilir ECC Hata Sayısı: 2560
      Son sunucu önyüklemesinden bu yana düzeltilemez ECC hataları: 0
      Kümülatif Düzeltilemez ECC Hata Sayısı : 3
   ÖNCEKI YUVA HATA SAYILARI:
      Düzeltilebilir ECC Hata Sayısı: 0
      Düzeltilemez ECC Hata Sayısı: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Sel girişlerinin ve hatalarının oyunuyla oynayın
eventLogMaxEntries: 1445
eventLogList: 
---
Kimliği: 1440
Önem: Kritik
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Açıklama: System Software event: Post sensörü, DIMM soketi 3, Kanal E, İşlemci soketi 2. Aynı kanalda başka bir belleğin başarısız olması nedeniyle devre dışı bırakıldı. [0xE542] iddia edildi"

Bağımsız sunucular için:
  • tmp\tech_support.frupids
====== IPMI FRU Kayıtlarının Dökümünü Alma ======
Product Name: UCSC-C220-xxx
Ürün Parça Numarası: 74-xxxx-01
Product Version: A
 Ürün Serisi: FCHxxxxxxxN – Sunucu Seri Numarası

====== Envanter Kataloğu PID Dökümü ======
DIMMList: 
Ad: DIMM_A1Description: 8 GB DDR3-1333 MHz RDIMM/PC3-10600/çift aşamalı/1,35 v
PID: UCS-MR-1X082RX-A – DIMM PID


Analiz
SonrasıAnaliz gerçekleştirdikten sonra, servis isteğinin etkilenen sunucunun doğru seri numarasıyla güncelleştirildiğinden ve veritabanında araştırılan dikey pencereyle ilişkili önceki RMA'ların arandığından emin olun.  Arıza gösteren DIMM yakın zamanda değiştirilmişse anakarttan şüphelenilebilir.

Analizinizi servis isteğine ekleyin.

Mantıksal Sorun Giderme
 
Hatalar belirlendikten sonra, hepsini temizlemeye çalışacağız ve devam edip etmediklerini görmek için UCSM'deki sayaçları ve hatalar sekmesini izleyeceğiz.
Sunucu komut satırında oturum açın.

Bellek hata sayaçlarını temizleme
server# scope chassis
server /chassis # reset-ecc
Sistem Olay Günlüklerini temizleyin, aşağıdaki komutları:
Server# scope sel
Server /sel # clear 
Bu işlem tüm sel'i temizleyecektir.
Devam? [y|N]y

 Aşağıdaki komutları kullanarak CIMC günlüğünü sıfırlayın:
Server# scope cimc
Server /cimc # scope log
Server /cimc/log # clear

Ortamı 48 saat boyunca izleyin.
Hatalar devam ederse yeni bir dizi UCS ve Kasa günlüğü alın, analizi onaylayın, kanıtlara dayalı bir eylem planı oluşturun ve bir sonraki bölüme geçin.

Neden
  • DIMM hataları genellikle arızalı bir DIMM'den veya bazen de kötü bir Anakarttan kaynaklanır

Notlar
  • None

Additional Information

Lütfen bu videoya bakın:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.