Cisco C Serisi Sunucularda DIMM hatalarını onaylama ve sorun giderme adımları
Summary: Cisco C Serisi Sunucularda DIMM hatalarını onaylama ve sorun giderme adımları
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
VxBlock UCS C Serisi Sunucuda DIMM hatalarını temizleme
Gerçekler
- Cisco C Serisi Rafa Monte Sunucular (UCSM tarafından yönetilebilir veya yönetilmeyebilir)
Belirtiler
- CIMC veya UCSM'de aşağıdakiler gibi uyarılar gösterilir:
F0184
, F0185
, F0137
, F1236
, F1237
- PSOD – Mor Ekran (KVM'de veya ana bilgisayarın konsolunda)
Çözüm
Günlük toplama
Herhangi bir sorun giderme işlemi yapılmadan ÖNCE etkilenen sunucudan günlükleri yakalayın. Sorun giderme adımlarının başarılı olup olmadığını belirlemek için bir temel gereklidir.
C Serisi Raf Tipi sunucular bağımsız olabilir veya UCSM tarafından yönetilebilir. Günlükleri toplama ve gözden geçirme adımları, günlüklerin hangisi olduğuna bağlı olarak biraz farklılık gösterir.
- Bağımsız.
- UCSM tarafından yönetilir - Seçenekler alanında "kasa" veya "ucsm" yerine " Rafa Montaj " seçeneğini belirleyin
- Yalnızca CIMC günlükleriniz varsa, dosya adı CIMCXXX içereceğinden bunların UCSM tarafından yönetilen bir sunucudan geldiğini anlayabilirsiniz. Ayrıca günlük dosyaları, doğrudan ana sıkıştırılmış dizin yerine Server XX adlı sıkıştırılmış dizinde bulunur. Bunu görürseniz UCSM günlükleri de gerekli olacaktır.
Günlük analizi
Günlükler arasındaki temel farklar şunlardır:
- UCSM tarafından yönetilen sunucular için UCSM sam_techsupport dosyasında ek bilgiler mevcuttur
- Dizinlerin konumu. (Günlük toplama altındaki nota bakın)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- show server inventory expand" (sunucu seri numarasını onaylayın, PID yi bulun). Example:
Sunucu 1:
Modeli: UCSC-C220-M4S
Onaylanan Seri (SN): FCHXXXXXXXXXX
Onaylanan Ürün Adı: Cisco UCS C220 M4S
Kabul Edilen PID: UCSC-C220-M4S
- show fault detail" (ilişkili arızaları bulun) - Örnek:
Severity (Önem Derecesi): Büyük Kod: F0844 Serisi Son Geçiş Zamanı: 2017-05-23T12:40:40.774 Açıklama: DIMM DIMM_B2 on server 24 operaState: disabled
- show server memory detail" (etkilenen DIMM PID yi bulun)- Örnek:
Konum: DIMM_A1 Product Name: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/tek aşama/x4/1,2 v PID: UCS-MR-xxxxxxxx-ANot – bu bilgilerin çoğu UCSM tarafından yönetilen sunucular
için sam_techsupport'de mevcuttur [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Kasa Bilgi Alanı
====================[ Kasa Bilgi Alanı ]======================
Kasa Parça Numarası: [74-xxxxx-02]
Kasa Seri Numarası: [FCHXXXXXXXXX]
- Yönetim Kurulu Alanı
========================[ Pano Alanı ]=========================
Anakart Ürün Adı: [UCSC-C240-MXXXX]
Kart Seri Numarası : [FCHXXXXXXXX]
- SMBIOS Tablo Dökümü BAŞLANGIÇ
Not: Bu Cisco PID olmayabilir, ancak bulmak için ilişkilendirilebilir
Hafıza Aygıtı
Konumlandırıcı: DIMM_A1
Parça Numarası: 36ASxxxxxx-2G3B1 Tüm IPMI Sensörlerini Sorgulama bölümü:
Düzeltilebilir ve Düzeltilemez Hatalar: Sensör Adı | Okuma | Birim | Durum | LNR | LC | LNC | ÇİL | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Hata | UNR | Na | Na | Na | Na | Na | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Düzeltilebilir ve Düzeltilemez ECC Hataları için günlükleri gözden geçirin:
Bellek DDR4_P2_E2_ECC #0xb0 | oku CPU512 DIMM E2'de 2 düzeltilebilir ECC hataları | Iddia
- Herhangi bir CATERR_N için günlükleri gözden geçirin... İddia edildi | Öne sürülen girişler, örnek aşağıdaki gibidir:
03/06/2017 20:02:12 | CIMC | İşlemci CATERR_N #0x70 | Öngörülen Başarısızlık öne sürüldü | IddiaNot: CATERR_N onayının kaldırılması beklenen bir davranıştır | Önyükleme sırasında günlüklerde onaylandı [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Etkilenen DIMM'ler için düzeltilebilir/düzeltilemez hata sayılarını bulun ve ilgili alanları kopyalayın. Aşağıdaki gibi bir örnek verilmiştir:
================== DIMM HATALARININ ÖZETI =================== ------- DIMM E2 ---------- GEÇERLI YUVA HATA SAYILARI: Son sunucu önyüklemesinden bu yana düzeltilebilir ECC hataları: 0 Kümülatif Düzeltilebilir ECC Hata Sayısı: 2560 Son sunucu önyüklemesinden bu yana düzeltilemez ECC hataları: 0 Kümülatif Düzeltilemez ECC Hata Sayısı : 3 ÖNCEKI YUVA HATA SAYILARI: Düzeltilebilir ECC Hata Sayısı: 0 Düzeltilemez ECC Hata Sayısı: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Sel girişlerinin ve hatalarının oyunuyla oynayın
eventLogMaxEntries: 1445 eventLogList: --- Kimliği: 1440 Önem: Kritik Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Açıklama: System Software event: Post sensörü, DIMM soketi 3, Kanal E, İşlemci soketi 2. Aynı kanalda başka bir belleğin başarısız olması nedeniyle devre dışı bırakıldı. [0xE542] iddia edildi"
Bağımsız sunucular için:
- tmp\tech_support.frupids
====== IPMI FRU Kayıtlarının Dökümünü Alma ====== Product Name: UCSC-C220-xxx Ürün Parça Numarası: 74-xxxx-01 Product Version: A Ürün Serisi: FCHxxxxxxxN – Sunucu Seri Numarası ====== Envanter Kataloğu PID Dökümü ====== DIMMList: Ad: DIMM_A1Description: 8 GB DDR3-1333 MHz RDIMM/PC3-10600/çift aşamalı/1,35 v PID: UCS-MR-1X082RX-A – DIMM PID
Analiz
SonrasıAnaliz gerçekleştirdikten sonra, servis isteğinin etkilenen sunucunun doğru seri numarasıyla güncelleştirildiğinden ve veritabanında araştırılan dikey pencereyle ilişkili önceki RMA'ların arandığından emin olun. Arıza gösteren DIMM yakın zamanda değiştirilmişse anakarttan şüphelenilebilir.
Analizinizi servis isteğine ekleyin.
Mantıksal Sorun Giderme
Hatalar belirlendikten sonra, hepsini temizlemeye çalışacağız ve devam edip etmediklerini görmek için UCSM'deki sayaçları ve hatalar sekmesini izleyeceğiz.
Sunucu komut satırında oturum açın.
Bellek hata sayaçlarını temizleme
server# scope chassis server /chassis # reset-eccSistem Olay Günlüklerini temizleyin, aşağıdaki komutları:
Server# scope sel Server /sel # clear Bu işlem tüm sel'i temizleyecektir. Devam? [y|N]y
Aşağıdaki komutları kullanarak CIMC günlüğünü sıfırlayın:
Server# scope cimc Server /cimc # scope log Server /cimc/log # clear
Ortamı 48 saat boyunca izleyin.
Hatalar devam ederse yeni bir dizi UCS ve Kasa günlüğü alın, analizi onaylayın, kanıtlara dayalı bir eylem planı oluşturun ve bir sonraki bölüme geçin.
Neden
- DIMM hataları genellikle arızalı bir DIMM'den veya bazen de kötü bir Anakarttan kaynaklanır
Notlar
- None
Additional Information
Lütfen bu videoya bakın:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.