PowerEdge: Ölçeklenebilir Intel Xeon İşlemcilerle DDR4 Kendini Onarma nedir?

Summary: DDR4'e sahip PowerEdge Sunucuda görülen düzeltilebilir ve düzeltilemez bellek hataları ve sorun giderme adımlarındaki değişiklikler

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

BIOS sürüm 2.1.x veya üzeri sürümler kullanılan Intel Xeon Ölçeklenebilir İşlemcilere (birinci veya ikinci nesil) sahip Dell PowerEdge Sunucularda DDR4 "kendini onarma" nedir?

Bu DDR4 "kendini onarma" özellikleri (BIOS iyileştirmeleri), bir sunucuda bellek hatalarıyla karşılaşıldığında önerilen müşteri ve Teknik Destek eylemlerini nasıl değiştirir?

Daha yeni BIOS sürümlerindeki "kendini onarma" iyileştirmeleri nelerdir?

Cause

Sunucu yeniden başlatıldıktan sonra bellek olay mesajını, hata işlemeyi ve "kendini onarmayı" iyileştirmek için Dell PowerEdge BIOS'ta sürekli iyileştirmeler ve geliştirmeler yapılmaktadır. Bu, hata olaylarını kaydeden bir DDR4 bellek DIMM'ini değiştirmek için planlı bakım aralığı veya sahada bulunma ihtiyacını ortadan kaldırır.

Resolution

BIOS 2.1.x ve daha sonraki bir sürüm çalıştıran DDR4'e sahip PowerEdge sunucularına uygulanmış, bellekle ilişkili "kendini onarma" özelliği üzerine iki temel BIOS iyileştirmesi mevcuttur. Bu iyileştirmeler, bellek olaylarının meydana gelmesi ve LifeCycle günlüğüne kaydedilmesi durumunda önerilen adımları veya eylemleri değiştirir.

Not:
  • BIOS 2.0 veya önceki bir sürümünde DDR4 ile bellek hataları alıyorsanız BIOS'u birçok bellek Kendini onarma özelliğini ve devam eden iyileştirmeleri içeren son revizyonuna güncelleştirin. En son "kendi kendini onarma" iyileştirmelerinden yararlanmak için müşterilerimizin her zaman mevcut en son BIOS sürümüne (ve iDRAC bellenimine) güncelleştirme yapmalarını öneririz.
  • Bellek sorunlarını giderme ile ilgili önceki adımlar, hataların DIMM'i takip mi ettiğini yoksa DIMM yuvasında mı kaldığını doğrulamak için başarısız olan DIMM'lerin farklı bir yuvaya taşınmasını içerir. BIOS 2.1.x veya daha sonraki bir sürümünde önerilen ilk adım, (DIMM'leri farklı bir yuvaya taşımadan) tekrar başlatma işlemidir. Bu sayede yeni BIOS iyileştirmelerinin çalışması sağlanarak DIMM hataları, DIMM değişiklikleri planlanmadan kendi kendini onarma yoluyla çözülebilir.
  1. Bellek yeniden eğitimi iyileştirmeleri

Önyükleme sırasında (Bellek Yapılandırma adımlarının başında) gerçekleşen bellek yeniden eğitimi, en iyi erişimi sağlamak amacıyla her DIMM/yuva için sinyal zamanlamasını ve yerleşimi optimize eder. Bir DIMM'in bellek sinyal zamanlaması ve yerleşim özellikleri birkaç farklı nedenle zaman içinde değişebilir:

  • Sunucu bellek yapılandırmasındaki değişiklikler
  • BIOS değişiklikleri (Bellek Referans Kodu - MRC)
  • Sunucunun veya DIMM'nin farklı çalışma sıcaklıkları
  • DIMM'in genel yaşı

Daha önceden, algılanan BIOS güncellemeleri veya bellek yapılandırma değişiklikleri, sonraki önyükleme sırasında bellek yeniden eğitimine neden oluyordu. BIOS 2.1.x sürümünden başlayarak, planlanmış yeniden eğitim için düzeltilebilir ve düzeltilemez ilave bellek hataları "tetikleyicileri" eklenmiştir:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

SEL veya Yaşam Döngüsü günlüklerine kaydedilen bu hataların her biri, Bellek yeniden eğitiminin bir sonraki yeniden başlatma (sıcak veya soğuk) için zamanlanmasına neden olur. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Bu çoklu bit hatası, işletim sisteminin hatayı düzeltememesi halinde önemli hata nedeniyle sunucunun yeniden başlatılmasına neden olabilir. Bu önyükleme sırasında bellek yeniden eğitimi otomatik olarak gerçekleştirilir. Çoklu bit hatası, işletim sisteminin düzeltebildiği kritik olmayan bir bellek konumunda oluşursa bir yeniden başlatma planlanmalıdır.

POST sırasında bellek yeniden eğitimi, sinyal zamanlamasını ve yerleşimini optimize ederek arızalı DIMM'i ve ilişkili yuvayı "kendi kendine onarabilir". Önyükleme sırasında bellek yeniden eğitimi (UEFI0106) başarısız olmadığı veya bu aynı hatalar gerçekleşmeye devam etmediği sürece bu hatalar için DIMM'in değiştirilmesi gerekli değildir.
 

  1. Paket Sonrası Onarım (PPR)

İkinci "kendini onaran" hafıza iyileştirmesi PPR'dir. PPR, donanım katmanındaki konumu veya adresi devre dışı bırakıp bunun yerine kullanılacak olan yedek bir bellek satırını etkinleştirerek arızalı bellek konumunu onarır. Mevcut yedek bellek satırlarının tam sayısı DRAM aygıtına ve DIMM boyutuna bağlıdır.

Daha önce bu işlev, üretim süreciyle sınırlıydı. Daha önce bahsedilen bellek yeniden eğitimi iyileştirmelerinde olduğu gibi sonraki yeniden başlatmada (sıcak veya soğuk) belirli bir DIMM yuvasında PPR planlanmasına neden olacak bazı düzeltilebilir bellek hataları bulunmaktadır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar. PPR işlemi belirli bir DIMM yuvasında zamanlandığı için bu işlem çalıştırılıncaya kadar DIMM yuvası konumlarını DEĞİŞTİRMEYİN. Hatalara örnek olarak şunlar verilebilir:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Kayıtlardaki bu olaylardan herhangi biri Bellek Yapılandırma aşamasının başlarında sonraki (sıcak veya soğuk) yeniden başlatma işlemi için PPR planlanmasıyla sonuçlanır

Not: Aynı DIMM konumunda karşılık gelen bir MEM0005/MEM0701/MEM0702 yokken Mesaj Kimliği MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX (DIMM_XX konumundaki bir bellek aygıtı için düzeltilebilir bellek hatalarını günlüğe kaydetme devre dışı bırakıldı)) sonraki yeniden başlatma işlemi için PPR planlanmasıyla sonuçlanmaz.

MEM8000 olayı, güncelleştirilmiş 1.1 sürümü ve daha yeni teknik rapora ilişkin değişiklikler için 10 Temmuz 2020 güncelleştirmesine bakın.

Yeniden başlatmanın ardından PPR işleminin başarıyla gerçekleştirildiğini doğrulayın. Başarılı bir PPR işlemi örneği aşağıdaki gibidir:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


PPR işlemi olmadığı sürece, bu düzeltilebilir bellek hataları için bir DIMM değişimi gerekli değildir. Başarısız olan kritik PPR mesajına örnek olarak şu verilebilir:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Dell PowerEdge sunucusunun Bellek ile ilgili Güvenilirlik, Kullanılabilirlik ve Servis Kolaylığı (RAS) özelliklerini açıklayan yeni yayınlanmış bir Teknik Rapor (sürüm 1.0) kullanıma sunulmuştur. Raporda, PowerEdge Sunucularında bulunan çeşitli RAS özellikleri ve becerileri açıklanmaktadır - Bellek Hataları ve Dell PowerEdge YX4X Sunucu Belleği RAS Özellikleri.

 

Güncelleştirme tarihi: 24 Nisan 2020

Dell "kendini onarma" özelliklerini geliştirmeye devam ediyor. Aşağıdaki bölümde farklı BIOS sürümleriyle ilişkili güncelleştirmeler ve geliştirmeler listelenmektedir.

BIOS 2.1.x - BIOS 2.1.6 ve üzeri sürümlerle birlikte kullanıma sunulmaya başlanan "kendi kendini onarma" özellikleriyle ilgili ilk makale, örnek hata mesajları ve önerilen eylemleri içerecek şekilde yayınlandı.

BIOS 2.4.x ve daha yeni sürümlerdeki değişiklikler (Aralık 2019)

  • MEM0702 [Correctable error rate exceeded... (Düzeltilebilir hata durumu aşıldı)] - Mesaj, critical (kritik) durumundan warning (uyarı) durumuna güncelleştirildi. Önerilen eylemler, "kendi kendini onarma" işleminin (Paket Sonrası Onarım gibi) gerçekleşmesi için sunucunun yeniden başlatılmasını önerecek şekilde güncelleştirildi.
    • Güncelleştirilmiş mesajı almak için Aralık 2019 veya daha yeni bir iDRAC sürümü de yüklenmelidir
    • Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatma
  • MEM9060 - Mesaj açıklaması, "kendini onarma" işleminin başarıyla tamamlandığını gösterecek şekilde güncelleştirildi

BIOS 2.5.x ve daha yeni sürümlerdeki değişiklikler (Şubat 2020)

  • Müşterilerin düzeltilebilir hatalarla ilgili tüm Yaşam Döngüsü veya SEL günlüğünü devre dışı bırakmalarını sağlamak için "Düzeltilebilir Hata Günlüğü" BIOS seçeneği eklenmiştir. Tüm "kendi kendini onarma" özellikleri çalışmaya devam eder. Örneğin, PPR ve bellek yeniden eğitimi planlanmaya ve bir sonraki yeniden başlatma sırasında (Bellek Yapılandırma işleminin başlarında) çalıştırılmaya devam eder.
  • RDIMM'ler ve LRDIMM'ler için eklenen MEM08xx hataları mevcut hata mesajlarının ve eylemlerinin yerini aldı. Mevcut hata mesajları, "kendini onarma" özelliklerini desteklemeyen platformlarda kullanılmaya devam etmektedir.
    • Yeni mesajların günlüğe kaydedilmesi için Şubat 2020 veya daha yeni bir iDRAC sürümü gerekir.
Not: Güncelleştirilmiş iDRAC olmadan, yeni BIOS mesajları SEL veya Yaşam Döngüsü günlüklerinde "bilinmiyor" olarak kalır.
  • MEM0802 - MEM0702 - Correctable error rate exceeded (Düzeltilebilir hata oranı aşıldı) mesajının yerini aldı
    • Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0802)
  • MEM0804 - PPR'nin başarılı olduğunu belirten MEM9060'ın yerini aldı. Artık PPR'yi çalıştıran DIMM yuvası konumunu içermektedir
    • Önerilen Eylem: Yok; bu olay, "kendini onarma" işleminin gerçekleştiğini ve DIMM'in değiştirilmesinin gerekli olmadığını gösterir.
  • MEM0805 - PPR'nin başarısız olduğunu belirten UEFI0278 mesajının yerini aldı.
    • Önerilen Eylem: Arızalı DIMM'yi değiştirin.

Güncelleştirme tarihi: 10 Temmuz 2020

BIOS 2.7.x ve daha yeni sürümlerdeki değişiklikler (Temmuz 2020 blok BIOS'u - web'de yayınlama için Temmuz ortası hedeflenmiştir)

  • MEM8000 (Correctable error logging disabled (Düzeltilebilir hataları günlüğe kaydetme devre dışı bırakıldı)) - BIOS ~2.0.x sürümünden itibaren Dell Mühendislik ekibi, performansı etkileyebilecek düzeltilebilir hata algılama oranını iyileştirmek için bir BIOS değişikliği yapmıştır. Bu değişiklik, DIMM arıza analizinin sonuçlarıyla desteklenmeyen MEM8000 olaylarında bir artışa neden olmuştur. BIOS 2.7.x sürümünden itibaren MEM8000 ile ilişkili iki değişiklik yapılmıştır. Birincisi, MEM8000 olayı ile ilgili sinyal verme durumunun değiştirilmesidir. İkincisi, BIOS'un bir sonraki yeniden başlatma için kendi kendini onarmayı (PPR) planlamasıdır. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: Kendini onarma/PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
  • MEM0001 (Uncorrectable error (Düzeltilemez hata)) - Bunun sonucunda bir sonraki yeniden başlatma için kendini onarmayı (PPR) planlar. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: MEM0001, İşletim Sisteminin kurtaramadığı kritik bir sayfayla ilişkiliyse hiçbir eylem gerekmez. Bu, yeniden başlatmaya yol açan önemli bir hatadır. MEM0001, işletim sisteminin kurtarabileceği kritik olmayan bir sayfayla ilişkili ise tüm kendi kendini onarma (PPR) işlemlerinin gerçekleşmesi için yeniden başlatma planlanması gerekir. PPR'nin başarılı olduğunu doğrulayın (MEM0804).

GÜNCELLEŞTİRME TARİHİ: 13 Ocak 2021

BIOS 2.8.2 ve daha yeni sürümlerdeki değişiklikler (Eylül 2020 blok BIOS'u)

  • MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is not consumed or in use (Bellek temizleme işlemi tarafından düzeltilemez hata algılandı - Sayfa kullanımda değil)) - Sonraki yeniden başlatma için kendini onarma (PPR) işleminin planlanmasıyla sonuçlanır. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: Kısa süre içerisinde bir yeniden başlatma planlayın. Yeniden başlatmanın geciktirilmesi sayfanın kullanılmasına neden olarak, yeniden başlatmaya yol açabilecek bir MEM0001 hatasına yol açabilir. Belleğe yönelik kendini onarma (PPR) işlemi bu yeniden başlatma sırasında çalıştırılır. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
Not: Mühendislik ekibi teknik raporunun en son sürümüne (sürüm 1.3 - yayın tarihi: 20 Kasım 2020) şu adresten ulaşılabilir:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Intel Xeon E ve AMD EPYC içeriği için şu adreste bulunan orijinal Mühendislik ekibi teknik raporuna (sürüm 1.0) başvurmaya devam edebilirsiniz: PowerEdge YX4X Sunucu Belleği RAS Özellikleriyle ilgili Teknik Rapor v1.0 (dell.com) (İngilizce)

Gelecekteki BIOS güncelleştirmelerine eklenmek üzere ek RAS özellik geliştirmeleri değerlendirilmektedir.

 
Not: Belirli hata kodu mesajlarına ilişkin ayrıntılı açıklama ve önerilen eylemler için şu bağlantıya başvurun: Arama (dell.com). Hata kodları (MEM0001 gibi) birden fazla sunucu ve platform nesli için geçerli olduğundan önerilen eylemler ilgili BIOS sürümü için güncel olmayabilir. Eklenen yeni hata kodları (MEM0802, MEM0804, MEM0805 vb.) yalnızca Intel Xeon Ölçeklenebilir İşlemcilere (birinci veya ikinci nesil) sahip Sunucular için geçerlidir.

 

Bu makale, yeni bilgiler mevcut olduğunda güncelleştirilecektir.


İndirmeler ve Sürücüler: Drivers and Downloads (Sürücüler ve İndirmeler)

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.