PowerEdge: Ölçeklenebilir Intel Xeon İşlemcilerle DDR4 Kendini Onarma nedir?
Summary: DDR4'e sahip PowerEdge Sunucuda görülen düzeltilebilir ve düzeltilemez bellek hataları ve sorun giderme adımlarındaki değişiklikler
Symptoms
Bu DDR4 "kendini onarma" özellikleri (BIOS iyileştirmeleri), bir sunucuda bellek hatalarıyla karşılaşıldığında önerilen müşteri ve Teknik Destek eylemlerini nasıl değiştirir?
Daha yeni BIOS sürümlerindeki "kendini onarma" iyileştirmeleri nelerdir?
Cause
Sunucu yeniden başlatıldıktan sonra bellek olay mesajını, hata işlemeyi ve "kendini onarmayı" iyileştirmek için Dell PowerEdge BIOS'ta sürekli iyileştirmeler ve geliştirmeler yapılmaktadır. Bu, hata olaylarını kaydeden bir DDR4 bellek DIMM'ini değiştirmek için planlı bakım aralığı veya sahada bulunma ihtiyacını ortadan kaldırır.
Resolution
BIOS 2.1.x ve daha sonraki bir sürüm çalıştıran DDR4'e sahip PowerEdge sunucularına uygulanmış, bellekle ilişkili "kendini onarma" özelliği üzerine iki temel BIOS iyileştirmesi mevcuttur. Bu iyileştirmeler, bellek olaylarının meydana gelmesi ve LifeCycle günlüğüne kaydedilmesi durumunda önerilen adımları veya eylemleri değiştirir.
- BIOS 2.0 veya önceki bir sürümünde DDR4 ile bellek hataları alıyorsanız BIOS'u birçok bellek Kendini onarma özelliğini ve devam eden iyileştirmeleri içeren son revizyonuna güncelleştirin. En son "kendi kendini onarma" iyileştirmelerinden yararlanmak için müşterilerimizin her zaman mevcut en son BIOS sürümüne (ve iDRAC bellenimine) güncelleştirme yapmalarını öneririz.
- Bellek sorunlarını giderme ile ilgili önceki adımlar, hataların DIMM'i takip mi ettiğini yoksa DIMM yuvasında mı kaldığını doğrulamak için başarısız olan DIMM'lerin farklı bir yuvaya taşınmasını içerir. BIOS 2.1.x veya daha sonraki bir sürümünde önerilen ilk adım, (DIMM'leri farklı bir yuvaya taşımadan) tekrar başlatma işlemidir. Bu sayede yeni BIOS iyileştirmelerinin çalışması sağlanarak DIMM hataları, DIMM değişiklikleri planlanmadan kendi kendini onarma yoluyla çözülebilir.
- Bellek yeniden eğitimi iyileştirmeleri
Önyükleme sırasında (Bellek Yapılandırma adımlarının başında) gerçekleşen bellek yeniden eğitimi, en iyi erişimi sağlamak amacıyla her DIMM/yuva için sinyal zamanlamasını ve yerleşimi optimize eder. Bir DIMM'in bellek sinyal zamanlaması ve yerleşim özellikleri birkaç farklı nedenle zaman içinde değişebilir:
- Sunucu bellek yapılandırmasındaki değişiklikler
- BIOS değişiklikleri (Bellek Referans Kodu - MRC)
- Sunucunun veya DIMM'nin farklı çalışma sıcaklıkları
- DIMM'in genel yaşı
Daha önceden, algılanan BIOS güncellemeleri veya bellek yapılandırma değişiklikleri, sonraki önyükleme sırasında bellek yeniden eğitimine neden oluyordu. BIOS 2.1.x sürümünden başlayarak, planlanmış yeniden eğitim için düzeltilebilir ve düzeltilemez ilave bellek hataları "tetikleyicileri" eklenmiştir:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
SEL veya Yaşam Döngüsü günlüklerine kaydedilen bu hataların her biri, Bellek yeniden eğitiminin bir sonraki yeniden başlatma (sıcak veya soğuk) için zamanlanmasına neden olur. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Bu çoklu bit hatası, işletim sisteminin hatayı düzeltememesi halinde önemli hata nedeniyle sunucunun yeniden başlatılmasına neden olabilir. Bu önyükleme sırasında bellek yeniden eğitimi otomatik olarak gerçekleştirilir. Çoklu bit hatası, işletim sisteminin düzeltebildiği kritik olmayan bir bellek konumunda oluşursa bir yeniden başlatma planlanmalıdır.
POST sırasında bellek yeniden eğitimi, sinyal zamanlamasını ve yerleşimini optimize ederek arızalı DIMM'i ve ilişkili yuvayı "kendi kendine onarabilir". Önyükleme sırasında bellek yeniden eğitimi (UEFI0106) başarısız olmadığı veya bu aynı hatalar gerçekleşmeye devam etmediği sürece bu hatalar için DIMM'in değiştirilmesi gerekli değildir.
- Paket Sonrası Onarım (PPR)
İkinci "kendini onaran" hafıza iyileştirmesi PPR'dir. PPR, donanım katmanındaki konumu veya adresi devre dışı bırakıp bunun yerine kullanılacak olan yedek bir bellek satırını etkinleştirerek arızalı bellek konumunu onarır. Mevcut yedek bellek satırlarının tam sayısı DRAM aygıtına ve DIMM boyutuna bağlıdır.
Daha önce bu işlev, üretim süreciyle sınırlıydı. Daha önce bahsedilen bellek yeniden eğitimi iyileştirmelerinde olduğu gibi sonraki yeniden başlatmada (sıcak veya soğuk) belirli bir DIMM yuvasında PPR planlanmasına neden olacak bazı düzeltilebilir bellek hataları bulunmaktadır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar. PPR işlemi belirli bir DIMM yuvasında zamanlandığı için bu işlem çalıştırılıncaya kadar DIMM yuvası konumlarını DEĞİŞTİRMEYİN. Hatalara örnek olarak şunlar verilebilir:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Kayıtlardaki bu olaylardan herhangi biri Bellek Yapılandırma aşamasının başlarında sonraki (sıcak veya soğuk) yeniden başlatma işlemi için PPR planlanmasıyla sonuçlanır
MEM8000 olayı, güncelleştirilmiş 1.1 sürümü ve daha yeni teknik rapora ilişkin değişiklikler için 10 Temmuz 2020 güncelleştirmesine bakın.
Yeniden başlatmanın ardından PPR işleminin başarıyla gerçekleştirildiğini doğrulayın. Başarılı bir PPR işlemi örneği aşağıdaki gibidir:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
PPR işlemi olmadığı sürece, bu düzeltilebilir bellek hataları için bir DIMM değişimi gerekli değildir. Başarısız olan kritik PPR mesajına örnek olarak şu verilebilir:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdge sunucusunun Bellek ile ilgili Güvenilirlik, Kullanılabilirlik ve Servis Kolaylığı (RAS) özelliklerini açıklayan yeni yayınlanmış bir Teknik Rapor (sürüm 1.0) kullanıma sunulmuştur. Raporda, PowerEdge Sunucularında bulunan çeşitli RAS özellikleri ve becerileri açıklanmaktadır - Bellek Hataları ve Dell PowerEdge YX4X Sunucu Belleği RAS Özellikleri.
Güncelleştirme tarihi: 24 Nisan 2020
Dell "kendini onarma" özelliklerini geliştirmeye devam ediyor. Aşağıdaki bölümde farklı BIOS sürümleriyle ilişkili güncelleştirmeler ve geliştirmeler listelenmektedir.
BIOS 2.1.x - BIOS 2.1.6 ve üzeri sürümlerle birlikte kullanıma sunulmaya başlanan "kendi kendini onarma" özellikleriyle ilgili ilk makale, örnek hata mesajları ve önerilen eylemleri içerecek şekilde yayınlandı.
BIOS 2.4.x ve daha yeni sürümlerdeki değişiklikler (Aralık 2019)
- MEM0702 [Correctable error rate exceeded... (Düzeltilebilir hata durumu aşıldı)] - Mesaj, critical (kritik) durumundan warning (uyarı) durumuna güncelleştirildi. Önerilen eylemler, "kendi kendini onarma" işleminin (Paket Sonrası Onarım gibi) gerçekleşmesi için sunucunun yeniden başlatılmasını önerecek şekilde güncelleştirildi.
- Güncelleştirilmiş mesajı almak için Aralık 2019 veya daha yeni bir iDRAC sürümü de yüklenmelidir
- Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatma
- MEM9060 - Mesaj açıklaması, "kendini onarma" işleminin başarıyla tamamlandığını gösterecek şekilde güncelleştirildi
BIOS 2.5.x ve daha yeni sürümlerdeki değişiklikler (Şubat 2020)
- Müşterilerin düzeltilebilir hatalarla ilgili tüm Yaşam Döngüsü veya SEL günlüğünü devre dışı bırakmalarını sağlamak için "Düzeltilebilir Hata Günlüğü" BIOS seçeneği eklenmiştir. Tüm "kendi kendini onarma" özellikleri çalışmaya devam eder. Örneğin, PPR ve bellek yeniden eğitimi planlanmaya ve bir sonraki yeniden başlatma sırasında (Bellek Yapılandırma işleminin başlarında) çalıştırılmaya devam eder.
- RDIMM'ler ve LRDIMM'ler için eklenen MEM08xx hataları mevcut hata mesajlarının ve eylemlerinin yerini aldı. Mevcut hata mesajları, "kendini onarma" özelliklerini desteklemeyen platformlarda kullanılmaya devam etmektedir.
- Yeni mesajların günlüğe kaydedilmesi için Şubat 2020 veya daha yeni bir iDRAC sürümü gerekir.
- MEM0802 - MEM0702 - Correctable error rate exceeded (Düzeltilebilir hata oranı aşıldı) mesajının yerini aldı
- Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0802)
- MEM0804 - PPR'nin başarılı olduğunu belirten MEM9060'ın yerini aldı. Artık PPR'yi çalıştıran DIMM yuvası konumunu içermektedir
- Önerilen Eylem: Yok; bu olay, "kendini onarma" işleminin gerçekleştiğini ve DIMM'in değiştirilmesinin gerekli olmadığını gösterir.
- MEM0805 - PPR'nin başarısız olduğunu belirten UEFI0278 mesajının yerini aldı.
- Önerilen Eylem: Arızalı DIMM'yi değiştirin.
Güncelleştirme tarihi: 10 Temmuz 2020
BIOS 2.7.x ve daha yeni sürümlerdeki değişiklikler (Temmuz 2020 blok BIOS'u - web'de yayınlama için Temmuz ortası hedeflenmiştir)
- MEM8000 (Correctable error logging disabled (Düzeltilebilir hataları günlüğe kaydetme devre dışı bırakıldı)) - BIOS ~2.0.x sürümünden itibaren Dell Mühendislik ekibi, performansı etkileyebilecek düzeltilebilir hata algılama oranını iyileştirmek için bir BIOS değişikliği yapmıştır. Bu değişiklik, DIMM arıza analizinin sonuçlarıyla desteklenmeyen MEM8000 olaylarında bir artışa neden olmuştur. BIOS 2.7.x sürümünden itibaren MEM8000 ile ilişkili iki değişiklik yapılmıştır. Birincisi, MEM8000 olayı ile ilgili sinyal verme durumunun değiştirilmesidir. İkincisi, BIOS'un bir sonraki yeniden başlatma için kendi kendini onarmayı (PPR) planlamasıdır. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
- Önerilen Eylem: Kendini onarma/PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
- MEM0001 (Uncorrectable error (Düzeltilemez hata)) - Bunun sonucunda bir sonraki yeniden başlatma için kendini onarmayı (PPR) planlar. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
- Önerilen Eylem: MEM0001, İşletim Sisteminin kurtaramadığı kritik bir sayfayla ilişkiliyse hiçbir eylem gerekmez. Bu, yeniden başlatmaya yol açan önemli bir hatadır. MEM0001, işletim sisteminin kurtarabileceği kritik olmayan bir sayfayla ilişkili ise tüm kendi kendini onarma (PPR) işlemlerinin gerçekleşmesi için yeniden başlatma planlanması gerekir. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
GÜNCELLEŞTİRME TARİHİ: 13 Ocak 2021
BIOS 2.8.2 ve daha yeni sürümlerdeki değişiklikler (Eylül 2020 blok BIOS'u)
- MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is not consumed or in use (Bellek temizleme işlemi tarafından düzeltilemez hata algılandı - Sayfa kullanımda değil)) - Sonraki yeniden başlatma için kendini onarma (PPR) işleminin planlanmasıyla sonuçlanır. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
- Önerilen Eylem: Kısa süre içerisinde bir yeniden başlatma planlayın. Yeniden başlatmanın geciktirilmesi sayfanın kullanılmasına neden olarak, yeniden başlatmaya yol açabilecek bir MEM0001 hatasına yol açabilir. Belleğe yönelik kendini onarma (PPR) işlemi bu yeniden başlatma sırasında çalıştırılır. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
Intel Xeon E ve AMD EPYC içeriği için şu adreste bulunan orijinal Mühendislik ekibi teknik raporuna (sürüm 1.0) başvurmaya devam edebilirsiniz: PowerEdge YX4X Sunucu Belleği RAS Özellikleriyle ilgili Teknik Rapor v1.0 (dell.com) (İngilizce)
Gelecekteki BIOS güncelleştirmelerine eklenmek üzere ek RAS özellik geliştirmeleri değerlendirilmektedir.
Bu makale, yeni bilgiler mevcut olduğunda güncelleştirilecektir.
İndirmeler ve Sürücüler: Drivers and Downloads (Sürücüler ve İndirmeler)