PowerEdge: CPU Makine Kontrol Hataları

Summary: Bu makalede, CPU Makine Denetimi hataları ve yaygın nedenleri ve hatalar görüldüğünde doğru işlem yapma hakkında bilgiler yer almaktadır.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

CPU Makine Kontrol Hataları nedir?

Standart BIOS ve iDRAC bellenimi kullanan PowerEdge sunucularında ve çözümlerden yararlanıldığında, makine denetimleri sistem olay günlüğüne (SEL) kaydedilir.
Bu girişler, çeşitli Gelişmiş Hata Mesajı Girişimi (EEMI) olay kodları altında Lifecycle Controller günlüğüne (LCL) de yansıtılır.

Olay kodu Olay mesajı
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Günlük Örnekleri:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

CPU Makine Kontrol Hatalarının Nedenlerini Anlama

CPU Makine Kontrol Hatalarının (MCE'ler), donanımdan yazılım tetikleyicilerine kadar birçok olası nedeni vardır. Bu hatalar, aşağıdakiler de dahil olmak üzere çeşitli faktörlere bağlanabilir:

  • BIOS Bellenimi veya CPU Mikro Kodu
  • Anakart CPLD Bellenimi
  • Bellek Hataları
  • PCIE Önemli Veri Yolu Hataları
  • İşletim Sistemi Çökmesi veya Yazılım ve Sürücü Hataları (BSOD, PSOD veya Kernel Panikleri)
  • CPU Arızaları

Donanım günlükleri, CPU Makine Kontrol Hatalarına başka bileşen hatalarının eşlik edip etmediğini kontrol ederek olası nedenleri belirlemeye yardımcı olmak için kullanılabilir.

 

Bellek Hatası nedeniyle tetiklenen örnek CPU MCE'leri:
DIMM hatası nedeniyle CPU MCE hatası

 

Daha yeni sunucularda DIMM hatası ile CPU MCE

 

Önemli Veri Yolu Hatasından tetiklenen örnek CPU MCE:
CPU MCE, önemli bir BUS hatasıyla görülüyor

 

Bir işletim sistemi çökmesi nedeniyle tetiklenen örnek CPU MCE:
İşletim sistemi çökme hatası ile CPU MCE

 


Resolution

 

Genel rehberlik

Şu soruları sormak her zaman yararlıdır:

  • Donanım veya yapılandırma güncelleştirmeleri veya değişiklikleri gibi sistemde son değişiklikler yapıldı mı?
  • Yakındaki günlüklerde, makinenin kendisini kontrol etmesinden daha bilgilendirici olabilecek başka hatalar var mı?
  • Makine kontrolü ne sıklıkla gerçekleşir? Tek seferlik miydi? Kolayca çoğaltılabilir mi?
  • Belirli iş yükleri veya güç ve termal senaryolar gibi çevresel faktörler söz konusu mu?

 

Bellenim ve sürücüler

Güncel olmayan veya uyumsuz ürün yazılımı ve sürücüler, cihaz davranışını uygulamak ve kontrol etmek için birlikte çalıştıkları için en yaygın makine kontrol suçluları arasındadır. Bu nedenle, herhangi bir makine kontrolü araştırmasını değerlendirmenin bir parçası olarak kullanılan sürümlerin gözden geçirilmesi önemlidir.

 

Ürün yazılımları arasında BIOS güncellemeleri kritik öneme sahiptir:

  • Çoğu BIOS sürümü, ilgili işlemci satıcısı tarafından sağlanan ve birçoğu makine kontrollerine yönelik açık düzeltmeler içeren güncellemeler içerir.
  • Sunuculara yönelik bu UEFI güncelleştirmeleri, mikro kod, referans kodu ve diğer tüm güvenilirlik, kullanılabilirlik ve servis kolaylığı (RAS) özellikleri dahil olmak üzere işlevselliği denetleyen diğer modül güncellemelerini içerir.
  • Aynı zamanda, sistemdeki diğer bellenimleri de göz ardı etmeyin.
  • Nadiren iDRAC da dahil olmak üzere sistemdeki hemen hemen her aygıt suçlu olabilir. 

 

CPU Makine Kontrol Hatalarını Belirleme ve Çözme

CPU Makine Kontrol Hatalarını belirlemek için doğrudan iDRAC'tan donanım günlükleri Yaşam Döngüsü (LC) veya Sistem Olay Günlüğü'nü (SEL) kontrol ederek başlayın veya günlükleri incelemek için bir TSR veya SupportAssist Koleksiyonu toplayın.

CPU MCE hatalarından önce başka bir hata olup olmadığına ve bu bileşenlerde sorun gidermeye odaklanıp odaklanmadığına bakın.

 

Sorun Giderme Adımları

  • Mevcut tüm bellenimi güncelleyin ve hata davranışındaki herhangi bir değişiklik olup olmadığını tespit etmek için sonuçları izleyin.
  • Yalnızca bir CPU hata gösteriyorsa, hatanın CPU yu diğer sokete kadar takip edip etmediğini belirlemek için CPU'ları değiştirin.
  • MCE başka bir bileşen hatasından tetiklenirse, sorun gidermeye bu bileşene odaklanın.
    • MCE ile CPU tarafından hangi bileşenlerin kontrol edildiğini kontrol edin.
    • Örneğin: CPU1 MCE ise, CPU1 tarafından kontrol edilen tüm yükselticileri ve bu yuvalara takılı tüm aygıtları ve CPU1 tarafındaki belleği kontrol edin, tüm A-DIMM'lerde hata olup olmadığını kontrol edin.
    • Her bir yükselticiyi veya yuvayı hangi CPU nun denetlediğini doğrulamak için Sunucu Kurulum ve Servis Kılavuzu'na ve Sistem bileşenlerini> takma ve çıkarma, Genişletme kartları ve genişletme kartı yükselticileri>, Genişletme kartı takma yönergeleri bölümüne bakın.
    • Yükselticileri veya yuvaları hangi CPU nun denetlediğini belirleme hakkında daha fazla bilgi için bkz.: PowerEdge: PCIe aygıt algılama sorunlarını giderme
  • İşletim sistemi ile ilgili MCE tetikleyicilerini elemek için, hataların hala işletim sistemi dışında tetiklenip tetiklenmediğini görmek için işletim sistemi dışında test edin.

    Support Live Image da Stres Testlerini Çalıştırma

    Süre: 00:02:38 (ss:dd:ss)
    Mümkün olduğunda, bu video oynatıcıdaki CC simgesi kullanılarak altyazı (altyazılar) dil ayarları seçilebilir.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.