PowerEdge: CPU Makine Kontrol Hataları
Summary: Bu makalede, CPU Makine Denetimi hataları ve yaygın nedenleri ve hatalar görüldüğünde doğru işlem yapma hakkında bilgiler yer almaktadır.
Symptoms
CPU Makine Kontrol Hataları nedir?
Standart BIOS ve iDRAC bellenimi kullanan PowerEdge sunucularında ve çözümlerden yararlanıldığında, makine denetimleri sistem olay günlüğüne (SEL) kaydedilir.
Bu girişler, çeşitli Gelişmiş Hata Mesajı Girişimi (EEMI) olay kodları altında Lifecycle Controller günlüğüne (LCL) de yansıtılır.
| Olay kodu | Olay mesajı |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Günlük Örnekleri:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
CPU Makine Kontrol Hatalarının Nedenlerini Anlama
CPU Makine Kontrol Hatalarının (MCE'ler), donanımdan yazılım tetikleyicilerine kadar birçok olası nedeni vardır. Bu hatalar, aşağıdakiler de dahil olmak üzere çeşitli faktörlere bağlanabilir:
- BIOS Bellenimi veya CPU Mikro Kodu
- Anakart CPLD Bellenimi
- Bellek Hataları
- PCIE Önemli Veri Yolu Hataları
- İşletim Sistemi Çökmesi veya Yazılım ve Sürücü Hataları (BSOD, PSOD veya Kernel Panikleri)
- CPU Arızaları
Donanım günlükleri, CPU Makine Kontrol Hatalarına başka bileşen hatalarının eşlik edip etmediğini kontrol ederek olası nedenleri belirlemeye yardımcı olmak için kullanılabilir.
Bellek Hatası nedeniyle tetiklenen örnek CPU MCE'leri:

Önemli Veri Yolu Hatasından tetiklenen örnek CPU MCE:
Bir işletim sistemi çökmesi nedeniyle tetiklenen örnek CPU MCE:
Resolution
Genel rehberlik
Şu soruları sormak her zaman yararlıdır:
- Donanım veya yapılandırma güncelleştirmeleri veya değişiklikleri gibi sistemde son değişiklikler yapıldı mı?
- Yakındaki günlüklerde, makinenin kendisini kontrol etmesinden daha bilgilendirici olabilecek başka hatalar var mı?
- Makine kontrolü ne sıklıkla gerçekleşir? Tek seferlik miydi? Kolayca çoğaltılabilir mi?
- Belirli iş yükleri veya güç ve termal senaryolar gibi çevresel faktörler söz konusu mu?
Bellenim ve sürücüler
Güncel olmayan veya uyumsuz ürün yazılımı ve sürücüler, cihaz davranışını uygulamak ve kontrol etmek için birlikte çalıştıkları için en yaygın makine kontrol suçluları arasındadır. Bu nedenle, herhangi bir makine kontrolü araştırmasını değerlendirmenin bir parçası olarak kullanılan sürümlerin gözden geçirilmesi önemlidir.
Ürün yazılımları arasında BIOS güncellemeleri kritik öneme sahiptir:
- Çoğu BIOS sürümü, ilgili işlemci satıcısı tarafından sağlanan ve birçoğu makine kontrollerine yönelik açık düzeltmeler içeren güncellemeler içerir.
- Sunuculara yönelik bu UEFI güncelleştirmeleri, mikro kod, referans kodu ve diğer tüm güvenilirlik, kullanılabilirlik ve servis kolaylığı (RAS) özellikleri dahil olmak üzere işlevselliği denetleyen diğer modül güncellemelerini içerir.
- Aynı zamanda, sistemdeki diğer bellenimleri de göz ardı etmeyin.
- Nadiren iDRAC da dahil olmak üzere sistemdeki hemen hemen her aygıt suçlu olabilir.
CPU Makine Kontrol Hatalarını Belirleme ve Çözme
CPU Makine Kontrol Hatalarını belirlemek için doğrudan iDRAC'tan donanım günlükleri Yaşam Döngüsü (LC) veya Sistem Olay Günlüğü'nü (SEL) kontrol ederek başlayın veya günlükleri incelemek için bir TSR veya SupportAssist Koleksiyonu toplayın.
- PowerEdge: iDRAC kullanarak SupportAssist derlemesini dışa aktarma
- PowerEdge: Sistem olay günlüğünü görüntüleme veya temizleme
- IDRAC9 Kullanıcı Kılavuzu - Web Arabiriminden Yaşam Döngüsü Günlüğünü Görüntüleme
CPU MCE hatalarından önce başka bir hata olup olmadığına ve bu bileşenlerde sorun gidermeye odaklanıp odaklanmadığına bakın.
Sorun Giderme Adımları
- Mevcut tüm bellenimi güncelleyin ve hata davranışındaki herhangi bir değişiklik olup olmadığını tespit etmek için sonuçları izleyin.
- Yalnızca bir CPU hata gösteriyorsa, hatanın CPU yu diğer sokete kadar takip edip etmediğini belirlemek için CPU'ları değiştirin.
- MCE başka bir bileşen hatasından tetiklenirse, sorun gidermeye bu bileşene odaklanın.
- MCE ile CPU tarafından hangi bileşenlerin kontrol edildiğini kontrol edin.
- Örneğin: CPU1 MCE ise, CPU1 tarafından kontrol edilen tüm yükselticileri ve bu yuvalara takılı tüm aygıtları ve CPU1 tarafındaki belleği kontrol edin, tüm A-DIMM'lerde hata olup olmadığını kontrol edin.
- Her bir yükselticiyi veya yuvayı hangi CPU nun denetlediğini doğrulamak için Sunucu Kurulum ve Servis Kılavuzu'na ve Sistem bileşenlerini> takma ve çıkarma, Genişletme kartları ve genişletme kartı yükselticileri>, Genişletme kartı takma yönergeleri bölümüne bakın.
- Yükselticileri veya yuvaları hangi CPU nun denetlediğini belirleme hakkında daha fazla bilgi için bkz.: PowerEdge: PCIe aygıt algılama sorunlarını giderme
- İşletim sistemi ile ilgili MCE tetikleyicilerini elemek için, hataların hala işletim sistemi dışında tetiklenip tetiklenmediğini görmek için işletim sistemi dışında test edin.
- Testler sırasında herhangi bir hatanın tetiklenip tetiklenmediğini görmek için ePSA tanılamayı çalıştırın.
- Bu işletim sistemi ortamında hata oluşup oluşmadığını test etmek için Support Live Image (SLI) ortamını önyükleyin.
Support Live Image da Stres Testlerini Çalıştırma
Süre: 00:02:38 (ss:dd:ss)
Mümkün olduğunda, bu video oynatıcıdaki CC simgesi kullanılarak altyazı (altyazılar) dil ayarları seçilebilir.