PowerEdge: CPU-laitteen tarkistusvirheet

Summary: Tässä artikkelissa on tietoja suorittimen laitetarkistusvirheistä ja yleisistä syistä sekä asianmukaisesta käsittelystä virheiden ilmetessä.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Mitä ovat suorittimen laitteen tarkistusvirheet?

PowerEdge-palvelimissa ja BIOS- ja iDRAC-vakiolaiteohjelmistoa käyttävissä ratkaisuissa laitetarkistukset tallennetaan järjestelmän tapahtumalokiin (SEL).
Nämä merkinnät näkyvät myös Lifecycle Controller -lokissa (LCL) erilaisten EEMI (Enhanced Error Message Initiative) -tapahtumakoodien alla.

Tapahtuman koodi Tapahtuman viesti
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Esimerkkejä lokeista:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

CPU-laitteen tarkistusvirheiden syiden ymmärtäminen

CPU-koneen tarkistusvirheillä (MCE) on useita mahdollisia syitä, jotka vaihtelevat laitteistosta ohjelmistolaukaisimiin. Nämä virheet voivat johtua useista tekijöistä, mukaan lukien:

  • BIOS-laiteohjelmiston tai suorittimen mikrokoodi
  • Emolevyn CPLD-laiteohjelmisto
  • Muistivirheet
  • PCIE Fatal Bus -virheet
  • Käyttöjärjestelmän kaatuminen tai ohjelmisto- ja ohjainviat (BSOD, PSOD tai kernel-paniikin)
  • Suoritinviat

Laitteistolokien avulla voidaan tunnistaa mahdolliset syyt tarkistamalla, liittyykö suorittimen tarkistusvirheisiin muita komponenttivirheitä.

 

Esimerkki muistivirheestä käynnistetyistä suorittimen MCE:istä:
DIMM-virheen aiheuttama suorittimen MCE-virhe

 

CPU MCE, jossa DIMM-virhe uudemmissa palvelimissa

 

Esimerkki CPU MCE:stä, joka käynnistyi vakavasta väylävirheestä:
Suorittimen MCE:ssä vakava väylävirhe

 

Esimerkki CPU MCE:stä, joka käynnistyy käyttöjärjestelmän kaatumisen seurauksena:
CPU MCE, jossa käyttöjärjestelmän kaatumisvirhe

 


Resolution

 

Yleiset ohjeet

On aina hyödyllistä esittää nämä kysymykset:

  • Onko järjestelmään tehty äskettäin muutoksia, kuten päivityksiä tai muutoksia laitteistoon tai kokoonpanoon?
  • Onko lähistöllä olevissa lokeissa muita virheitä, jotka voivat olla informatiivisempia kuin itse koneen tarkistus?
  • Kuinka usein konetarkastus tapahtuu? Oliko se kertaluonteinen? Voiko se helposti jäljentää?
  • Liittyykö asiaan ympäristötekijöitä, kuten tietyt työkuormat tai virta- ja lämpöskenaariot?

 

Laiteohjelmisto ja ohjaimet

Vanhentuneet tai yhteensopimattomat laiteohjelmistot ja ohjaimet ovat yleisimpiä koneen tarkistussyyllisiä, koska ne toimivat yhdessä laitteen käyttäytymisen toteuttamiseksi ja hallitsemiseksi. Joten on välttämätöntä tarkistaa versiot, joita käytetään osana konetarkastustutkimusten arviointia.

 

Laiteohjelmistoista BIOS-päivitykset ovat kriittisiä:

  • Useimmat BIOS-julkaisut sisältävät vastaavan suorittimen valmistajan päivityksiä, joista monet sisältävät nimenomaisia korjauksia laitetarkistuksiin.
  • Nämä palvelimien UEFI-päivitykset sisältävät mikrokoodin, viitekoodin ja muita moduulipäivityksiä, jotka ohjaavat toimintoja, kuten kaikkia luotettavuuden, käytettävyyden ja huollettavuuden (RAS) ominaisuuksia.
  • Muista samalla järjestelmän muut laiteohjelmistot.
  • Syyllinen voi olla lähes mikä tahansa järjestelmän laite, harvoissa tapauksissa myös iDRAC. 

 

Suorittimen laitetarkistusvirheiden tunnistaminen ja ratkaiseminen

Suorittimen laitetarkistusvirheet voi tunnistaa tarkistamalla ensin IDRAC:stä laitteistolokit Lifecycle (LC) tai System Event Log (SEL) tai keräämällä TSR- tai SupportAssist-kokoelman lokien tarkistamista varten.

Tarkista, edeltävätkö suorittimen MCE-virheet muita virheitä ja keskittyvätkö ne kyseisten osien vianmääritykseen.

 

Vianmäärityksen vaiheet

  • Päivitä kaikki käytettävissä olevat laiteohjelmistot ja tarkkaile tuloksia virheiden toiminnan muutosten varalta.
  • Jos vain yksi suoritin näyttää virheitä, vaihda suorittimia ja määritä, seuraako virhe suoritinta toiseen kantaan.
  • Jos MCE käynnistyy toisen komponentin virheestä, keskitä vianmääritys kyseiseen osaan.
    • Tarkista, mitä komponentteja prosessori ohjaa MCE: llä.
    • Esimerkki: Jos kyseessä on CPU1 MCE, tarkista kaikki CPU1:n ohjaamat riser-kortit ja PCIE-paikat ja niihin asennetut laitteet sekä CPU1-puolen muisti ja tarkista kaikki A-DIMM-moduulit virheiden varalta.
    • Jos haluat tarkistaa, mikä suoritin ohjaa kutakin riser-korttia, katso Servers Installation and Service Manual -oppaasta ja Järjestelmäkomponenttien> asentaminen ja poistaminen -kohdasta Laajennuskortit ja laajennuskortin nostimet>Laajennuskortin asennusohjeet.
    • Lisätietoja nousuja tai korttipaikkoja ohjaavan suorittimen tunnistamisesta: PowerEdge: PCIe-laitteen tunnistusongelmien vianmääritys
  • Voit sulkea pois käyttöjärjestelmään liittyvät MCE-käynnistimet testaamalla käyttöjärjestelmän ulkopuolella, ilmenevätkö virheet edelleen käyttöjärjestelmän ulkopuolella.

    Suorita kuormitustestit tuessa Live-kuva

    Kesto: 00:02:38 (hh:mm:ss)
    Kun tekstityksen kieliasetukset ovat käytettävissä, ne voidaan valita tämän videosoittimen CC-kuvakkeella.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.