PowerEdge: Mikä on DDR4-itsekorjaus Intel Xeon Scalable -suorittimilla

Summary: Korjattavissa olevat ja korjauskelvottomat muistivirheet PowerEdge PowerEdge Server DDR4:llä ja muutokset vianmääritysvaiheisiin

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Mikä on DDR4 :n itsekorjautuva asema Dell PowerEdge -palvelimissa, joissa on Intel Xeon Scalable -suoritin (ensimmäinen tai toinen sukupolvi) ja BIOS-versio 2.1.x tai uudempi?

Miten nämä DDR4:n itsekorjausominaisuudet (BIOS-parannukset) muuttavat suositeltuja asiakkaan ja teknisen tuen toimia, kun palvelimessa ilmenee muistivirheitä?

Mitä "itsekorjaavia" parannuksia uudemmissa BIOS-versioissa on?

Cause

Dell PowerEdge BIOSiin tehdään jatkuvasti parannuksia, jotka parantavat muistitapahtumien viestintää, virheiden käsittelyä ja palvelimen uudelleenkäynnistyksen yhteydessä tapahtuvaa itsekorjautumista. Silloin virhetapahtumia kirjannut DDR4-muistimoduulin tilalle ei tarvita ajoitettua huoltoikkunaa tai paikan päällä läsnäoloa.

Resolution

PowerEdge-palvelimissa, joissa on käytössä DDR4 ja vähintään BIOS-versio 2.1.x, on kaksi tärkeää muistiin liittyvää itsekorjautuvaa BIOSin parannusta. Nämä parannukset muuttavat suositeltuja toimia siinä tapauksessa, että muistitapahtumia ilmenee ja ne kirjataan LifeCycle-lokiin.

Huomautus:
  • Jos BIOS 2.0 tai sitä vanhempi versio sisältää DDR4-muistivirheitä, päivitä BIOS uusimpaan versioon, joka sisältää monia muistin itsekorjausominaisuuksia ja jatkuvia parannuksia. Suosittelemme asiakkaita päivittämään uusimpaan saatavilla olevaan BIOS-versioon (ja iDRAC-laiteohjelmistoon), jotta he voivat hyödyntää uusimpia itsekorjautuvia parannuksia.
  • Aiempiin muistin vianmääritysvaiheisiin kuului viallisten DIMM-moduulien siirtäminen toiseen paikkaan sen varmistamiseksi, seuraavatko virheet DIMM-moduulia vai pysyvätkö ne DIMM-paikassa. BIOS 2.1.x tai uudempi versio on käynnistää tietokone uudelleen (siirtämättä DIMM-moduuleja toiseen paikkaan). Näin uudet BIOS-parannukset voidaan suorittaa ja mahdollisesti korjata (itsekorjautuvat) DIMM-virheet ilman DIMM-vaihtojen ajoittamista.
  1. Muistin uudelleenkoulutuksen parannukset

Käynnistyksen aikana (muistin määritysvaiheiden alussa) tapahtuva muistin uudelleenkoulutus optimoi kunkin DIMM-moduulin/paikan signaalin ajoituksen ja marginaalit, jotta moduulit toimivat mahdollisimman hyvin. DIMM-moduulin muistisignaalin ajoitus ja marginaaliominaisuudet voivat muuttua ajan myötä useista eri syistä:

  • Palvelimen muistikokoonpanon muutokset
  • BIOSin muutokset (Memory Reference Code - MRC)
  • Palvelimen tai DIMM-moduulin eri käyttölämpötilat
  • DIMM-moduulin ikä

Aiemmin BIOSin päivityksen tai muistikokoonpanon muutosten havaitseminen olisi aiheuttanut muistin uudelleenkoulutuksen seuraavan käynnistyksen aikana. BIOS 2.1.x -versiosta alkaen ajoitettuun uudelleenkoulutukseen lisättiin korjattavien ja korjauskelvottomien muistivirheiden käynnistimet:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Jos mitä tahansa näistä virheistä kirjataan järjestelmän tapahtumalokiin tai elinkaarilokeihin, muistin uudelleenkoulutus ajoitetaan seuraavaan uudelleenkäynnistykseen (lämmin tai kylmä). BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Tämä monitavuinen virhe saattaa aiheuttaa palvelimen uudelleenkäynnstymisen vakavan virheen vuoksi, jos käyttöjärjestelmä ei pysty käsittelemään kyseistä virhettä. Muistin uudelleenkoulutus tapahtuu automaattisesti kyseisen käynnistyksen aikana. Jos monibittinen virhe ilmenee ei-kriittisessä muistipaikassa, jonka käyttöjärjestelmä pystyy käsittelemään, uudelleenkäynnistys on ajoitettava.

Muistin uudelleenkoulutus POST-testin aikana voi "itsekorjata" vikaantuneen DIMM-moduulin ja siihen liittyvän paikan optimoimalla signaalin ajoituksen ja marginaalit. DIMM-moduulin vaihtoa ei tarvitse tehdä näiden virheiden yhteydessä, ellei muistin uudelleenkoulutus epäonnistu (UEFI0106) käynnistyksen aikana tai elleivät samat virheet toistu.
 

  1. Post Package Repair (PPR) -palvelu

Toinen "itsensä parantava" muistin parannus on PPR. PPR korjaa vikaantuneen muistipaikan poistamalla sijainnin tai osoitteen käytöstä laitetasolla, jolloin sen sijasta voidaan käyttää varamuistiriviä. Käytettävissä olevien varamuistirivien tarkka määrä määräytyy DRAM-laitteen ja DIMM-koon mukaan.

Tämä toiminto oli aiemmin käytettävissä vain valmistusprosessin aikana. Kuten aiemmin mainituissa muistin uudelleenkoulutuksen parannuksissa, myös tietyissä korjattavissa olevissa muistivirheissä PPR ajoitetaan tiettyyn DIMM-paikkaan seuraavaa uudelleenkäynnistystä varten (lämmin tai kylmä). BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta. Koska PPR-toiminto on ajoitettu tiettyyn DIMM-paikkaan, ÄLÄ muuta DIMM-paikkoja, ennen kuin PPR-toiminto on suoritettu. Esimerkkejä virheistä:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Mikä tahansa näistä lokin tapahtumista aiheuttaa sen, että PPR ajoitetaan seuraavaan uudelleenkäynnistykseen (lämmin tai kylmä) muistin määritysvaiheen alussa

Huomautus: Sanomatunnus MEM8000 (Korjattavissa olevan muistivirheen lokiin kirjaaminen poistettu käytöstä muistilaitteessa sijainnissa DIMM_XX.), jos vastaavaa MEM0005/MEM0701/MEM0702 ei ole samassa DIMM-paikassa, eikä PPR:ää ajoiteta seuraavaan uudelleenkäynnistykseen.

Katso MEM8000-tapahtuman muutokset 10. heinäkuuta 2020 -päivityksestä ja päivitetystä versiosta 1.1 ja uudemmista raporteista.

Tarkista uudelleenkäynnistyksen jälkeen, että PPR-toiminto suoritettiin. Esimerkki onnistuneesta PPR-toiminnosta:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Näitä korjattavissa olevia muistivirheitä ei tarvitse vaihtaa DIMM-moduulilla, ellei PPR-toimintoa suoriteta. Esimerkki epäonnistuneesta kriittisestä PPR-sanomasta on:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Äskettäin julkaistu raportti (versio 1.0), jossa kuvataan Dell PowerEdge -palvelimen muistiin liittyviä luotettavuuden, käytettävyyden ja huollettavuuden (RAS) ominaisuuksia, on nyt saatavilla erilaisia RAS-ominaisuuksia ja -toimintoja, jotka ovat käytettävissä PowerEdge-palvelimissa - muistivirheet ja Dell PowerEdge YX4X -palvelinmuistin RAS-ominaisuudet.

 

Päivitetty 24. huhtikuuta 2020

Dell jatkaa itsekorjaustoimintojemme parantamista. Seuraavassa osassa luetellaan eri BIOS-versioihin liittyvät päivitykset ja parannukset.

BIOS 2.1.x - Ensimmäinen artikkeli BIOS 2.1.6 :sta alkaen saatavilla olevista itsekorjautuvista ominaisuuksista, mukaan lukien esimerkkivirheilmoitukset ja suositellut toimet.

BIOS 2.4.x ja uudemmat muutokset (joulukuu 2019)

  • MEM0702 (Korjattavissa oleva virheprosentti ylitetty...) – Viesti päivitetty kriittisestä varoitukseksi. Suositellut toimet päivitetty käynnistämään palvelin uudelleen, jotta "itsekorjaus" tapahtuu - esimerkiksi Post Package Repair.
    • Joulukuu 2019 tai uudempi iDRAC asennetaan myös päivitetyn viestin saamiseksi
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
  • MEM9060 - Ilmoituksen kuvaus päivitetty, jotta se ilmaisee itsekorjauksen onnistuneen

BIOS 2.5.x -version ja uudempien muutokset (helmikuu 2020)

  • Correctable Error Logging -asetus on lisätty asetukseen, jonka avulla asiakkaat voivat poistaa käytöstä kaiken korjattavissa oleviin virheisiin liittyvän elinkaaren tai SEL:in kirjaamisen. Kaikki "itsekorjautuvat" ominaisuudet toimivat edelleen - esimerkiksi PPR ja muistin uudelleenkoulutus ajoitetaan edelleen ja suoritetaan seuraavan uudelleenkäynnistyksen aikana (muistin määritysprosessin alussa).
  • RDIMM- ja LRDIMM-moduulien MEM08xx-virheet korvaavat nykyiset virheilmoitukset ja toimet. Nykyisiä virheilmoituksia käytetään edelleen ympäristöissä, jotka eivät tue itsekorjausominaisuuksia.
    • Uusien viestien kirjaaminen lokiin edellyttää helmikuuta 2020 tai uudempaa iDRACia.
Huomautus: Ilman päivitettyä iDRACia uudet BIOS-ilmoitukset ovat unknown-tilassa SEL- tai Lifecycle-lokeissa.
  • MEM0802 – Korvattu MEM0702 – korjattavissa olevien virheiden määrä ylitetty
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan. PPR:n onnistumisen vahvistaminen (MEM0802)
  • MEM0804 – Korvattu MEM9060, joka ilmaisee, että PPR onnistui. Sisältää nyt DIMM-paikan sijainnin, jossa PPR toimi
    • Suositeltu toimenpide: Ei mitään, tämä tapahtuma viittaa "itseparantumiseen" eikä DIMM-moduulia tarvitse vaihtaa.
  • MEM0805 - korvaa UEFI0278-ilmoituksen, joka ilmaisi, että PPR epäonnistui
    • Suositeltu toimenpide: Vaihda viallinen DIMM

Päivitetty 10.7.2020

BIOS 2.7.x ja uudemmat muutokset (heinäkuun 2020 lohko, BIOS – kohdennettu heinäkuun puolivälissä verkkojulkaisuja varten)

  • MEM8000 (korjattavissa olevien virheiden kirjaaminen poistettu käytöstä) – Dell Engineering teki BIOS ~2.0.x -versiosta alkaen BIOS-muutoksen, joka nopeuttaa suorituskykyyn mahdollisesti vaikuttavien korjattavissa olevien virheiden havaitsemista. Tämä muutos johti sellaisten MEM8000 tapahtumien lisääntymiseen, joita ei voitu vahvistaa DIMM-vika-analyysin tuloksilla. BIOS 2.7.x -versiosta alkaen MEM8000-virheilmoituksiin on tehty kaksi muutosta. Ensimmäinen on se, että MEM8000 tapahtuman signalointia on muutettu. Toiseksi BIOS ajoittaa itsekorjauksen (PPR) seuraavaan uudelleenkäynnistykseen. iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta itsekorjaus/PPR suoritetaan. Varmista, että PPR onnistui (MEM0804).
  • MEM0001 (korjauskelvoton virhe) – Johtaa itsekorjaukseen (PPR), joka ajoitetaan seuraavaan uudelleenkäynnistykseen. iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Mitään ei tarvita, jos MEM0001 liittyy kriittiseen sivuun, jota käyttöjärjestelmä ei pysty palauttamaan – on silti vakava virhe, joka johtaa uudelleenkäynnistykseen. Jos MEM0001 liittyy ei-kriittiseen sivuun, jolta käyttöjärjestelmä voi palautua, uudelleenkäynnistys on ajoitettava kaikille itsekorjautuville (PPR). Varmista, että PPR onnistui (MEM0804).

PÄIVITETTY 13.1.2021

BIOS 2.8.2 ja uudemmat muutokset (syyskuun 2020 lohko BIOS)

  • MEM9072 (Memory patrol scrub -prosessissa havaittu korjaamaton virhe - sivua ei käytetä tai se ei ole käytössä) - Johtaa itsekorjaukseen (PPR), joka ajoitetaan seuraavaan uudelleenkäynnistykseen. iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Ajoita uudelleenkäynnistys pian. Uudelleenkäynnistyksen viivästyminen saattaa aiheuttaa sivun käyttämisen, mikä aiheuttaa MEM0001-virheen, joka saattaa puolestaan aiheuttaa uudelleenkäynnistyksen. Muistin itsekorjaus (PPR) tehdään kyseisen uudelleenkäynnistyksen aikana. Varmista, että PPR onnistui (MEM0804).
Huomautus: Engineering white paperin uusin versio (versio 1.3 - julkaisupäivä 20. marraskuuta 2020) löytyy osoitteesta:  
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfIntel Xeon E:n ja AMD:n EPYC-sisällön osalta viitataan edelleen alkuperäiseen tekniseen raporttiin (versio 1.0), joka löytyy osoitteesta: PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)

Muita RAS-ominaisuuksien lisäparannuksia suunnitellaan tehtäväksi tulevissa BIOS-päivityksissä.

 
Huomautus: Virhekoodisanomien yksityiskohtainen kuvaus ja suositellut toimet ovat seuraavassa linkissä: Look Up (dell.com). Koska virhekoodit (kuten MEM0001) koskevat useita palvelin- ja ympäristösukupolvia, suositellut toimet eivät välttämättä ole ajan tasalla tietyssä BIOS-versiossa. Lisätyt uudet virhekoodit (kuten MEM0802, MEM0804, MEM0805 ja niin edelleen) koskevat vain palvelimia, joissa on Intel Xeon Scalable Processor -suoritin (ensimmäinen tai toinen sukupolvi).

 

Tätä artikkelia päivitetään, kun uutta tietoa tulee saataville.


Ladattavat tiedostot ja ajurit: Ohjaimet ja ladattavat tiedostot

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.