Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Skaalautuvia Intel Xeon -suorittimia käyttävien Dell PowerEdge -palvelimien DDR4-muistin itsekorjaus

Summary: Korjattavissa olevat ja korjauskelvottomat muistivirheet PowerEdge PowerEdge Server DDR4:llä ja muutokset vianmääritysvaiheisiin

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Mikä on DDR4 :n itsekorjautuva asema Dell PowerEdge -palvelimissa, joissa on Intel Xeon Scalable -suoritin (ensimmäinen tai toinen sukupolvi) ja BIOS-versio 2.1.x tai uudempi?

Miten nämä DDR4:n itsekorjausominaisuudet (BIOS-parannukset) muuttavat suositeltuja asiakkaan ja teknisen tuen toimia, kun palvelimessa ilmenee muistivirheitä?

Mitä "itsekorjaavia" parannuksia uudemmissa BIOS-versioissa on?

Cause

Dell PowerEdge BIOSiin tehdään jatkuvasti parannuksia, jotka parantavat muistitapahtumien viestintää, virheiden käsittelyä ja palvelimen uudelleenkäynnistyksen yhteydessä tapahtuvaa itsekorjautumista. Silloin virhetapahtumia kirjannut DDR4-muistimoduulin tilalle ei tarvita ajoitettua huoltoikkunaa tai paikan päällä läsnäoloa.

Resolution

PowerEdge-palvelimissa, joissa on käytössä DDR4 ja vähintään BIOS-versio 2.1.x, on kaksi tärkeää muistiin liittyvää itsekorjautuvaa BIOSin parannusta. Nämä parannukset muuttavat suositeltuja toimia siinä tapauksessa, että muistitapahtumia ilmenee ja ne kirjataan LifeCycle-lokiin.

Huomautus:
  • Jos BIOS 2.0 tai sitä vanhempi versio sisältää DDR4-muistivirheitä, päivitä BIOS uusimpaan versioon, joka sisältää monia muistin itsekorjausominaisuuksia ja jatkuvia parannuksia. Suosittelemme asiakkaita päivittämään uusimpaan saatavilla olevaan BIOS-versioon (ja iDRAC-laiteohjelmistoon), jotta he voivat hyödyntää uusimpia itsekorjautuvia parannuksia.
  • Aiempiin muistin vianmääritysvaiheisiin kuului viallisten DIMM-moduulien siirtäminen toiseen paikkaan sen varmistamiseksi, seuraavatko virheet DIMM-moduulia vai pysyvätkö ne DIMM-paikassa. BIOS 2.1.x tai uudempi versio on käynnistää tietokone uudelleen (siirtämättä DIMM-moduuleja toiseen paikkaan). Näin uudet BIOS-parannukset voidaan suorittaa ja mahdollisesti korjata (itsekorjautuvat) DIMM-virheet ilman DIMM-vaihtojen ajoittamista.

1. Muistin uudelleenkoulutuksen parannukset

Käynnistyksen aikana (muistin määritysvaiheiden alussa) tapahtuva muistin uudelleenkoulutus optimoi kunkin DIMM-moduulin/paikan signaalin ajoituksen ja marginaalit, jotta moduulit toimivat mahdollisimman hyvin. DIMM-moduulin muistisignaalin ajoitus ja marginaaliominaisuudet voivat muuttua ajan myötä useista eri syistä:

  • Palvelimen muistikokoonpanon muutokset
  • BIOSin muutokset (Memory Reference Code - MRC)
  • Palvelimen tai DIMM-moduulin eri käyttölämpötilat
  • DIMM-moduulin ikä

Aiemmin BIOSin päivityksen tai muistikokoonpanon muutosten havaitseminen olisi aiheuttanut muistin uudelleenkoulutuksen seuraavan käynnistyksen aikana. BIOS 2.1.x -versiosta alkaen ajoitettuun uudelleenkoulutukseen lisättiin korjattavien ja korjauskelvottomien muistivirheiden käynnistimet:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Jos jokin näistä virheistä kirjataan SEL/LifeCycle-lokeihin, muistin uudelleenkoulutus ajoitetaan seuraavan käynnistyksen (lämmin tai kylmä) yhteyteen. BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Tämä monitavuinen virhe saattaa aiheuttaa palvelimen uudelleenkäynnstymisen vakavan virheen vuoksi, jos käyttöjärjestelmä ei pysty käsittelemään kyseistä virhettä. Muistin uudelleenkoulutus tapahtuu automaattisesti kyseisen käynnistyksen aikana. Jos monibittinen virhe ilmenee ei-kriittisessä muistipaikassa, jonka käyttöjärjestelmä pystyy käsittelemään, uudelleenkäynnistys on ajoitettava.

Muistin uudelleenkoulutus POST-testin aikana voi "itsekorjata" vikaantuneen DIMM-moduulin ja siihen liittyvän paikan optimoimalla signaalin ajoituksen ja marginaalit. DIMM-moduulin vaihtoa ei tarvitse tehdä näiden virheiden yhteydessä, ellei muistin uudelleenkoulutus epäonnistu (UEFI0106) käynnistyksen aikana tai elleivät samat virheet toistu.
 

2. Post Package Repair (PPR) -palvelu

Toinen "itsensä parantava" muistin parannus on PPR. PPR korjaa vikaantuneen muistipaikan poistamalla sijainnin tai osoitteen käytöstä laitetasolla, jolloin sen sijasta voidaan käyttää varamuistiriviä. Käytettävissä olevien varamuistirivien tarkka määrä määräytyy DRAM-laitteen ja DIMM-koon mukaan.

Tämä toiminto oli aiemmin käytettävissä vain valmistusprosessin aikana. Kuten aiemmin mainituissa muistin uudelleenkoulutuksen parannuksissa, myös tietyissä korjattavissa olevissa muistivirheissä PPR ajoitetaan tiettyyn DIMM-paikkaan seuraavaa uudelleenkäynnistystä varten (lämmin tai kylmä). BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta. Koska PPR-toiminto on ajoitettu tiettyyn DIMM-paikkaan, ÄLÄ muuta DIMM-paikkoja, ennen kuin PPR-toiminto on suoritettu. Esimerkkejä virheistä:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Mikä tahansa näistä lokeihin liittyvistä tapahtumista aiheuttaa PPR:n ajoittumisen seuraavaan uudelleenkäynnistykseen (lämmin tai kylmä) muistin määritysvaiheen alussa.

Huomautus: Sanomatunnus MEM8000 (Korjattavissa olevan muistivirheen lokiin kirjaaminen poistettu käytöstä muistilaitteessa sijainnissa DIMM_XX.), jos vastaavaa MEM0005/MEM0701/MEM0702 ei ole samassa DIMM-paikassa, eikä PPR:ää ajoiteta seuraavaan uudelleenkäynnistykseen.

Katso MEM8000-tapahtuman muutokset 10. heinäkuuta 2020 -päivityksestä ja päivitetystä versiosta 1.1 ja uudemmista raporteista.

Tarkista uudelleenkäynnistyksen jälkeen, että PPR-toiminto suoritettiin. Esimerkki onnistuneesta PPR-toiminnosta:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Näitä korjattavissa olevia muistivirheitä ei tarvitse vaihtaa DIMM-moduulilla, ellei PPR-toimintoa suoriteta. Esimerkki epäonnistuneesta kriittisestä PPR-sanomasta on:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Äskettäin julkaistu raportti (versio 1.0), jossa kuvataan Dell PowerEdge -palvelimen muistiin liittyviä luotettavuuden, käytettävyyden ja huollettavuuden (RAS) ominaisuuksia, on nyt saatavilla erilaisia RAS-ominaisuuksia ja -toimintoja, jotka ovat käytettävissä PowerEdge-palvelimissa - muistivirheet ja Dell EMC PowerEdge YX4X -palvelinmuistin RAS-ominaisuudet.

Lisätietoja korjattavissa olevista virhekynnystapahtumista on artikkelissa 14G Intel- ja 15G Intel/AMD PowerEdge -palvelimet: DDR4-muisti: korjattavissa olevien virhekynnystapahtumien hallinta.

Päivitetty 24. huhtikuuta 2020

Dell jatkaa itsekorjaustoimintojemme parantamista. Seuraavassa osassa luetellaan eri BIOS-versioihin liittyvät päivitykset ja parannukset.

BIOS 2.1.x - Ensimmäinen artikkeli BIOS 2.1.6 :sta alkaen saatavilla olevista itsekorjautuvista ominaisuuksista, mukaan lukien esimerkkivirheilmoitukset ja suositellut toimet.

BIOS 2.4.x ja uudemmat muutokset (joulukuu 2019)

  • MEM0702 (Korjattavissa oleva virheprosentti ylitetty...) – Viesti päivitetty kriittisestä varoitukseksi. Suositellut toimet päivitetty käynnistämään palvelin uudelleen, jotta "itsekorjaus" tapahtuu - esimerkiksi Post Package Repair.
    • Joulukuu 2019 tai uudempi iDRAC asennetaan myös päivitetyn viestin saamiseksi
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
  • MEM9060 - Ilmoituksen kuvaus päivitetty, jotta se ilmaisee itsekorjauksen onnistuneen

BIOS 2.5.x -version ja uudempien muutokset (helmikuu 2020)

  • BIOSiin on lisätty asetus Correctable Error Logging, jotta asiakkaat voivat poistaa käytöstä kaikkien korjauskelpoisten virheiden LifeCycle/SEL-kirjauksen. Kaikki "itsekorjautuvat" ominaisuudet toimivat edelleen - esimerkiksi PPR ja muistin uudelleenkoulutus ajoitetaan edelleen ja suoritetaan seuraavan uudelleenkäynnistyksen aikana (muistin määritysprosessin alussa).
  • RDIMM- ja LRDIMM-moduulien MEM08xx-virheet korvaavat nykyiset virheilmoitukset ja toimet. Nykyisiä virheilmoituksia käytetään edelleen ympäristöissä, jotka eivät tue itsekorjausominaisuuksia.
    • Uusien viestien kirjaaminen lokiin edellyttää helmikuuta 2020 tai uudempaa iDRACia.
Huomautus: Ilman päivitettyä iDRACia uudet BIOS-ilmoitukset ovat unknown-tilassa SEL- tai LifeCycle-lokeissa.
  • MEM0802 – Korvattu MEM0702 – korjattavissa olevien virheiden määrä ylitetty
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan. PPR:n onnistumisen vahvistaminen (MEM0802)
  • MEM0804 – Korvattu MEM9060, joka ilmaisee, että PPR onnistui. Sisältää nyt DIMM-paikan sijainnin, jossa PPR toimi
    • Suositeltu toimenpide: Ei ole. Tämä tapahtuma ilmaisee, että tietokone on parantunut itsestään, eikä DIMM-moduulia tarvitse vaihtaa.
  • MEM0805 - korvaa UEFI0278-ilmoituksen, joka ilmaisi, että PPR epäonnistui
    • Suositeltu toimenpide: Vaihda viallinen DIMM

Päivitetty 10.7.2020

BIOS 2.7.x ja uudemmat muutokset (heinäkuun 2020 lohko, BIOS – kohdennettu heinäkuun puolivälissä verkkojulkaisuja varten)

  • MEM8000 (korjattavissa olevien virheiden kirjaaminen poistettu käytöstä) – Dell Engineering teki BIOS ~2.0.x -versiosta alkaen BIOS-muutoksen, joka nopeuttaa suorituskykyyn mahdollisesti vaikuttavien korjattavissa olevien virheiden havaitsemista. Tämä muutos johti sellaisten MEM8000 tapahtumien lisääntymiseen, joita DIMM-vika-analyysin tulokset eivät vahvistaneet. BIOS 2.7.x -versiosta alkaen MEM8000-virheilmoituksiin on tehty kaksi muutosta. Ensimmäinen on se, että MEM8000 tapahtuman signalointia on muutettu. Toiseksi BIOS ajoittaa itsekorjauksen (PPR) seuraavaan uudelleenkäynnistykseen. iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta itsekorjaus/PPR suoritetaan. Varmista, että PPR onnistui (MEM0804).
  • MEM0001 (korjauskelvoton virhe) – Johtaa itsekorjaukseen (PPR), joka ajoitetaan seuraavaan uudelleenkäynnistykseen. iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Mitään ei tarvita, jos MEM0001 liittyy kriittiseen sivuun, jota käyttöjärjestelmä ei pysty palauttamaan – on silti vakava virhe, joka johtaa uudelleenkäynnistykseen. Jos MEM0001 liittyy ei-kriittiseen sivuun, jolta käyttöjärjestelmä voi palautua, uudelleenkäynnistys on ajoitettava kaikille itsekorjautuville (PPR). Varmista, että PPR onnistui (MEM0804).

PÄIVITETTY 13.1.2021

BIOS 2.8.2 ja uudemmat muutokset (syyskuun 2020 lohko BIOS)

  • MEM9072 (Memory patrol scrub -prosessissa havaittu korjaamaton virhe - sivua ei käytetä tai se ei ole käytössä) - Johtaa itsekorjaukseen (PPR), joka ajoitetaan seuraavaan uudelleenkäynnistykseen.  iDRAC-sanomia ei ole vielä päivitetty vastaamaan uusia toimintoja.
    • Suositeltu toimenpide: Ajoita uudelleenkäynnistys pian. Uudelleenkäynnistyksen viivästyminen saattaa aiheuttaa sivun käyttämisen, mikä aiheuttaa MEM0001-virheen, joka saattaa puolestaan aiheuttaa uudelleenkäynnistyksen.  Muistin itsekorjaus (PPR) tehdään kyseisen uudelleenkäynnistyksen aikana. Varmista, että PPR onnistui (MEM0804).
Huomautus: Engineering white paperin uusin versio (versio 1.3 - julkaisupäivä 20. marraskuuta 2020) löytyy osoitteesta:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfIntel Xeon E:n ja AMD:n EPYC-sisällön osalta viitataan edelleen alkuperäiseen tekniseen raporttiin (versio 1.0), joka löytyy osoitteesta: PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)

Muita RAS-ominaisuuksien lisäparannuksia suunnitellaan tehtäväksi tulevissa BIOS-päivityksissä.

Huomautus: Virhekoodisanomien yksityiskohtainen kuvaus ja suositellut toimet ovat seuraavassa linkissä: Look Up (dell.com). Koska virhekoodit (kuten MEM0001) koskevat useita palvelin- ja ympäristösukupolvia, suositellut toimet eivät välttämättä ole ajan tasalla tietyssä BIOS-versiossa. Lisätyt uudet virhekoodit (kuten MEM0802, MEM0804, MEM0805 ja niin edelleen) koskevat vain palvelimia, joissa on Intel Xeon Scalable Processor (ensimmäinen tai toinen sukupolvi).

Tätä artikkelia päivitetään, kun uutta tietoa tulee saataville.

Katso myös: Ohjeita muistin vianmääritykseen vaihtotestauksella – PowerEdge-järjestelmien muistivirheiden vianmääritys vaihtotestauksella

Ladattavat tiedostot ja ajurit: Ajurit ja ladattavat tiedostot | Dell USA

Article Properties


Affected Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...
Product

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F

Last Published Date

19 Apr 2024

Version

15

Article Type

Solution