PowerEdge: DDR4-itsekorjaus Dell PowerEdge -palvelimissa, joissa on AMD Rome- ja Milan-suorittimet

Yhteenveto: DDR4-muistia käyttävien AMD PowerEdge -palvelinten korjattavissa olevien muistivirheiden selitys ja vianmääritysvaiheiden muutokset

Tämä artikkeli koskee tuotetta Tämä artikkeli ei koske tuotetta Tämä artikkeli ei liity tiettyyn tuotteeseen. Tässä artikkelissa ei yksilöidä kaikkia tuoteversioita.

Oireet

Mitä DDR4 "itsekorjaava" on AMD Rome- ja Milan-suoritinpohjaisissa PowerEdge-palvelimissa (R65xx, R75xx ja C65xx)?

Tukevatko edellisen sukupolven AMD-pohjaiset PowerEdge-palvelimet, joissa on AMD EPYC -suorittimet (R64xx ja R74xx), näitä samoja itsekorjausominaisuuksia?

Miten nämä DDR4:n itsekorjausominaisuudet (BIOS-parannukset) muuttavat suositeltuja asiakkaan ja teknisen tuen toimia, kun palvelimessa ilmenee muistivirheitä?

Syy

Dell Technologies PowerEdge BIOSiin tehdään jatkuvasti parannuksia, jotka parantavat muistivirheisiin liittyvää viestintää, virheiden käsittelyä ja itsekorjautumista palvelimen uudelleenkäynnistyksen yhteydessä, jotta virhetapahtumia kirjaavan DDR4-muistimoduulin tilalle ei tarvita ajoitettua huoltoikkunaa ja läsnäoloa paikan päällä.

Tarkkuus

AMD-suoritinpohjaisiin PowerEdge-palvelimiin (65xx ja 75xx), joissa on DDR4-muisti, sisältyy kaksi pääasiallista muistiin liittyvää BIOS-parannusta tuotejulkaisun yhteydessä. Nämä parannukset muuttavat suositeltuja toimia siinä tapauksessa, että muistivirheitä ilmenee ja ne kirjataan Lifecycle-lokiin.
 

Huomautus: Tässä artikkelissa käsitellyt itsekorjaavat parannukset eivät koske edellisen sukupolven AMD-pohjaisia PowerEdge-palvelimia, joissa on AMD EPYC -suorittimet. 64xx- ja 74xx AMD PowerEdge -palvelimet eivät sisällä mitään tässä artikkelissa kuvattuja itsekorjautuvia parannuksia. Muistin uudelleenkoulutus tapahtuu vain, kun palvelinmuistin kokoonpanossa havaitaan muutoksia. Engineering-raportin versiossa 1.0 kuvataan joitakin AMD EPYC -suorittimiin saatavilla olevia RAS-ominaisuuksia – PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)

 

Huomautus: Nykyisiin muistin vianmääritysvaiheisiin kuuluu viallisten DIMM-moduulien siirtäminen toiseen paikkaan, jotta voidaan tarkistaa, seuraavatko virheet DIMM-moduulia vai pysyvätkö ne DIMM-paikassa.

AMD Rome- ja Milan-pohjaisissa PowerEdge-palvelimissa ensimmäinen suositeltu toimi on uudelleenkäynnistys ( siirtämättä DIMM-moduuleja toiseen paikkaan). Uusien BIOS-parannusten suorittaminen voi ratkaista (itsekorjautuvat) DIMM-virheet ilman, että DIMM-moduuleja tarvitsee vaihtaa.

Suosittelemme asiakkaita päivittämään uusimpaan saatavilla olevaan BIOS-versioon (ja iDRAC-laiteohjelmistoon), jotta he voivat hyödyntää uusimpia itsekorjautuvia parannuksia.


1. Muistin uudelleenkoulutuksen parannukset – Käynnistyksen yhteydessä tapahtuva muistin uudelleenkoulutus optimoi kunkin DIMM-moduulin ja paikan signaalin ajoituksen tai marginaalit, jotta moduulit toimivat mahdollisimman hyvin. DIMM-moduulin ajoitusominaisuuksien muuttumiseen voi olla useita syitä:

  • Palvelimen muistikokoonpanon muutokset
  • BIOSin muutokset
  • Palvelimen tai DIMM-moduulin erilaiset käyttölämpötilat
  • DIMM-moduulin ikä

Nykyiset AMD Rome- ja Milan-pohjaiset PowerEdge-palvelimet (65xx ja 75xx) suorittavat muistin uudelleenkoulutuksen jokaisen käynnistyksen yhteydessä. Tämä eroaa nykyisestä Intel-pohjaisesta PowerEdge-palvelintoteutuksesta.

Jos SEL- tai Lifecycle-lokeihin kirjataan jokin seuraavista virheistä, Dell Technologiesin tekninen osasto suosittelee käynnistämään palvelimen uudelleen, jotta muisti voidaan uudelleenkouluttaa.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX.

Näiden korjattavien tai korjauskelvottomien (monibittisten) muistivirheiden yhteydessä suoritettava muistin uudelleenkoulutus uudelleenkäynnistyksessä voi "korjata" vikaantuneen DIMM-moduulin itsekorjauksen optimoimalla kunkin DIMM-moduulin ja paikan signaalin ajoituksen ja marginaalit. DIMM-moduulia ei tarvitse vaihtaa, elleivät muistin uudelleenkoulutus epäonnistu (UEFI0106) käynnistyksen aikana tai elleivät samat virheet toistu.
 

2. Post Package Repair (PPR) – Toinen itsekorjautuva muistin parannus korjaa DIMM-moduulin vikaantuneen muistipaikan poistamalla sijainnin tai osoitteen käytöstä laitetasolla, jolloin sen sijasta voidaan käyttää varamuistiriviä. Käytettävissä olevien varamuistirivien tarkka määrä määräytyy DRAM-laitteen ja DIMM-koon mukaan.
 

Tämä toiminto oli aiemmin käytettävissä vain valmistusprosessin aikana. Kuten aiemmin mainituissa muistin uudelleenkoulutuksen parannuksissa, myös muistissa on tiettyjä korjattavia ja korjauskelvottomia virheitä, joiden vuoksi PPR ajoitetaan tiettyyn DIMM-paikkaan seuraavaa uudelleenkäynnistystä varten (lämmin tai kylmä). BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta. Koska PPR-toiminto on ajoitettu tiettyyn DIMM-paikkaan, ÄLÄ muuta DIMM-paikkoja, ennen kuin PPR-toiminto on suoritettu. Esimerkkejä virheistä:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM9072 - "The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location arg1."

Jos mitä tahansa näistä virheistä kirjataan SEL-/Lifecycle-lokiin, PPR ajoitetaan seuraavaan uudelleenkäynnistykseen (lämmin tai kylmä).

Huomautus: Viestitunnus MEM8000 (Korjattavissa olevan muistivirheen lokiin kirjaaminen poistettu käytöstä muistilaitteessa sijainnissa DIMM_XX) Jos samassa DIMM-moduulissa ei ole vastaavaa MEM0005 tai MEM0701 tai MEM0702, PPR ei ajoitu seuraavaan uudelleenkäynnistykseen. Tarkista uudelleenkäynnistyksen jälkeen, että PPR-toiminto suoritettiin.

Esimerkki onnistuneesta PPR-operaatiosta on samanlainen:

  • Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

DIMM-moduulia ei tarvitse vaihtaa näiden korjattavien muistivirheiden yhteydessä, ellei PPR-toiminto epäonnistu uudelleenkäynnistyksen jälkeen. Esimerkki epäonnistuneen PPR-toiminnon ilmoituksesta:

  • Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."


Päivitetty 24. huhtikuuta 2020

Dell Technologies jatkaa itsekorjaustoimintojensa parantamista ja laajentamista. Seuraavassa osassa kerrotaan päivitykset/parannukset ja BIOS-versio, jossa muutokset on otettu käyttöön.

BIOS 1.0.x - Ensimmäinen artikkeli itsekorjautuvista ominaisuuksista, jotka ovat käytettävissä BIOS 1.0.x:stä alkaen, mukaan lukien esimerkkivirheilmoitukset ja suositellut toimet.

BIOS 1.1.x ja uudemmat muutokset (joulukuu 2019)

  • MEM0702 (korjattavissa olevien virheiden määrä ylitetty [...]) – Viesti päivitetty kriittisestä tapahtumasta varoittavaksi, ja suositellut toimet päivitetty käynnistämään palvelin uudelleen, jotta itsekorjaus (Post Package Repair (PPR)) tapahtuu.
    • Edellyttää myös joulukuun 2019 iDRAC-version tai uudemman asennusta, jotta päivitetty ilmoitus näkyy
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
  • MEM9060 - Ilmoituksen kuvaus päivitetty, jotta se ilmaisee itsekorjauksen onnistuneen

BIOS 1.2.x ja uudemmat muutokset (helmikuu 2020)

  • BIOS on Correctable Error Logging, jonka avulla asiakkaat voivat poistaa käytöstä kaikki korjattavissa oleviin virheisiin liittyvät elinkaarien ja tapahtumalokien kirjaukset. Kaikki "itsensä korjaavat" (PPR) ominaisuudet toimivat edelleen, ja muistin uudelleenkoulutus on edelleen ajoitettu ja suoritettu seuraavan uudelleenkäynnistyksen aikana.
  • RDIMM- ja LRDIMM-moduulien MEM08xx-virheet korvaavat nykyiset virheilmoitukset ja toimet. Nykyisiä virheilmoituksia käytetään edelleen ympäristöissä, jotka eivät tue itsekorjausominaisuuksia.
    • Edellyttää Helmikuu 2020 tai uudempi iDRAC viestien kirjaamista varten 

 

Huomautus: Ilman päivitettyä iDRACia uudet BIOS-ilmoitukset ovat unknown-tilassa SEL- ja LC-lokeissa.

 

  • MEM0802 - korvaa virheilmoituksen MEM0702  - correctable error rate exceeded
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
  • MEM0804 – Korvattu MEM9060, joka ilmaisee, että PPR onnistui. Sisältää nyt DIMM-paikkasijainnit, joissa oli PPR
    • Suositeltu toimenpide: Ei mitään, se tarkoittaa, että "itsekorjausta" tapahtui, DIMM-moduulia ei tarvitse vaihtaa.
  • MEM0805 - korvaa UEFI0278-ilmoituksen, joka ilmaisi, että PPR epäonnistui
    • Suositeltu toimenpide: Viallisen DIMM-moduulin vaihtaminen

Päivitetty 25. tammikuuta 2021

BIOS 1.7.x ja uudemmat muutokset (joulukuu 2020)
 

  • MEM8000 (korjattavissa olevien virheiden lokiin kirjaaminen poistettu käytöstä) – Dell Technologiesin tekninen osasto teki BIOSiin muutoksen parantaakseen suorituskykyyn mahdollisesti vaikuttavien korjattavissa olevien virheiden tunnistusta. Tämä muutos lisäsi MEM8000-tapahtumien määrää merkittävästi, mitä muistikomponenttien vika-analyysin tulokset eivät vahvistaneet. BIOS1.7.x:stä alkaen tähän on kaksi MEM8000 liittyvää muutosta. Ensimmäinen on se, että MEM8000 tapahtuman signalointia on muutettu. Toiseksi BIOS ajoittaa itsekorjauksen (PPR) seuraavaan uudelleenkäynnistykseen. Uudet toiminnot eivät ole vielä päivittyneet iDRAC-sanomiin
    • Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta itsekorjaus/PPR suoritetaan. Varmista, että PPR onnistui (MEM0804).



Muita RAS-ominaisuuksien parannuksia arvioidaan parhaillaan, jotta ne voidaan sisällyttää tuleviin BIOS-päivityksiin.

Suunnitteilla on raportti, jossa kuvataan Dell Technologiesin PowerEdge-palvelimen (AMD Rome- ja Milan-pohjaiset suorittimet) muistiin liittyviä luotettavuus-, käytettävyys- ja huollettavuusominaisuuksia

(RAS).Tätä artikkelia päivitetään, kun uutta tietoa tulee saataville.

Tuotteet, joihin vaikutus kohdistuu

OEMR R6515, OEMR R6525, OEMR R7515, OEMR R7525, PowerEdge R6515, PowerEdge R6525, PowerEdge R7515, PowerEdge R7525, PowerFlex appliance R6525, PowerFlex custom node R6525, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R7515 Ready Node , PowerFlex appliance R7525 ...
Artikkelin ominaisuudet
Artikkelin numero: 000062034
Artikkelin tyyppi: Solution
Viimeksi muutettu: 13 elok. 2025
Versio:  11
Etsi vastauksia kysymyksiisi muilta Dell-käyttäjiltä
Tukipalvelut
Tarkista, kuuluuko laitteesi tukipalveluiden piiriin.