PowerEdge: DDR4-itsekorjaus Dell PowerEdge -palvelimissa, joissa on AMD Rome- ja Milan-suorittimet
Yhteenveto: DDR4-muistia käyttävien AMD PowerEdge -palvelinten korjattavissa olevien muistivirheiden selitys ja vianmääritysvaiheiden muutokset
Oireet
Mitä DDR4 "itsekorjaava" on AMD Rome- ja Milan-suoritinpohjaisissa PowerEdge-palvelimissa (R65xx, R75xx ja C65xx)?
Tukevatko edellisen sukupolven AMD-pohjaiset PowerEdge-palvelimet, joissa on AMD EPYC -suorittimet (R64xx ja R74xx), näitä samoja itsekorjausominaisuuksia?
Miten nämä DDR4:n itsekorjausominaisuudet (BIOS-parannukset) muuttavat suositeltuja asiakkaan ja teknisen tuen toimia, kun palvelimessa ilmenee muistivirheitä?
Syy
Dell Technologies PowerEdge BIOSiin tehdään jatkuvasti parannuksia, jotka parantavat muistivirheisiin liittyvää viestintää, virheiden käsittelyä ja itsekorjautumista palvelimen uudelleenkäynnistyksen yhteydessä, jotta virhetapahtumia kirjaavan DDR4-muistimoduulin tilalle ei tarvita ajoitettua huoltoikkunaa ja läsnäoloa paikan päällä.
Tarkkuus
AMD-suoritinpohjaisiin PowerEdge-palvelimiin (65xx ja 75xx), joissa on DDR4-muisti, sisältyy kaksi pääasiallista muistiin liittyvää BIOS-parannusta tuotejulkaisun yhteydessä. Nämä parannukset muuttavat suositeltuja toimia siinä tapauksessa, että muistivirheitä ilmenee ja ne kirjataan Lifecycle-lokiin.
AMD Rome- ja Milan-pohjaisissa PowerEdge-palvelimissa ensimmäinen suositeltu toimi on uudelleenkäynnistys ( siirtämättä DIMM-moduuleja toiseen paikkaan). Uusien BIOS-parannusten suorittaminen voi ratkaista (itsekorjautuvat) DIMM-virheet ilman, että DIMM-moduuleja tarvitsee vaihtaa.
Suosittelemme asiakkaita päivittämään uusimpaan saatavilla olevaan BIOS-versioon (ja iDRAC-laiteohjelmistoon), jotta he voivat hyödyntää uusimpia itsekorjautuvia parannuksia.
1. Muistin uudelleenkoulutuksen parannukset – Käynnistyksen yhteydessä tapahtuva muistin uudelleenkoulutus optimoi kunkin DIMM-moduulin ja paikan signaalin ajoituksen tai marginaalit, jotta moduulit toimivat mahdollisimman hyvin. DIMM-moduulin ajoitusominaisuuksien muuttumiseen voi olla useita syitä:
- Palvelimen muistikokoonpanon muutokset
- BIOSin muutokset
- Palvelimen tai DIMM-moduulin erilaiset käyttölämpötilat
- DIMM-moduulin ikä
Nykyiset AMD Rome- ja Milan-pohjaiset PowerEdge-palvelimet (65xx ja 75xx) suorittavat muistin uudelleenkoulutuksen jokaisen käynnistyksen yhteydessä. Tämä eroaa nykyisestä Intel-pohjaisesta PowerEdge-palvelintoteutuksesta.
Jos SEL- tai Lifecycle-lokeihin kirjataan jokin seuraavista virheistä, Dell Technologiesin tekninen osasto suosittelee käynnistämään palvelimen uudelleen, jotta muisti voidaan uudelleenkouluttaa.
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX.
Näiden korjattavien tai korjauskelvottomien (monibittisten) muistivirheiden yhteydessä suoritettava muistin uudelleenkoulutus uudelleenkäynnistyksessä voi "korjata" vikaantuneen DIMM-moduulin itsekorjauksen optimoimalla kunkin DIMM-moduulin ja paikan signaalin ajoituksen ja marginaalit. DIMM-moduulia ei tarvitse vaihtaa, elleivät muistin uudelleenkoulutus epäonnistu (UEFI0106) käynnistyksen aikana tai elleivät samat virheet toistu.
2. Post Package Repair (PPR) – Toinen itsekorjautuva muistin parannus korjaa DIMM-moduulin vikaantuneen muistipaikan poistamalla sijainnin tai osoitteen käytöstä laitetasolla, jolloin sen sijasta voidaan käyttää varamuistiriviä. Käytettävissä olevien varamuistirivien tarkka määrä määräytyy DRAM-laitteen ja DIMM-koon mukaan.
Tämä toiminto oli aiemmin käytettävissä vain valmistusprosessin aikana. Kuten aiemmin mainituissa muistin uudelleenkoulutuksen parannuksissa, myös muistissa on tiettyjä korjattavia ja korjauskelvottomia virheitä, joiden vuoksi PPR ajoitetaan tiettyyn DIMM-paikkaan seuraavaa uudelleenkäynnistystä varten (lämmin tai kylmä). BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta. Koska PPR-toiminto on ajoitettu tiettyyn DIMM-paikkaan, ÄLÄ muuta DIMM-paikkoja, ennen kuin PPR-toiminto on suoritettu. Esimerkkejä virheistä:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM9072 - "The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location arg1."
Jos mitä tahansa näistä virheistä kirjataan SEL-/Lifecycle-lokiin, PPR ajoitetaan seuraavaan uudelleenkäynnistykseen (lämmin tai kylmä).
Esimerkki onnistuneesta PPR-operaatiosta on samanlainen:
-
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
DIMM-moduulia ei tarvitse vaihtaa näiden korjattavien muistivirheiden yhteydessä, ellei PPR-toiminto epäonnistu uudelleenkäynnistyksen jälkeen. Esimerkki epäonnistuneen PPR-toiminnon ilmoituksesta:
-
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Päivitetty 24. huhtikuuta 2020
Dell Technologies jatkaa itsekorjaustoimintojensa parantamista ja laajentamista. Seuraavassa osassa kerrotaan päivitykset/parannukset ja BIOS-versio, jossa muutokset on otettu käyttöön.
BIOS 1.0.x - Ensimmäinen artikkeli itsekorjautuvista ominaisuuksista, jotka ovat käytettävissä BIOS 1.0.x:stä alkaen, mukaan lukien esimerkkivirheilmoitukset ja suositellut toimet.
BIOS 1.1.x ja uudemmat muutokset (joulukuu 2019)
- MEM0702 (korjattavissa olevien virheiden määrä ylitetty [...]) – Viesti päivitetty kriittisestä tapahtumasta varoittavaksi, ja suositellut toimet päivitetty käynnistämään palvelin uudelleen, jotta itsekorjaus (Post Package Repair (PPR)) tapahtuu.
- Edellyttää myös joulukuun 2019 iDRAC-version tai uudemman asennusta, jotta päivitetty ilmoitus näkyy
- Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
- MEM9060 - Ilmoituksen kuvaus päivitetty, jotta se ilmaisee itsekorjauksen onnistuneen
BIOS 1.2.x ja uudemmat muutokset (helmikuu 2020)
- BIOS on Correctable Error Logging, jonka avulla asiakkaat voivat poistaa käytöstä kaikki korjattavissa oleviin virheisiin liittyvät elinkaarien ja tapahtumalokien kirjaukset. Kaikki "itsensä korjaavat" (PPR) ominaisuudet toimivat edelleen, ja muistin uudelleenkoulutus on edelleen ajoitettu ja suoritettu seuraavan uudelleenkäynnistyksen aikana.
- RDIMM- ja LRDIMM-moduulien MEM08xx-virheet korvaavat nykyiset virheilmoitukset ja toimet. Nykyisiä virheilmoituksia käytetään edelleen ympäristöissä, jotka eivät tue itsekorjausominaisuuksia.
- Edellyttää Helmikuu 2020 tai uudempi iDRAC viestien kirjaamista varten
- MEM0802 - korvaa virheilmoituksen MEM0702 - correctable error rate exceeded
- Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta PPR suoritetaan
- MEM0804 – Korvattu MEM9060, joka ilmaisee, että PPR onnistui. Sisältää nyt DIMM-paikkasijainnit, joissa oli PPR
- Suositeltu toimenpide: Ei mitään, se tarkoittaa, että "itsekorjausta" tapahtui, DIMM-moduulia ei tarvitse vaihtaa.
- MEM0805 - korvaa UEFI0278-ilmoituksen, joka ilmaisi, että PPR epäonnistui
- Suositeltu toimenpide: Viallisen DIMM-moduulin vaihtaminen
Päivitetty 25. tammikuuta 2021
BIOS 1.7.x ja uudemmat muutokset (joulukuu 2020)
- MEM8000 (korjattavissa olevien virheiden lokiin kirjaaminen poistettu käytöstä) – Dell Technologiesin tekninen osasto teki BIOSiin muutoksen parantaakseen suorituskykyyn mahdollisesti vaikuttavien korjattavissa olevien virheiden tunnistusta. Tämä muutos lisäsi MEM8000-tapahtumien määrää merkittävästi, mitä muistikomponenttien vika-analyysin tulokset eivät vahvistaneet. BIOS1.7.x:stä alkaen tähän on kaksi MEM8000 liittyvää muutosta. Ensimmäinen on se, että MEM8000 tapahtuman signalointia on muutettu. Toiseksi BIOS ajoittaa itsekorjauksen (PPR) seuraavaan uudelleenkäynnistykseen. Uudet toiminnot eivät ole vielä päivittyneet iDRAC-sanomiin
- Suositeltu toimenpide: Käynnistä palvelin uudelleen, jotta itsekorjaus/PPR suoritetaan. Varmista, että PPR onnistui (MEM0804).
Muita RAS-ominaisuuksien parannuksia arvioidaan parhaillaan, jotta ne voidaan sisällyttää tuleviin BIOS-päivityksiin.
Suunnitteilla on raportti, jossa kuvataan Dell Technologiesin PowerEdge-palvelimen (AMD Rome- ja Milan-pohjaiset suorittimet) muistiin liittyviä luotettavuus-, käytettävyys- ja huollettavuusominaisuuksia
(RAS).Tätä artikkelia päivitetään, kun uutta tietoa tulee saataville.