PowerEdge 14G Intel- ja 15G-palvelimet: Korjattavissa olevien virhekynnystapahtumien hallinta
摘要: Artikkeli sisältää päivitettyjä suosituksia korjattavissa olevien virhekynnystapahtumien (MEM0802 tai MEM5104) hallintaan DDR4 RDIMM- tai LRDIMM-moduuleissa, jotka on asennettu Intelin 14G- ja 15G-pohjaisiin PowerEdge- sekä AMD-pohjaisiin 15G PowerEdge -palvelimiin. ...
症状
Yritysluokan muistin luotettavuus-, käytettävyys- ja huollettavuusominaisuuksien (RAS) kehittymisen ansiosta Dell on omaksunut konservatiivisen lähestymistavan tarjotakseen läpinäkyvyyttä asiakkailleen. Tämän kehityksen jatkuessa myös Dellin lähestymistapa virheiden raportointiin muuttuu siten, että se pystyy keskittymään ilmoituksiin, jotka edellyttävät kiireellisempiä vastauksia kuin ilmoituksiin, jotka ovat luonteeltaan ensisijaisesti informatiivisia.
Koska DRAM-pohjaiset muistigeometriat kutistuvat edelleen, mikä tarjoaa asiakkaille heidän tarvitsemansa paremman suorituskyvyn, yhä enemmän korjattavissa olevia virheitä odotetaan olevan luonnollinen osa yhtenäistä skaalausta.
原因
解决方案
Korjattavissa olevista virheistä ilmoittavan järjestelmän käytön jatkaminen ilman uudelleenkäynnistystä tai itsekorjausta ei lisää korjauskelvottomien virheiden riskiä, jotka voivat johtaa suunnittelemattomiin käyttökatkoksiin. Muut alan toimijat ovat julkisesti ilmoittaneet, että heidän muistinkäsittelynsä ei ilmoita korjattavissa olevista virheistä.
14G Intel PowerEdge BIOS -versioon 2.5.4 ja uudempiin lisättiin BIOS-asetus nimeltä "Correctable Error Logging", jotta asiakkaat voivat halutessaan poistaa korjattavissa olevien virheiden raportoinnin käytöstä, kuten monet ovat tehneet. BIOS ajoittaa korjattavissa olevien kynnystapahtumien automaattisen uudelleenasennuksen myös ilman kirjaamista. Tämä ajoitettu automaattinen uudelleenasennus tapahtuu automaattisesti seuraavan järjestelmän uudelleenkäynnistyksen yhteydessä.
Dell PowerEdgen BIOS-päivityksissä muutetaan maaliskuussa 2022 voimaan tulevan Correctable Error Logging -BIOS-asetuksen niin, että Correctable Error Logging -asetus on oletusarvoisesti poissa käytöstä. Tämä BIOS-vaihtoehto voidaan ottaa uudelleen käyttöön, kun asiakkaat haluavat nähdä korjattavissa olevat muistin kynnysarvotapahtumat. Tämä BIOS-asetusten muutos sisältää seuraavat BIOS-versiot:
- 14G-Intel-alustat – BIOS-versio 2.13.3 tai uudempi
- 15G AMD -alustat – BIOS-versio 2.6.5 tai uudempi
- 15G-Intel-alustat – BIOS-versio 1.5.5 tai uudempi.
DDR4 DIMM -muistimoduulin itsekorjauksen edut järjestelmän uudelleenkäynnistyksellä:
- Se mahdollistaa DDR4 DIMM -moduulin korjauksen poistamatta sitä järjestelmästä. Kaikki Delliltä peräisin olevat DDR4 DIMM -moduulit tukevat muistin itsekorjausominaisuutta.
- Käyttää DRAM-muistiin suunniteltuja käytettävissä olevia vararivejä, joissa huono rivi korvataan pysyvästi hyväksi tiedetyllä rivillä sähköisellä sulakkeella.
- Seuraava muistin uudelleenkoulutus optimoi "datasilmät" kalibroimalla keskipisteet uudelleen varmistaakseen, että muistiväylä toimii korkeimmalla signaloinnin eheyden tasolla.
Jos muistin kynnystapahtumat ovat korjattavissa ja BIOS Correctable Error Logging -asetus on käytössä, Dell Technologies suosittelee muistin kynnysarvon tapahtumien tapauksessa uudelleenkäynnistystä asiakkaan normaalin ylläpitoaikataulun mukaisesti, jotta ajoitettu muisti voidaan asentaa uudelleen tai korjata automaattisesti. Uudelleenkäynnistyksen jälkeen siihen liittyvien DIMM-moduulien onnistunut tai epäonnistunut automaattinen uudelleenasennus kirjataan.
Kun BIOSin Correctable Error Logging -asetus on disable, Dell Technologies suosittelee uudelleenkäynnistystä asiakkaan normaalin ylläpitoaikataulun mukaisesti. Uudelleenkäynnistyksen yhteydessä ajoitetut automaattiset uudelleenasennustoiminnot suoritetaan automaattisesti. Järjestelmä kirjaa tapahtuman (MEM0805- tai MEM7114-tyyppiset tapahtumat), jos automaattinen uudelleenasennus tai itsekorjaus epäonnistui, ja suosittelee lisäksi viallisen DIMM-moduulin fyysistä vaihtamista.
Suositus:
Dell Memory Engineering suosittelee, että PowerEdge Server -asiakkaat, jotka käyttävät vanhempia BIOS-versioita (ennen maaliskuun lohkoa 2022 koskevia julkaisuja), ottavat käyttöön Correctable Error Logging -asetuksen muuttamisen pois käytöstä. Tämä eliminoi satunnaiset korjattavissa olevat muistikynnystapahtumat (kuten MEM0802- tai MEM5104 tyyppiset tapahtumat) koko palvelininfrastruktuurissa, jotka suosittelevat palvelimen uudelleenkäynnistystä automaattisen uudelleenasennuksen tai itsekorjauksen mahdollistamiseksi. Kuten edellä mainittiin, kaikki ajoitetut automaattiset uudelleenasennus- tai itsekorjaustoiminnot suoritetaan automaattisesti, kun palvelin käynnistetään uudelleen ja mahdollisista virheistä ilmoitetaan.
BIOSin Correctable Error Logging -asetusta voi muuttaa joko käynnistämällä palvelimen uudelleen F2-asetuksiin tai käyttämällä iDRAC WebUI -käyttöliittymää.
BIOS-asetuksen muuttaminen F2-järjestelmäasetuksista:
-
Käynnistä palvelimet uudelleen pysähtyen F2-asetuksiin
-
Muuta BIOS-asetusten>Muistiasetukset-valinnallaCorrectable Error Logging -kohdan arvoksi Disabled.
-
Tallenna BIOS-asetukset ja poistu F2-asetuksista
BIOS-asetuksen muuttaminen iDRAC-verkkokäyttöliittymässä:
- Kirjaudu iDRAC-verkkokäyttöliittymään
- Laajenna Configuration >BIOS Settings -kohdassa Memory Settings -kohta
- Vaihda Korjattavissa olevien virheiden kirjaus -asetukseksi Ei käytössä
- Tallenna muistiasetukset napsauttamalla Käytä-painiketta
- Älä unohda ottaa BIOS-muutokset käyttöön valitsemalla joko Käytä ja käynnistä uudelleen-painiketta (käynnistääksesi uudelleen välittömästi) tai Seuraavassa uudelleenkäynnistyksessä -painiketta .
Olemassa olevat muistiin liittyvät artikkelit ja tekniset raportit päivitetään vastaamaan tätä suositeltua muutosta.
Managing Correctable Error Notices Dec 2021 v1.pdf.
Tätä artikkelia päivitetään, kun uutta tietoa tulee saataville.