PowerEdge 14G Intel- en 15G-servers: Gebeurtenissen met een herstelbare foutdrempel beheren
Samenvatting: Dit artikel bevat bijgewerkte aanbevelingen voor het beheren van corrigeerbare foutdrempelgebeurtenissen (MEM0802 of MEM5104) op DDR4 RDIMM's of LRDIMM's die zijn geïnstalleerd in op Intel gebaseerde 14G en 15G PowerEdge servers en AMD op 15G PowerEdge servers. ...
Symptomen
Door de ontwikkeling van de RAS-functies (Reliability, Accessibility en Serviceability) in het Enterprise-Class geheugen, heeft Dell een conservatieve benadering gekozen bij het bieden van transparantie aan onze klanten. Naarmate deze evolutie zich voortzet, doet Dell dat ook voor foutrapportage, waardoor de focus kan worden gelegd op meldingen die een dringender reactie vereisen in vergelijking met meldingen die voornamelijk informatief van aard zijn.
Naarmate de op DRAM gebaseerde geheugengeometrieën steeds kleiner worden, waardoor klanten de hogere prestaties krijgen die ze eisen, wordt een toenemend aantal corrigeerbare fouten verwacht als een natuurlijk onderdeel van uniforme schaalbaarheid.
Oorzaak
Oplossing
Het blijven werken van een systeem dat corrigeerbare fouten meldt zonder opnieuw op te starten om het systeem zelf te herstellen, verhoogt het risico op niet-corrigeerbare fouten die kunnen leiden tot ongeplande downtime niet. Anderen in de branche hebben publiekelijk gecommuniceerd dat hun geheugenverwerking geen corrigeerbare fouten rapporteert.
In 14G Intel PowerEdge BIOS versie 2.5.4 en nieuwer is een BIOS-instelling toegevoegd met de naam "Correctable Error Logging", zodat klanten de mogelijkheid hebben om corrigeerbare foutrapportage uit te schakelen als ze dat willen, en velen hebben dat gedaan. Het BIOS blijft automatische herinstallatie plannen voor herstelbare drempelgebeurtenissen, zelfs zonder de logboekregistratie. Deze geplande automatische herinstallatie vindt automatisch plaats tijdens de daaropvolgende herstart van het systeem.
Om meer in lijn te komen met de branche en de voortdurende feedback van klanten, wordt vanaf maart 2022 de BIOS-instelling "Correctable Error Logging" gewijzigd in standaard uitgeschakeld. Deze BIOS-optie kan opnieuw worden ingeschakeld voor klanten die corrigeerbare geheugendrempelgebeurtenissen willen blijven zien. BIOS-versies met deze wijziging van de BIOS-instelling zijn:
- 14G Intel platforms - BIOS-versie 2.13.3 of nieuwer
- 15G AMD platforms - BIOS-versie 2.6.5 of nieuwer
- 15G Intel platforms - BIOS-versie 1.5.5 of nieuwer.
De voordelen van DDR4 DIMM zelfherstel door een herstart van het systeem:
- Het maakt reparatie van een DDR4 DIMM mogelijk zonder verwijdering uit het systeem; alle DDR4 DIMM's van Dell ondersteunen de functie voor zelfherstel van het geheugen.
- Maakt gebruik van beschikbare reserverijen die zijn ingebouwd in de DRAM waar een slechte rij permanent wordt vervangen door een bekende goede rij door elektrische zekering.
- De daaropvolgende hertraining van het geheugen optimaliseert de "data-ogen" door de centrale punten opnieuw te kalibreren om er zeker van te zijn dat de geheugenbus op het hoogste niveau van signaalintegriteit werkt.
Voor corrigeerbare drempelgebeurtenissen waarbij de BIOS-instelling "Correctable Error Logging" is ingeschakeld raadt Dell Technologies aan om tijdens gebeurtenissen met een geheugendrempel opnieuw op te starten volgens het normale onderhoudsschema van de klant, zodat het geplande geheugen automatisch opnieuw kan worden geïnstalleerd of zichzelf kan corrigeren. Na het opnieuw opstarten worden geslaagde of mislukte automatische herinstallatiegebeurtenissen geregistreerd voor de bijbehorende DIMM's.
Als de BIOS-instelling "Correctable Error Logging" is uitgeschakeld, raadt Dell Technologies aan om opnieuw op te starten volgens het normale onderhoudsschema van de klant. Bij het opnieuw opstarten worden alle geplande automatische herinstallatiebewerkingen automatisch uitgevoerd. Het systeem registreert een gebeurtenis (MEM0805 of gebeurtenissen van het MEM7114-type) als de automatische herinstallatie of zelfcorrectie niet is gelukt en raadt verder aan de betreffende DIMM fysiek te vervangen.
Aanbeveling:
Dell Memory Engineering raadt PowerEdge Server klanten met oudere BIOS-versies (vóór maart 2022 releases) aan om de BIOS-instelling "Correctable Error Logging" te wijzigen in Uitgeschakeld. Dit elimineert de sporadische herstelbare geheugendrempelgebeurtenissen (zoals gebeurtenissen van het MEM0802- of MEM5104-type) in hun serverinfrastructuur die aanbevelen de server opnieuw op te starten om automatische herinstallatie of zelfcorrectie mogelijk te maken. Zoals eerder vermeld, worden geplande automatische herinstallatie- of zelfcorrectiebewerkingen automatisch uitgevoerd wanneer de server opnieuw wordt opgestart en eventuele storingen worden gemeld.
De BIOS-instelling "Correctable Error Logging" kan worden gewijzigd door de server opnieuw op te starten naar F2-instellingen of door de iDRAC WebUI te gebruiken.
De BIOS-instelling wijzigen in F2-systeeminstellingen:
-
Start de servers opnieuw op en stop bij de F2-instellingen
-
Wijzig in de selectie BIOS-instellingen>Geheugeninstellingen de Correctable Error Logging in Disabled.
-
Sla de BIOS-instellingen op en sluit de F2-instellingen af
De BIOS-instelling wijzigen met behulp van de iDRAC WebUI:
- Meld u aan bij de iDRAC WebUI
- Vouw onder Configuration >BIOS Settings het gedeelte Memory Settings uit
- Wijzig de instelling voor herstelbare foutregistratie in Uitgeschakeld
- Klik op de knop Toepassen om de geheugeninstellingen op te slaan
- Vergeet niet de knop Toepassen en opnieuw opstartente selecteren (om onmiddellijk opnieuw op te starten) of Bij volgende keer opnieuw opstarten om de BIOS-wijzigingen toe te passen.
Bestaande artikelen en whitepapers over geheugen worden bijgewerkt om deze aanbevolen wijziging weer te geven.
Managing Correctable Error Notices Dec 2021 v1.pdf."
Dit artikel wordt bijgewerkt zodra er nieuwe informatie beschikbaar komt.