NVDIMM-N: Hvad du skal vide om forskelle i fejlmeddelelser og "selvhelbredende" funktioner
Summary: Denne artikel omhandler de forskellige fejlmeddelelser på NVDIMM-N og selvreparation og adskiller sig fra RDIMM er og LRDIMM.
Instructions
NVDIMM-N:
Understøtter NVDIMM-N de "selvhelbredende" funktioner for RDIMM/LRDIMM-standardhukommelse som en del af BIOS 2.1.8 og nyere?
Hvad er nogle af forskellene i fejllogføringens funktionsmåde som følge af BIOS-ændringer?
Hvad anbefaler teknisk support, og hvad skal der gøres for de forskellige fejlmeddelelser?
Hvad er nogle af de vigtigste forskelle mellem RDIMM/LRDIMM- og NVDIMM-N-moduler?
Selvreparerende evner
PPR (Post Package Repair) – NVDIMM-N-hukommelsesmoduler understøtter ikke PPR-funktionalitet som f.eks. RDIMM/LRDIMM-standardindstillinger.
Omskoling af hukommelse – NVDIMM-N-hukommelsesmoduler understøtter genoptræning af hukommelsen. Planlægning af genoptræning af hukommelse er ikke specifik for en DIMM-slotplacering, men gælder for alle enheder, der er tilsluttet hukommelsesbussen. Så alle de samme udløsere fra RDIMM er / LRDIMM er gælder - det vil sige hukommelsesfejl, konfigurationsændringer osv.
Vedvarende hukommelsesrensning hjælper med at identificere multibitfejl eller fejl, der ikke kan rettes, på NVDIMM-N, og dermed afhjælpe fremtidige fejl, selvom det ikke er en selvreparerende funktion.
BIOS logger fejlen og leverer hukommelsesplaceringen til operativsystemet, hvilket føjer den til en sortliste over dårlige hukommelsesplaceringer, der skal undgås. Når disse hukommelsesplaceringer ikke "forbruges" eller er i brug af operativsystemet, er disse ikke kritiske fejl og er ikke fatale.
Der er tre BIOS-indstillinger for permanent hukommelsesskrubning:
Auto: Systemet skrubber automatisk vedvarende hukommelse under POST, når der er registreret multi-bit-fejl.
Dette er en baggrundsoperation.
Ét skud: Systemet vil skrubbe permanent hukommelse under POST på hele det permanente hukommelsesområde én gang. Ved næste opstart skifter systemet tilbage til "Auto" vedvarende hukommelsesrensningstilstand.
Muliggøre: Systemet vil skrubbe permanent hukommelse under POST på hele det permanente hukommelsesområde ved hver opstart.
Mulige NVDIMM-N Persistent Memory-skrubbefejl, -fejlmeddelelser og -handlinger eller anbefalinger
Se eksempler i afsnittet nedenfor om vigtige forskelle mellem standard RDIMM-/LRDIMM- og NVDIMM-N-moduler.
MEM0001 – Alle BIOS-revisioner
Multi bit hukommelsesfejl registreret på en hukommelsesenhed på placering arg1
Persistent Memory scrub identificerede en multi-bit/uoprettelig fejl på en forbrugt (i brug) hukommelsesside.
Information: Den dårlige side eller placering føjes til listen over fejl i MB NVRAM for den pågældende slot. Afhængigt af serverens BIOS-version kan der under POST rapporteres MEM0702/MEM9072/MEM9022-fejl, fordi siden eller placeringen endnu ikke er brugt.
Anbefaling: Erstat NVDIMM-N, der refereres til.
MEM0702 – Før BIOS 2.5.4 (februar 2020):
Faktisk besked: Korrigerbar hukommelsesfejlfrekvens overskredet for arg1
Sekundær betydning for NVDIMM-N: Persistent Memory-scrub har identificeret en fejl, der ikke kan rettes, på en ikke-forbrugt hukommelsesside eller -placering, der ikke er i brug. Denne hukommelsesside eller placering er blevet leveret til operativsystemets "sorte liste" for ikke at blive brugt.
Information: Hvis denne fejl skyldes en dårlig side eller placering, som vedvarende hukommelsesrensning identificerer, opstår denne fejl under POST ved hver genstart. For at afgøre, om fejlen skyldes en fejlfrekvens, der kan rettes, eller en dårlig side, der er identificeret af hukommelsesskrubbe, skal du kontrollere SPD-dataene...
Anbefaling: Erstat NVDIMM-N, der refereres til.
MEM9072 – BIOS 2.5.4 (februar 2020) til BIOS 2.6.4 (maj 2020):
Faktisk besked: Systemhukommelsen har stået over for en uoprettelig multi-bit hukommelsesfejl i ikke-udførelsesstien for en hukommelsesenhed på placeringen arg1.
Sekundær betydning for NVDIMM-N: Persistent Memory-scrub har identificeret en fejl, der ikke kan rettes, på en hukommelsesside eller en placering, der ikke er i brug, (som ikke er kørselssti). Denne hukommelsesside eller placering er blevet leveret til operativsystemets "sorte liste" for ikke at blive brugt.
Information: I modsætning til MEM0001 fejl, mens denne fejl er en uoprettelig / multi-bit fejl, er det ikke en "fatal" fejl, der resulterer i en genstart af serveren, når den opstår.
Anbefaling: Ingen påkrævede handlinger. Siden eller placeringen af den dårlige hukommelse er blevet leveret til operativsystemets "sorte liste" og vil ikke blive brugt. Denne fejlmeddelelse vises under POST ved hver genstart.
MEM9022 – nyere end BIOS 2.7.x (efter juli 2020) – planlagte ændringer:
Faktisk besked: Der blev registreret en ikke-kritisk hændelse på NVDIMM-enheden (Non-Volatile Dual In-line Memory Module) i slotten arg1.
Persistent Memory-scrub har identificeret en fejl, der ikke kan rettes, på en ikke-forbrugt hukommelsesside eller -placering, der ikke er i brug. Denne hukommelsesside eller placering er blevet leveret til operativsystemets "sorte liste" for ikke at blive brugt.
Anbefaling: Ingen påkrævede handlinger. Siden eller placeringen af den dårlige hukommelse er blevet leveret til operativsystemets "sorte liste" og vil ikke blive brugt.
Vigtige forskelle mellem standard RDIMM/LRDIMM- og NVDIMM-N-moduler
Flyt ikke NVDIMM-N-moduler mellem servertyper – dvs. fra AMD-baseret server til Intel-baseret server.
De eksisterende vedvarende data på NVDIMM-N-modulet er muligvis ikke længere tilgængelige.
Der er forskelle i CRC-algoritmer på forskellige systemtyper, der resulterer i uventede fejl (MEM0001, MEM0702, MEM9072 eller MEM9022).
Når du flytter et NVDIMM-N-modul til et andet system, skal du rense det i det nye system for at sikre, at det fungerer som forventet. Rensning af NVDIMM-N-moduler sletter alle data på NVDIMM-N.
Flyt ikke NVDIMM-N-moduler fra én slotplacering til en anden – altså til fejlfinding. NVDIMM-N-moduler konfigureres i operativsystemet i enten en enkeltstående eller interleaving konfiguration på basis af hver slot. Fysisk flytning af NVDIMM-N-modulerne kan medføre datatab, da NVDIMM-N-modulet på en given slotplacering ikke længere svarer til den aktuelle OS-konfiguration.
Hvis der ikke er nogen gyldige data på NVDIMM-N- og NVDIMM-N-modulerne, skal de flyttes til en anden plads (dvs. udskiftes med henblik på fejlfinding):
Sørg for at rense (slette) de tilknyttede NVDIMM-N-moduler. Hvis der logges vedvarende hukommelsesskrubningsfejl under POST (når der leveres en eksisterende "dårlig" liste til operativsystemet) på en bestemt slot, fortsætter disse fejl på den pågældende slot, selvom det berørte NVDIMM-N-modul byttes/flyttes til en anden slot. Ud over at slette dataene på NVDIMM-N-modulet rydder den rensede handling MB NVRAM-listen, der er knyttet til en given slot.
Konfigurer NVDIMM-N-modulerne efter behov i operativsystemet, og gendan kundedataene.
NVDIMM-N-moduler indeholder firmware, som kan introducere problemer med adfærdsafhængighed, når firmwareversioner ændres. Hvis firmwaren i et NVDIMM-N-modul nedgraderes i forhold til den oprindelige version, skal den renses før brug. Hvis du ikke gør det, vil det sandsynligvis resultere i, at "falske" fejl (MEM0702, MEM9072 eller MEM9022) rapporteres af den vedvarende hukommelsesskrubning.
I et nyligt tilfælde fik flere servere deres NVDIMM-N-firmware nedgraderet fra version 9772 til 9324 uden at desinficere modulerne bagefter. Disse servere rapporterede MEM0702 fejl (enten under eller kort efter post) på tværs af mange af NVDIMM-N-modulerne. Rensning (sletning) af NVDIMM-N-modulerne løste disse "falske" vedvarende hukommelsesskrubningsfejl
Du kan finde flere oplysninger om NVDIMM-N-hukommelse i brugervejledningen til Dell EMC NVDIMM-N Persistent Memory, som findes under fanen Manualer og dokumenter på platformen: https://www.dell.com/support/home