Fejlfinding af hukommelsesfejl på PowerEdge-systemer ved hjælp af swaptest
Resumen:Udskiftning af hukommelses-DIMM'er for at fejlfinde hukommelsesfejl på Dell Technologies PowerEdge-servere.
Seleccione un producto para comprobar la relevancia del artículo
Este artículo se aplica a Este artículo no se aplica aEste artículo no está vinculado a ningún producto específico.No se identifican todas las versiones del producto en este artículo.
Fejlfinding af hukommelsesfejl på PowerEdge-systemer ved hjælp af swaptest
Når der rapporteres en enkeltbitfejl (SBE) og/eller multi-bit-fejl (MBE) på en eller flere hukommelses-DIMM-placeringer, skyldes årsagen muligvis ikke selve DIMM-modulet, så der skal udføres en simpel fejlfinding for at fastslå, hvor fejlen præcist ligger. Se figur 1 for et eksempel på hukommelsesfejl, der vises i iDRAC-grænsefladen på en R715.
Figur 1: Hukommelsesfejl som vist i iDRAC 6-logfiler (Kun på engelsk)
Isolering af hukommelsesproblemer betyder, at hukommelses-DIMM er skal udskiftes i forskellige hukommelsessokler, -kanaler, -banker og -controllere. Du kan ombytte DIMM-moduler på flere måder for at indsnævre fejlen. Du skal muligvis bruge mere end én af disse metoder til at lokalisere det defekte DIMM-modul eller den defekte sokkel. Nedenfor finder du en repræsentation af disse metoder. For at gøre forklaringen enkel antager vi, at det defekte DIMM-modul er A1 eller et af de sæt, der er markeret med blåt på billederne.
Ombytning af DIMM-moduler i grupper (efter kanal eller bank) i stedet for individuelt er den bedste metode til at identificere det eller de fejlbehæftede DIMM-moduler. Når det er blevet identificeret, at en gruppe DIMM-moduler indeholder det eller de fejlbehæftede DIMM-moduler, kan flytning af enkelte DIMM-moduler bruges til at identificere, hvilke DIMM-moduler der ikke fungerer.
Metode 1:
Sådan bytter du DIMM A1 (markeret med blåt) ud med DIMM A9 (markeret med rødt) for at prøve DIMM-modulet i en anden hukommelseskanal og banklinje
Figur 2: Udskiftning af DIMM A1 med DIMM A9
Metode 2:
Hvis DIMM A1 (markeret med blåt) byttes ud med DIMM B1 (markeret med rødt), kobles DIMM-modulet på en helt anden hukommelsescontroller (CPU).
Figur 3: Skift DIMM A1 ud med DIMM B1
Metode 3:
Når du bytter hele banken af DIMM-moduler (A1, A2, A3 - markeret blå) med en anden bank (B1, B2, B3 - markeret med rødt), testes hele DIMM-samlingen i en ny bank på en ny hukommelsescontroller.
Figur 4: Bytte DIMM-moduler A1, A2, A3 med DIMM-moduler B1, B2, B3
Metode 4
Når du bytter en hel kanal med DIMM-moduler (A1, A4, A7 - markeret blåt) med en anden kanal (B1, B2, B3 - markeret rødt), testes hele DIMM-kanalen i en ny kanal og på en ny hukommelsescontroller.
Figur 5: Bytte DIMM-moduler A1, A4, A7 med DIMM-moduler B1, B4, B7
Fortolkning af resultaterne efter ombytning af DIMM-moduler
Generelt har DIMM-fejl en tendens til at følge de DIMM-moduler, der er identificeret i fejlene. Med en SBE, der rapporterer på DIMM A1, resulterer ombytning af denne DIMM-modul med forskellige DIMM-moduler f.eks. i et af følgende:
Fejlmeddelelsen rapporteres ikke længere, og problemet er løst
Dette indikerer, at genindsættelse af hukommelsen løste problemet
Fejlmeddelelsen følger DIMM (DIMM A1 byttes ud med DIMM B1, og fejlmeddelelser rapporteres nu mod DIMM B1)
Dette indikerer, at DIMM-modulet højst sandsynligt er defekt og skal udskiftes.
Fejlmeddelelsen følger DIMM-soklen (DIMM A1 byttes ud med DIMM B1, og fejlmeddelelser rapporteres stadig mod DIMM A1)
Dette indikerer, at bundkortet eller CPU'en sandsynligvis er defekt
Udskiftning af CPU'er bekræfter, hvilken komponent der skal udskiftes
Hvis problemet følger efter CPU'en (fejlmeddelelsen flyttes efter ombytning af CPU'er), skal du udskifte CPU'en
Hvis problemet fortsat er med DIMM-stikket, skal du udskifte bundkortet
Fejlmeddelelsen følger ikke DIMM-modulet eller soklen (fejlen rapporteres mod et andet DIMM-modul efter ombytning)
Dette indikerer, at et andet DIMM-modul eller DIMM-moduler sandsynligvis er dårligt
BEMÆRK: Vi anbefaler, at du også holder firmwareniveauerne opdaterede, da dette kan reducere risikoen for at modtage hukommelsesfejl og forlænge DIMM-modulernes levetid.
Du kan finde flere oplysninger i Dell Knowledge Base-artiklen Dell Repository Manager (DRM).