VMware: Felsökning av ESXi-maskinkontrollundantag Lila diagnostikskärm
Summary: Så här felsöker du den lila diagnostikskärmen (PSOD) för ESXi Machine Check Exception (MCE) med ett exempel.
Instructions
Beskrivning:
ESXi-servrar kan stoppas med en lila diagnostikskärm (PSOD) på grund av MCE-fel (Machine Check Exception). MCE-fel beror på maskinvaruproblem.
Den lila diagnostikskärmen för MCE visar flera objekt. Av dessa MCi_STATUS register är användbart för att felsöka problemet.
Registrera information:
- Informationen
MCi_STATUSRegistret består av information om maskinkontrollfelet. - Registret visas bredvid "
S:" Som visas i exemplet nedan:
MC: PCPU18 B:13 S:0xfe20004000011166 M:0x7246040086 A:0x38c989b100 5
Bitar och deras betydelse:
| 63 | 62 | 61 | 60 | 59 | 58 | 57 | 53-56 | 38-52 | 32-37 | 16-31 | 0-15 |
| VALID flagga – Om den har angetts är informationen giltig. | OVERFLOW-flagga – Om den är inställd kan det tyda på att flera MCE:er inträffade nära varandra. | UNC-flagga – om den har angetts kunde processorn inte åtgärda felet. | EN-flagga | MISCV-flagga – om den är inställd innehåller MISC-registret mer information. | ADDRV – Om det har angetts innehåller ADDR-registret den plats där felet inträffade. | PCC-flagga – om den är inställd betyder det att processorn kan ha skadats. | Arkitektonisk om bit 11 är inställd, annars "annan information". | Arkitektoniskt om bit 10 är inställd, annars "övrig information". | Annan information | Modellspecifik felkod för CPU | Felkod för maskinkontroll |
För att felsöka felet, de låga 16 bitarna i MCi_STATUS registret är viktigt. Dessa bitar indikerar ett enkelt eller sammansatt fel.
Alternativet 1: Använda automatiskt verktyg
VMware Purple Diagnostic Screen (PSOD) Error Reader
Alternativ 2: Använda manuella steg
- Enkla fel går snabbt att felsöka
0000 0000 0000 0000 -- No Error reported to this bank of error-reporting registers. 0000 0000 0000 0001 -- Unclassified - Error has not been classified. 0000 0000 0000 0010 -- Parity error in internal microcode ROM. 0000 0000 0000 0011 -- External error-BINIT# from another processor caused this processor MCE. Happens only if BINIT# observation enabled during power on. 0000 0000 0000 0100 -- Functional redundancy check master/slave error. 0000 0000 0000 0101 -- Internal parity error. 0000 0000 0000 0110 -- SMM handler tried to execute outside the ranges specified by SMRR. 0000 0100 0000 0000 -- Internal timer error. 0000 1110 0000 1011 -- I/O error. 0000 01xx xxxx xxxx -- Internal unclassified error. Atleast one X must be equal to 1.
- Sammansatta fel
000F 0000 0000 11LL - Generic Cache Hierarchy error.
000F 0000 0001 TTLL - {TT}TLB{LL}_ERR. TLB errors.
000F 0000 1MMM CCCC - {MMM}_Channel{CCCC}_ERR - Memory controller errors.
000F 0001 RRRR TTLL - {TT}CACHE{LL}_{RRRR}_ERR - Cache Hierarchy errors.
000F 1PPT RRRR IILL - BUS{LL}_{PP}_{RRRR}_{II}_T_ERR - Bus and Interconnect errors.
- F - Formulärflagga
0 – Normal Filtering 1 – Corrected Filtering
Filtrering innebär att vissa eller alla efterföljande korrigeringar av den här posten i den här strukturen inte bokförs.
- TT - Gäller 2 och 4 ovan.
Anger typ av transaktion:
00 - Instruction 01 - Data 10 - Generic
- LL - Gäller 1, 2, 4 och 5 ovan.
Detta anger den nivå i minneshierarkin där felet inträffade.
00 - Level 0 - L0 01 - Level 1 - L1 10 - Level 2 - L2 11 - Generic – LG (It is shown only when processor cannot determine the hierarchy level)
- RRRR – Anger vilken typ av åtgärd som är associerad med felet. Åtgärderna är:
0000 - Generic Error - ERR 0001 - Generic Read - RD 0010 - Generic Write - WR 0011 - Data Read - DRD 0100 - Data Write - DWR 0101 - Instruction Fetch - IRD 0110 - Prefetch - PREFETCH 0111 - Eviction - EVICT 1000 - Snoop - SNOOP
- PP (Deltagande) – Beskriver den lokala processorns roll i felet.
00 - SRC - Local processor originated request 01 - RES - Local processor responded to request 10 - OBS - Local processor observed error as third party 11 - Generic
- T (tidsgräns) – 1 = Tidsgränsen för begäran överskreds.
- II (minne eller I/O)
00 - M - Memory Access 10 - IO - I/O 01 - Reserved 11 - Other transaction
- Minnesstyrenhetsfel – definieras av MMM- och CCCC-underfälten ovan
- MMM – Minnesfel
000 - GEN - Generic undefined request 001 - RD - Memory read error 010 - WR - Memory write error 011 - AC - Address/Command error 100 - MS - Memory Scrubbing error 101-111 - Reserved
- CCCC – Kanal med felet
0000-1110 - CHN - Channel number 1111 - Channel not specified
Här är ett exempel på hur du analyserar en MCE-lila diagnostisk skärmbild:
- Skriv ner
MCi_STATUSregistrera värdet. Här är den:
0xfe20004000011166.
- Konvertera den till binär:
1111 1110 0010 0000 0000 0000 0100 0000 0000 0000 0000 0001 0001 0001 0110 0110
- Ta de nedre 16 bitarna av
MCi_STATUSRegistrera dig:
0001 0001 0110 0110
Jämför det med de sammansatta felen. I det här fallet verkar detta vara ett cachehierarkifel (typ 4).
- Tillämpa värdena:
F = 1 RRRR = 0110 – Prefetch TT = 01 – Transaction type - Data LL = 10 – Level 2 cache
Slutsats:
- Det verkar som att den lila diagnostikskärmen inträffade när det pågick en förhämtning av vissa data i processorns L2-cacheminne.
- Det kan alltså vara ett problem med processorns L2-cacheminne.
- Därför bör CPU:n bytas ut först och sedan kontrollera om problemet är löst. Om problemet dyker upp igen kan moderkortet bytas ut.