PowerFlex: DIMM-hardwareproblem medfører højt CPU-forbrug og SDS-afkobling

Summary: Visse hukommelsesproblemer (f.eks. DIMM-problemer) kan forårsage CMCI-storme og dermed SDS-afkobling. Dette særlige problem opstod på grund af, at operativsystemet ikke reagerede korrekt på rutinemæssige hukommelsesmeddelelser, der kunne rettes. Dette kan også opstå, når et RAM DIMM-modul fejler på en server, men andre hardwareproblemer kan potentielt forårsage det samme scenarie. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Fejlbehæftet DIMM-modul kan observeres i iDRAC eller operativsystemets logfiler, f.eks.:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Kort efter at hardwareproblemet er registreret, rapporteres CMCI-stormen:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Høj CPU-brug kan få SDS-processen til at stoppe IO'erne (hvilket vil påvirke den samlede IO-systemforsinkelse) eller endda frakoble SDS fra MDM. Hvis det sker under en igangværende genopbygning, eller mens et andet SDS oplever lignende problemer, kan det føre til en DU-situation.

Cause

Intel-CPU er kan lide af "afbryde storme" under DIMM-fejl. I henhold til Red Hat KB:

Startende med en 45 nm Intel 64-processor, hvor CPUID rapporterer DisplayFamily_DisplayModel som 06H_1AH, kan processoren rapportere oplysninger om rettede maskinkontrolfejl og levere en programmerbar afbrydelse, så software kan reagere på MC-fejl, set som korrigeret maskinkontrolfejlafbrydelse (CMCI). Intels hardware kan levere afbrydelser, når fejlniveauet overstiger en programmerbar tærskel. Hvis fejlen er vedvarende, modtager CPU'en derefter en konstant tilstrømning eller storm af afbrydelser med en høj nok hastighed til, at det påvirker CPU'ens evne til at udføre nyttigt arbejde. Når det sker, deaktiverer kernen CMCI-mekanismen og vender tilbage til en mere klassisk tilgang til regelmæssig afstemning for maskinkontrolfejl. Når fejlfrekvensen falder, genaktiverer kernen CMCI tilbage.

Se flere oplysninger på: https://access.redhat.com/solutions/2710451
 

Dette problem kan resultere i en CMCI-storm, som også kan udløses af operativsystemets funktioner og software, der opfanger fejl, der kan rettes, i stedet for at tillade, at de registreres og håndteres af Dell iDRAC. Dette sker typisk, når både EDAC og CMCI er aktiveret.

 

Resolution

Sæt det berørte SDS i vedligeholdelsestilstand, og/eller fjern det fra klyngen for at mindske påvirkningen af hele systemet.

Kontakt hardwareleverandøren for at undersøge, om der er potentielle hardwareproblemer. Hvis der ikke registreres noget hardwareproblem, især i tilfælde af fejl, der kan rettes, skal du kontakte OS-leverandøren og anmode om hjælp til at deaktivere EDAC og CMCI. 

Additional Information

Påvirkede versioner

Ikke relevant – ikke et PowerFlex-problem

Fast i version

Ikke relevant - hardwareproblem

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.