PowerFlex: DIMM-hardwareproblem medfører højt CPU-forbrug og SDS-afkobling
Summary: Visse hukommelsesproblemer (f.eks. DIMM-problemer) kan forårsage CMCI-storme og dermed SDS-afkobling. Dette særlige problem opstod på grund af, at operativsystemet ikke reagerede korrekt på rutinemæssige hukommelsesmeddelelser, der kunne rettes. Dette kan også opstå, når et RAM DIMM-modul fejler på en server, men andre hardwareproblemer kan potentielt forårsage det samme scenarie. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Høj CPU-brug kan få SDS-processen til at stoppe IO'erne (hvilket vil påvirke den samlede IO-systemforsinkelse) eller endda frakoble SDS fra MDM. Hvis det sker under en igangværende genopbygning, eller mens et andet SDS oplever lignende problemer, kan det føre til en DU-situation.
Cause
Intel-CPU er kan lide af "afbryde storme" under DIMM-fejl. I henhold til Red Hat KB:
Startende med en 45 nm Intel 64-processor, hvor CPUID rapporterer DisplayFamily_DisplayModel som 06H_1AH, kan processoren rapportere oplysninger om rettede maskinkontrolfejl og levere en programmerbar afbrydelse, så software kan reagere på MC-fejl, set som korrigeret maskinkontrolfejlafbrydelse (CMCI). Intels hardware kan levere afbrydelser, når fejlniveauet overstiger en programmerbar tærskel. Hvis fejlen er vedvarende, modtager CPU'en derefter en konstant tilstrømning eller storm af afbrydelser med en høj nok hastighed til, at det påvirker CPU'ens evne til at udføre nyttigt arbejde. Når det sker, deaktiverer kernen CMCI-mekanismen og vender tilbage til en mere klassisk tilgang til regelmæssig afstemning for maskinkontrolfejl. Når fejlfrekvensen falder, genaktiverer kernen CMCI tilbage.
Se flere oplysninger på: https://access.redhat.com/solutions/2710451
Dette problem kan resultere i en CMCI-storm, som også kan udløses af operativsystemets funktioner og software, der opfanger fejl, der kan rettes, i stedet for at tillade, at de registreres og håndteres af Dell iDRAC. Dette sker typisk, når både EDAC og CMCI er aktiveret.
Resolution
Sæt det berørte SDS i vedligeholdelsestilstand, og/eller fjern det fra klyngen for at mindske påvirkningen af hele systemet.
Kontakt hardwareleverandøren for at undersøge, om der er potentielle hardwareproblemer. Hvis der ikke registreres noget hardwareproblem, især i tilfælde af fejl, der kan rettes, skal du kontakte OS-leverandøren og anmode om hjælp til at deaktivere EDAC og CMCI.
Additional Information
Påvirkede versioner
Ikke relevant – ikke et PowerFlex-problem
Fast i version
Ikke relevant - hardwareproblem