PowerFlex: DIMM-maskinvareproblem forårsaker høy CPU-bruk og SDS-frakobling
Summary: Visse minneproblemer (f.eks. DIMM-problemer) kan forårsake CMCI-stormer og faktisk SDS-frakobling. Dette bestemte problemet oppsto på grunn av at operativsystemet ikke reagerte riktig på rutinemessige korrigerbare minnevarsler. Dette kan også skje når en RAM DIMM-modul svikter på en server, men andre maskinvareproblemer kan potensielt forårsake det samme scenariet. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Høy CPU-bruk kan føre til at SDS-prosessen stopper IO-ene (noe som vil påvirke den totale IO-systemventetiden) eller til og med koble SDS fra MDM-en. Hvis det skjer under en pågående gjenoppbygging eller mens et annet SDS opplever lignende problemer, kan det føre til en DU-situasjon.
Cause
Intel CPU-er kan lide av "avbruddsstormer" under DIMM-feil. I henhold til Red Hat KB:
Fra og med en 45 nm Intel 64-prosessor der CPUID rapporterer DisplayFamily_DisplayModel som 06H_1AH, kan prosessoren rapportere informasjon om korrigerte maskinkontrollfeil og levere et programmerbart avbrudd for programvare for å svare på MC-feil, sett på som korrigert maskinkontrollfeilavbrudd (CMCI). Intels maskinvare kan levere avbrudd når feilnivået overskrider en programmerbar terskel. Hvis feilen er vedvarende, vil CPUen da motta en konstant tilstrømning eller storm av avbrudd med høy nok hastighet til at det påvirker CPUs evne til å gjøre nyttig arbeid. Når det skjer, deaktiverer kjernen CMCI-mekanismen og går tilbake til en mer klassisk tilnærming med regelmessig polling for maskinkontrollfeil. Når feilfrekvensen reduseres, aktiverer kjernen CMCI igjen.
Se mer informasjon på: https://access.redhat.com/solutions/2710451
Dette problemet kan føre til en CMCI-storm, som også kan utløses av operativsystemfunksjonene og programvaren som fanger opp korrigerbare feil i stedet for å tillate at de fanges opp og håndteres av Dell iDRAC. Dette skjer vanligvis når både EDAC og CMCI er aktivert.
Resolution
Sett berørt SDS i vedlikeholdsmodus og/eller fjern den fra klyngen for å redusere påvirkningen på hele systemet.
Kontakt maskinvareleverandøren for å undersøke om potensielle maskinvareproblemer oppstår. Hvis det ikke oppdages noen maskinvareproblemer, spesielt ved korrigerbare feil, kontakter du leverandøren av operativsystemet og ber om hjelp med å deaktivere EDAC og CMCI.
Additional Information
Berørte versjoner
I/A – ikke et PowerFlex-problem
Løst i versjon
I/A - maskinvareproblem