PowerFlex: DIMM-maskinvareproblem forårsaker høy CPU-bruk og SDS-frakobling

Summary: Visse minneproblemer (f.eks. DIMM-problemer) kan forårsake CMCI-stormer og faktisk SDS-frakobling. Dette bestemte problemet oppsto på grunn av at operativsystemet ikke reagerte riktig på rutinemessige korrigerbare minnevarsler. Dette kan også skje når en RAM DIMM-modul svikter på en server, men andre maskinvareproblemer kan potensielt forårsake det samme scenariet. ...

Affected Products

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Sviktende DIMM kan observeres i iDRAC- eller operativsystemloggene, for eksempel:

 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid

Kort tid etter at maskinvareproblemet er oppdaget, rapporteres CMCI-stormen:

Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode

Høy CPU-bruk kan føre til at SDS-prosessen stopper IO-ene (noe som vil påvirke den totale IO-systemventetiden) eller til og med koble SDS fra MDM-en. Hvis det skjer under en pågående gjenoppbygging eller mens et annet SDS opplever lignende problemer, kan det føre til en DU-situasjon.

Cause

Intel CPU-er kan lide av "avbruddsstormer" under DIMM-feil. I henhold til Red Hat KB:

Fra og med en 45 nm Intel 64-prosessor der CPUID rapporterer DisplayFamily_DisplayModel som 06H_1AH, kan prosessoren rapportere informasjon om korrigerte maskinkontrollfeil og levere et programmerbart avbrudd for programvare for å svare på MC-feil, sett på som korrigert maskinkontrollfeilavbrudd (CMCI). Intels maskinvare kan levere avbrudd når feilnivået overskrider en programmerbar terskel. Hvis feilen er vedvarende, vil CPUen da motta en konstant tilstrømning eller storm av avbrudd med høy nok hastighet til at det påvirker CPUs evne til å gjøre nyttig arbeid. Når det skjer, deaktiverer kjernen CMCI-mekanismen og går tilbake til en mer klassisk tilnærming med regelmessig polling for maskinkontrollfeil. Når feilfrekvensen reduseres, aktiverer kjernen CMCI igjen.

Se mer informasjon på: https://access.redhat.com/solutions/2710451

Dette problemet kan føre til en CMCI-storm, som også kan utløses av operativsystemfunksjonene og programvaren som fanger opp korrigerbare feil i stedet for å tillate at de fanges opp og håndteres av Dell iDRAC. Dette skjer vanligvis når både EDAC og CMCI er aktivert.

Resolution

Sett berørt SDS i vedlikeholdsmodus og/eller fjern den fra klyngen for å redusere påvirkningen på hele systemet.

Kontakt maskinvareleverandøren for å undersøke om potensielle maskinvareproblemer oppstår. Hvis det ikke oppdages noen maskinvareproblemer, spesielt ved korrigerbare feil, kontakter du leverandøren av operativsystemet og ber om hjelp med å deaktivere EDAC og CMCI.

Additional Information

Berørte versjoner

I/A – ikke et PowerFlex-problem

Løst i versjon

I/A - maskinvareproblem

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO

Article Number: 000197735

Article Type: Solution

Last Modified: 20 Jul 2026

Version: 8

Check if your device is covered by Support Services.

PowerFlex: DIMM-maskinvareproblem forårsaker høy CPU-bruk og SDS-frakobling

Symptoms

Cause

Resolution

Additional Info

Affected Products

Symptoms

Cause

Resolution

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerFlex: DIMM-maskinvareproblem forårsaker høy CPU-bruk og SDS-frakobling

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Symptoms

Cause

Resolution

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services