PowerFlex: Problem med DIMM-maskinvara orsakar hög CPU-användning och SDS-frikoppling

Summary: Vissa minnesproblem (dvs. DIMM-problem) kan orsaka CMCI-stormar och i praktiken SDS-frikoppling. Det här specifika problemet uppstod på grund av att operativsystemet inte svarade korrekt på rutinmässiga korrigerbara minnesmeddelanden. Detta kan också inträffa när en RAM DIMM-modul inte fungerar på en server, men andra maskinvaruproblem kan potentiellt orsaka samma scenario. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Felaktig DIMM-modul kan observeras i iDRAC eller operativsystemsloggarna, till exempel:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Strax efter att maskinvaruproblemet har upptäckts rapporteras CMCI-stormen:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Hög CPU-användning kan leda till att SDS-processen stoppar IO:erna (vilket påverkar den totala IO-systemlatensen) eller till och med frikopplar SDS från MDM. Om det händer under en pågående ombyggnad eller när ett annat SDS har liknande problem kan det leda till en DU-situation.

Cause

Intel-processorer kan drabbas av "interrupt storms" vid DIMM-fel. Enligt Red Hat KB:

Från och med en 45 nm Intel 64-processor där CPUID rapporterar DisplayFamily_DisplayModel som 06H_1AH kan processorn rapportera information om korrigerade maskinkontrollfel och leverera ett programmerbart avbrott så att programvaran svarar på MC-fel, vilket ses som korrigerat maskinkontrollfelsavbrott (CMCI). Intels hårdvara kan leverera avbrott när felnivån överstiger ett programmerbart tröskelvärde. Om felet är beständigt får processorn ett konstant inflöde eller en storm av avbrott i tillräckligt hög takt för att det ska påverka processorns förmåga att utföra användbart arbete. När det händer inaktiverar kärnan CMCI-mekanismen och återgår till en mer klassisk metod för att regelbundet avsöka maskinkontrollfel. När felfrekvensen minskar återaktiverar kärnan CMCI igen.

Mer information finns på: https://access.redhat.com/solutions/2710451
 

Det här problemet kan resultera i en CMCI-storm, som även kan utlösas av operativsystemfunktioner och programvara som fångar upp korrigerbara fel istället för att tillåta att de registreras och hanteras av Dell iDRAC. Detta inträffar vanligtvis när både EDAC och CMCI är aktiverade.

 

Resolution

Sätt den berörda SDS:en i underhållsläge och/eller ta bort den från klustret för att minska påverkan på hela systemet.

Kontakta maskinvaruleverantören för att kontrollera om det finns eventuella maskinvaruproblem. Om inga maskinvaruproblem identifieras, särskilt när det gäller korrigerbara fel, kontaktar du OS-leverantören och begär hjälp med att inaktivera EDAC och CMCI. 

Additional Information

Versioner som påverkas

Ej tillämpligt – inte ett PowerFlex-problem

Åtgärdat i version

Ej tillämpligt – maskinvaruproblem

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.