PowerFlex: Problem med DIMM-maskinvara orsakar hög CPU-användning och SDS-frikoppling
Summary: Vissa minnesproblem (dvs. DIMM-problem) kan orsaka CMCI-stormar och i praktiken SDS-frikoppling. Det här specifika problemet uppstod på grund av att operativsystemet inte svarade korrekt på rutinmässiga korrigerbara minnesmeddelanden. Detta kan också inträffa när en RAM DIMM-modul inte fungerar på en server, men andra maskinvaruproblem kan potentiellt orsaka samma scenario. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Hög CPU-användning kan leda till att SDS-processen stoppar IO:erna (vilket påverkar den totala IO-systemlatensen) eller till och med frikopplar SDS från MDM. Om det händer under en pågående ombyggnad eller när ett annat SDS har liknande problem kan det leda till en DU-situation.
Cause
Intel-processorer kan drabbas av "interrupt storms" vid DIMM-fel. Enligt Red Hat KB:
Från och med en 45 nm Intel 64-processor där CPUID rapporterar DisplayFamily_DisplayModel som 06H_1AH kan processorn rapportera information om korrigerade maskinkontrollfel och leverera ett programmerbart avbrott så att programvaran svarar på MC-fel, vilket ses som korrigerat maskinkontrollfelsavbrott (CMCI). Intels hårdvara kan leverera avbrott när felnivån överstiger ett programmerbart tröskelvärde. Om felet är beständigt får processorn ett konstant inflöde eller en storm av avbrott i tillräckligt hög takt för att det ska påverka processorns förmåga att utföra användbart arbete. När det händer inaktiverar kärnan CMCI-mekanismen och återgår till en mer klassisk metod för att regelbundet avsöka maskinkontrollfel. När felfrekvensen minskar återaktiverar kärnan CMCI igen.
Mer information finns på: https://access.redhat.com/solutions/2710451
Det här problemet kan resultera i en CMCI-storm, som även kan utlösas av operativsystemfunktioner och programvara som fångar upp korrigerbara fel istället för att tillåta att de registreras och hanteras av Dell iDRAC. Detta inträffar vanligtvis när både EDAC och CMCI är aktiverade.
Resolution
Sätt den berörda SDS:en i underhållsläge och/eller ta bort den från klustret för att minska påverkan på hela systemet.
Kontakta maskinvaruleverantören för att kontrollera om det finns eventuella maskinvaruproblem. Om inga maskinvaruproblem identifieras, särskilt när det gäller korrigerbara fel, kontaktar du OS-leverantören och begär hjälp med att inaktivera EDAC och CMCI.
Additional Information
Versioner som påverkas
Ej tillämpligt – inte ett PowerFlex-problem
Åtgärdat i version
Ej tillämpligt – maskinvaruproblem