PowerFlex: DIMM-hardwareprobleem veroorzaakt hoog CPU-gebruik en SDS-ontkoppeling
Summary: Bepaalde geheugenproblemen (d.w.z. DIMM-problemen) kunnen CMCI-stormen en in feite SDS-ontkoppeling veroorzaken. Dit specifieke probleem is ontstaan doordat het besturingssysteem niet correct reageert op routinematige herstelbare geheugenmeldingen. Dit kan ook gebeuren wanneer een RAM DIMM-module defect is op een server, maar andere hardwareproblemen kunnen mogelijk hetzelfde scenario veroorzaken. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Hoog CPU-gebruik kan ertoe leiden dat het SDS-proces de IO's blokkeert (wat van invloed is op de algehele latentie van het IO-systeem) of zelfs de SDS loskoppelt van de MDM. Als dit gebeurt tijdens een lopende rebuild of terwijl een andere SDS soortgelijke problemen ondervindt, kan dit leiden tot een DU-situatie.
Cause
Intel CPU's kunnen last hebben van interruptstormen tijdens DIMM-fouten. Volgens Red Hat KB:
Beginnend met een 45 nm Intel 64 processor waarop CPUID DisplayFamily_DisplayModel rapporteert als 06H_1AH, kan de processor informatie rapporteren over gecorrigeerde machinecontrolefouten en een programmeerbare onderbreking leveren voor software om te reageren op MC-fouten, ook wel gecorrigeerde machinecontrolefoutonderbreking (CMCI) genoemd. De hardware van Intel kan onderbrekingen leveren wanneer het foutenniveau een programmeerbare drempelwaarde overschrijdt. Als de fout persistent is, ontvangt de CPU een constante toestroom of storm van onderbrekingen met een snelheid die hoog genoeg is om het vermogen van de CPU om nuttig werk te doen te beïnvloeden. Wanneer dat gebeurt, schakelt de kernel het CMCI-mechanisme uit en keert terug naar een meer klassieke benadering van regelmatig peilen naar machinecontrolefouten. Zodra het aantal fouten afneemt, schakelt de kernel CMCI weer in.
Meer informatie is te vinden op: https://access.redhat.com/solutions/2710451
Dit probleem kan leiden tot een CMCI-storm, die ook kan worden veroorzaakt door de functies van het besturingssysteem en software die corrigeerbare fouten onderscheppen in plaats van toe te staan dat ze worden vastgelegd en afgehandeld door Dell iDRAC. Dit gebeurt meestal wanneer zowel EDAC als CMCI zijn ingeschakeld.
Resolution
Zet de betreffende SDS in de onderhoudsmodus en/of verwijder deze uit het cluster om de impact op het hele systeem te verminderen.
Neem contact op met de hardwareleverancier om te inspecteren op mogelijke hardwareproblemen. Als er geen hardwareprobleem wordt gedetecteerd, met name in het geval van corrigeerbare fouten, neemt u contact op met de leverancier van het besturingssysteem en vraagt u om hulp bij het uitschakelen van EDAC en CMCI.
Additional Information
Versies waarop dit van toepassing is
N.v.t. - geen PowerFlex-probleem
Opgelost in versie
N.v.t. - hardwareprobleem