PowerFlex: DIMM-hardwareprobleem veroorzaakt hoog CPU-gebruik en SDS-ontkoppeling

Summary: Bepaalde geheugenproblemen (d.w.z. DIMM-problemen) kunnen CMCI-stormen en in feite SDS-ontkoppeling veroorzaken. Dit specifieke probleem is ontstaan doordat het besturingssysteem niet correct reageert op routinematige herstelbare geheugenmeldingen. Dit kan ook gebeuren wanneer een RAM DIMM-module defect is op een server, maar andere hardwareproblemen kunnen mogelijk hetzelfde scenario veroorzaken. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Een falende DIMM kan worden waargenomen in iDRAC of de logboeken van het besturingssysteem, bijvoorbeeld:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Kort nadat het hardwareprobleem is gedetecteerd, wordt de CMCI-storm gemeld:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Hoog CPU-gebruik kan ertoe leiden dat het SDS-proces de IO's blokkeert (wat van invloed is op de algehele latentie van het IO-systeem) of zelfs de SDS loskoppelt van de MDM. Als dit gebeurt tijdens een lopende rebuild of terwijl een andere SDS soortgelijke problemen ondervindt, kan dit leiden tot een DU-situatie.

Cause

Intel CPU's kunnen last hebben van interruptstormen tijdens DIMM-fouten. Volgens Red Hat KB:

Beginnend met een 45 nm Intel 64 processor waarop CPUID DisplayFamily_DisplayModel rapporteert als 06H_1AH, kan de processor informatie rapporteren over gecorrigeerde machinecontrolefouten en een programmeerbare onderbreking leveren voor software om te reageren op MC-fouten, ook wel gecorrigeerde machinecontrolefoutonderbreking (CMCI) genoemd. De hardware van Intel kan onderbrekingen leveren wanneer het foutenniveau een programmeerbare drempelwaarde overschrijdt. Als de fout persistent is, ontvangt de CPU een constante toestroom of storm van onderbrekingen met een snelheid die hoog genoeg is om het vermogen van de CPU om nuttig werk te doen te beïnvloeden. Wanneer dat gebeurt, schakelt de kernel het CMCI-mechanisme uit en keert terug naar een meer klassieke benadering van regelmatig peilen naar machinecontrolefouten. Zodra het aantal fouten afneemt, schakelt de kernel CMCI weer in.

Meer informatie is te vinden op: https://access.redhat.com/solutions/2710451
 

Dit probleem kan leiden tot een CMCI-storm, die ook kan worden veroorzaakt door de functies van het besturingssysteem en software die corrigeerbare fouten onderscheppen in plaats van toe te staan dat ze worden vastgelegd en afgehandeld door Dell iDRAC. Dit gebeurt meestal wanneer zowel EDAC als CMCI zijn ingeschakeld.

 

Resolution

Zet de betreffende SDS in de onderhoudsmodus en/of verwijder deze uit het cluster om de impact op het hele systeem te verminderen.

Neem contact op met de hardwareleverancier om te inspecteren op mogelijke hardwareproblemen. Als er geen hardwareprobleem wordt gedetecteerd, met name in het geval van corrigeerbare fouten, neemt u contact op met de leverancier van het besturingssysteem en vraagt u om hulp bij het uitschakelen van EDAC en CMCI. 

Additional Information

Versies waarop dit van toepassing is

N.v.t. - geen PowerFlex-probleem

Opgelost in versie

N.v.t. - hardwareprobleem

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.