PowerFlex: DIMM-Hardwareproblem führt zu hoher CPU-Auslastung und SDS-Entkopplung

Summary: Bestimmte Speicherprobleme (z. B. DIMM-Probleme) können CMCI-Stürme und damit eine SDS-Entkopplung verursachen. Dieses spezielle Problem trat auf, weil das Betriebssystem nicht ordnungsgemäß auf routinemäßige korrigierbare Speicherbenachrichtigungen reagierte. Dies kann auch auftreten, wenn ein RAM-DIMM-Modul auf einem Server ausfällt, aber andere Hardwareprobleme können potenziell das gleiche Szenario verursachen. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Ein fehlerhaftes DIMM kann in iDRAC oder den Betriebssystemprotokollen beobachtet werden, z. B.:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Kurz nachdem das Hardwareproblem erkannt wurde, wird der CMCI-Sturm gemeldet:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Eine hohe CPU-Auslastung kann dazu führen, dass der SDS-Prozess die IOs blockiert (was sich auf die gesamte IO-Systemlatenz auswirkt) oder sogar den SDS vom MDM entkoppelt. Wenn dies während einer laufenden Neuerstellung geschieht oder während ein anderer SDS ähnliche Probleme aufweist, kann dies zu einer DU-Situation führen.

Cause

Bei Intel CPUs kann es bei DIMM-Fehlern zu "Interrupt-Stürmen" kommen. In Red Hat Wissensdatenbank-Artikel heißt es:

Beginnend mit einem 45-nm-Intel-64-Prozessor, auf dem CPUID DisplayFamily_DisplayModel als 06H_1AH meldet, kann der Prozessor Informationen über korrigierte Maschinenprüfungsfehler melden und einen programmierbaren Interrupt für die Software bereitstellen, um auf MC-Fehler zu reagieren, die als Corrected Machine-Check Error Interrupt (CMCI) angesehen werden. Die Hardware von Intel kann Interrupts bereitstellen, wenn die Fehlerstufe einen programmierbaren Schwellenwert überschreitet. Wenn der Fehler dauerhaft ist, erhält die CPU einen konstanten Zustrom oder Sturm von Interrupts mit einer Rate, die hoch genug ist, dass die Fähigkeit der CPU, nützliche Arbeit zu leisten, beeinträchtigt wird. In diesem Fall deaktiviert der Kernel den CMCI-Mechanismus und kehrt zu einem klassischeren Ansatz zurück, bei dem regelmäßig nach Fehlern bei der Maschinenprüfung gesucht wird. Sobald die Fehlerrate sinkt, aktiviert der Kernel CMCI wieder.

Weitere Informationen finden Sie unter: https://access.redhat.com/solutions/2710451
 

Dieses Problem kann zu einem CMCI-Sturm führen, der auch durch die Betriebssystemfunktionen und Software ausgelöst werden kann, die korrigierbare Fehler abfangen, anstatt zuzulassen, dass sie von Dell iDRAC erfasst und verarbeitet werden. Dies tritt in der Regel auf, wenn sowohl EDAC als auch CMCI aktiviert sind.

 

Resolution

Versetzen Sie den betroffenen SDS in den Wartungsmodus und/oder entfernen Sie ihn aus dem Cluster, um die Auswirkungen auf das gesamte System zu verringern.

Wenden Sie sich an den Hardwareanbieter, um ihn auf mögliche Hardwareprobleme zu überprüfen. Wenn kein Hardwareproblem erkannt wird, insbesondere bei korrigierbaren Fehlern, wenden Sie sich an den Betriebssystemanbieter und fordern Sie Unterstützung bei der Deaktivierung von EDAC und CMCI an. 

Additional Information

Betroffene Versionen

N/A – kein PowerFlex-Problem

Behoben in Version

N/A – Hardwareproblem

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.