PowerFlex:DIMM 硬件问题导致 CPU 使用率过高和 SDS 分离

摘要: 某些内存问题(即 DIMM 问题)可能会导致 CMCI 风暴,并实际上导致 SDS 分离。 出现此特殊问题的原因是作系统未适当地响应例行可纠正内存通知。 当服务器上的 RAM DIMM 模块出现故障时,也可能会发生这种情况,但其他硬件问题可能会导致相同的情况。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

在 iDRAC 或作系统日志中可以观察到发生故障的 DIMM,例如:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
检测到硬件问题后不久,将报告 CMCI 风暴:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


高 CPU 使用率可能会导致 SDS 进程暂停 IO(这将影响整体 IO 系统延迟),甚至将 SDS 与 MDM 分离。如果在进行重建期间或另一个 SDS 遇到类似问题时发生这种情况,则可能会导致 DU 情况。

原因

在 DIMM 出错期间,Intel CPU 可能会遭受“中断风暴”的影响。根据 Red Hat 知识库文章:

从 45 纳米英特尔 64 处理器开始,CPUID 将 DisplayFamily_DisplayModel 报告为 06H_1AH,处理器可以报告有关已更正的机器检查错误的信息,并为软件提供可编程中断以响应 MC 错误,这称为纠正的机器检查错误中断 (CMCI)。当错误级别超过可编程阈值时,英特尔的硬件可以提供中断。如果错误持续存在,CPU 就会以足够高的速率接收持续涌入或中断风暴,以致影响 CPU 执行有用工作的能力。发生这种情况时,内核会禁用 CMCI 机制,并恢复到更经典的方法,即定期轮询机器检查错误。错误率降低后,内核会重新启用 CMCI。

有关更多信息,请访问:https://access.redhat.com/solutions/2710451
 

此问题可能会导致 CMCI 风暴,也可由作系统功能和软件触发,这些功能和软件拦截可纠正错误,而不是允许 Dell iDRAC 捕获和处理错误。这通常在同时启用 EDAC 和 CMCI 时发生。

 

解决方案

将受影响的 SDS 置于维护模式和/或将其从群集中删除,以减轻对整个系统的影响。

请与硬件供应商联系,以检查是否有任何潜在的硬件问题。如果未检测到硬件问题(特别是在可纠正错误的情况下),请联系作系统供应商并请求禁用 EDAC 和 CMCI 的帮助。 

其他信息

受影响的版本

不适用 — 不是 PowerFlex 问题

已修复问题的版本

不适用 — 硬件问题

受影响的产品

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
文章属性
文章编号: 000197735
文章类型: Solution
上次修改时间: 13 5月 2026
版本:  7
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。