PowerFlex: Un problema de hardware de DIMM causa un alto uso de la CPU y el desacoplamiento del SDS

Summary: Ciertos problemas de memoria (es decir, problemas de DIMM) pueden provocar tormentas de CMCI y, en efecto, desacoplamiento del SDS. Este problema en particular surgía debido a que el sistema operativo no respondía adecuadamente a las notificaciones de rutina de la memoria corregible. Esto también puede ocurrir cuando un módulo DIMM de RAM falla en un servidor, pero otros problemas de hardware pueden causar el mismo escenario. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Los DIMM con fallas se pueden observar en iDRAC o en los registros del sistema operativo, por ejemplo:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Poco después de que se detecta el problema de hardware, se informa la tormenta de CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Un uso elevado de la CPU puede hacer que el proceso de SDS detenga las I/O (lo que afectará la latencia general del sistema de I/O) o incluso desacople el SDS del MDM. Si sucede durante una reconstrucción en curso o mientras otro SDS experimenta problemas similares, puede dar lugar a una situación de DU.

Cause

Las CPU Intel pueden sufrir "tormentas de interrupción" durante los errores de DIMM. Según la base de conocimientos de Red Hat:

A partir de un procesador Intel 64 de 45 nm en el que CPUID informa de DisplayFamily_DisplayModel como 06H_1AH, el procesador puede informar sobre los errores corregidos de comprobación de la máquina y ofrecer una interrupción programable para que el software responda a los errores de MC, que se ven como interrupción corregida del error de comprobación de la máquina (CMCI). El hardware de Intel puede proporcionar interrupciones cuando el nivel de errores supera un umbral programable. Si el error es persistente, la CPU recibirá una afluencia constante o una tormenta de interrupciones a una velocidad lo suficientemente alta como para afectar la capacidad de la CPU de realizar un trabajo útil. Cuando eso sucede, el kernel deshabilita el mecanismo CMCI y vuelve a un enfoque más clásico de sondear regularmente para detectar errores de verificación de máquinas. Una vez que la tasa de errores disminuye, el kernel vuelve a habilitar CMCI.

Ver más información en: https://access.redhat.com/solutions/2710451
 

Este problema puede dar lugar a una tormenta de CMCI, que también puede desencadenarse por las características y el software del sistema operativo que interceptan los errores corregibles en lugar de permitir que iDRAC de Dell los capture y maneje. Por lo general, esto ocurre cuando EDAC y CMCI están habilitados.

 

Resolution

Coloque el SDS afectado en modo de mantenimiento o quítelo del clúster para aliviar el impacto en todo el sistema.

Póngase en contacto con el proveedor de hardware para inspeccionar si hay posibles problemas de hardware. Si no se detecta ningún problema de hardware, en especial en el caso de errores corregibles, comuníquese con el proveedor del sistema operativo y solicite ayuda para deshabilitar EDAC y CMCI. 

Additional Information

Versiones afectadas

N/D: no es un problema de PowerFlex

Problema corregido en la versión

N/D: problema de hardware

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.