PowerFlex : Un problème matériel DIMM entraîne une utilisation élevée du processeur et une découplage SDS

Summary: Certains problèmes de mémoire (par exemple, les problèmes de DIMM) peuvent provoquer des tempêtes CMCI et, dans les faits, une découplage du SDS. Ce problème particulier se produisait parce que le système d’exploitation ne répondait pas de manière appropriée aux notifications de mémoire corrigibles de routine. Cela peut également se produire lorsqu’un module DIMM de RAM échoue sur un serveur, mais d’autres problèmes matériels peuvent potentiellement provoquer le même scénario. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Un DIMM défaillant peut être observé dans les journaux iDRAC ou du système d’exploitation, par exemple :
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Peu de temps après la détection du problème matériel, la tempête CMCI est signalée :
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Une utilisation élevée du processeur peut amener le processus SDS à bloquer les E/S (ce qui aura un impact sur la latence globale du système d’E/S) ou même à découpler le SDS du MDM. Si cela se produit pendant une reconstruction en cours ou alors qu’un autre SDS rencontre des problèmes similaires, cela peut entraîner une situation d’indisponibilité des données.

Cause

Les processeurs Intel peuvent souffrir de « tempêtes d’interruption » lors d’erreurs DIMM. D’après l’article Red Hat KB :

À partir d’un processeur Intel 64 de 45 nm sur lequel le CPUID signale DisplayFamily_DisplayModel comme 06H_1AH, le processeur peut signaler des informations sur les erreurs de vérification de la machine corrigées et fournir une interruption programmable pour que le logiciel réponde aux erreurs MC, ce que l’on appelle une interruption d’erreur de vérification de la machine corrigée (CMCI). Le matériel Intel peut émettre des interruptions lorsque le niveau d’erreurs dépasse un seuil programmable. Si l’erreur est persistante, le processeur reçoit alors un afflux constant ou une tempête d’interruptions à un taux suffisamment élevé pour affecter sa capacité à effectuer un travail utile. Lorsque cela se produit, le noyau désactive le mécanisme CMCI et revient à une approche plus classique consistant à interroger régulièrement les erreurs de vérification de la machine. Une fois que le taux d’erreurs diminue, le noyau réactive CMCI.

Pour plus d’informations, rendez-vous sur : https://access.redhat.com/solutions/2710451
 

Ce problème peut entraîner une tempête CMCI, qui peut également être déclenchée par les fonctionnalités du système d’exploitation et les logiciels qui interceptent les erreurs corrigibles au lieu de permettre leur capture et leur gestion par Dell iDRAC. Cela se produit généralement lorsque EDAC et CMCI sont activés.

 

Resolution

Mettez le SDS concerné en mode maintenance et/ou supprimez-le du cluster pour réduire l’impact sur l’ensemble du système.

Contactez le fournisseur du matériel pour vérifier s’il y a d’éventuels problèmes matériels. Si aucun problème matériel n’est détecté, en particulier dans le cas d’erreurs corrigibles, contactez le fournisseur du système d’exploitation et demandez de l’aide pour désactiver EDAC et CMCI. 

Additional Information

Versions affectées

S/O : il ne s’agit pas d’un problème PowerFlex

Problème résolu dans la version

S/O : problème matériel

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.