PowerFlex: Il problema hardware DIMM causa un elevato utilizzo della CPU e il disaccoppiamento SDS

Summary: Alcuni problemi di memoria (ad esempio i problemi DIMM) possono causare tempeste CMCI e, di fatto, il disaccoppiamento degli SDS. Questo particolare problema si verificava perché il sistema operativo non rispondeva in modo appropriato alle notifiche di memoria correggibili di routine. Ciò può verificarsi anche quando un modulo DIMM RAM si guasta su un server, ma altri problemi hardware possono potenzialmente causare lo stesso scenario. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

È possibile osservare un errore del modulo DIMM nell'iDRAC o nei registri del sistema operativo, ad esempio:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Poco dopo il rilevamento del problema hardware, viene segnalata la tempesta CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Un utilizzo elevato della CPU può causare il blocco degli I/O del processo SDS (con un impatto sulla latenza complessiva del sistema di I/O) o addirittura disaccoppiare l SDS dall MDM. Se si verifica durante una ricostruzione in corso o mentre un altro SDS riscontra problemi simili, può causare una situazione di non disponibilità dei dati.

Cause

Le CPU Intel possono soffrire di "tempeste di interrupt" durante gli errori DIMM. Secondo la KB di Red Hat:

A partire da un processore Intel 64 da 45 nm su cui CPUID segnala DisplayFamily_DisplayModel come 06H_1AH, il processore può segnalare informazioni sugli errori di controllo della macchina corretti e fornire un interrupt programmabile per consentire al software di rispondere agli errori MC, visto come CMCI (Corrected Machine Check Error Interrupt). L'hardware Intel è in grado di fornire interrupt quando il livello di errori supera una soglia programmabile. Se l'errore è persistente, la CPU riceverà un afflusso costante o una tempesta di interrupt a una velocità sufficientemente elevata da influire sulla capacità della CPU di svolgere un lavoro utile. Quando ciò accade, il kernel disabilita il meccanismo CMCI e ritorna a un approccio più classico di polling regolare per gli errori di controllo della macchina. Una volta che la frequenza degli errori diminuisce, il kernel riabilita CMCI.

Per ulteriori informazioni, vedere: https://access.redhat.com/solutions/2710451
 

Questo problema può causare una tempesta di CMCI, che può anche essere attivata dalle funzionalità e dal software del sistema operativo che intercettano gli errori risolvibili anziché consentire l'acquisizione e la gestione da parte di Dell iDRAC. Ciò si verifica in genere quando EDAC e CMCI sono abilitati.

 

Resolution

Impostare l SDS interessato in modalità di manutenzione e/o rimuoverlo dal cluster per alleviare l'impatto sull'intero sistema.

Contattare il fornitore dell hardware per verificare la presenza di potenziali problemi hardware. Se non viene rilevato alcun problema hardware, in particolare nel caso di errori correggibili, contattare il fornitore del sistema operativo e richiedere assistenza per disabilitare EDAC e CMCI. 

Additional Information

Versioni interessate

N/D - non è un problema di PowerFlex

Risolto nella versione

N/D - problema hardware

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.