PowerFlex: Il problema hardware DIMM causa un elevato utilizzo della CPU e il disaccoppiamento SDS
Summary: Alcuni problemi di memoria (ad esempio i problemi DIMM) possono causare tempeste CMCI e, di fatto, il disaccoppiamento degli SDS. Questo particolare problema si verificava perché il sistema operativo non rispondeva in modo appropriato alle notifiche di memoria correggibili di routine. Ciò può verificarsi anche quando un modulo DIMM RAM si guasta su un server, ma altri problemi hardware possono potenzialmente causare lo stesso scenario. ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
Un utilizzo elevato della CPU può causare il blocco degli I/O del processo SDS (con un impatto sulla latenza complessiva del sistema di I/O) o addirittura disaccoppiare l SDS dall MDM. Se si verifica durante una ricostruzione in corso o mentre un altro SDS riscontra problemi simili, può causare una situazione di non disponibilità dei dati.
Cause
Le CPU Intel possono soffrire di "tempeste di interrupt" durante gli errori DIMM. Secondo la KB di Red Hat:
A partire da un processore Intel 64 da 45 nm su cui CPUID segnala DisplayFamily_DisplayModel come 06H_1AH, il processore può segnalare informazioni sugli errori di controllo della macchina corretti e fornire un interrupt programmabile per consentire al software di rispondere agli errori MC, visto come CMCI (Corrected Machine Check Error Interrupt). L'hardware Intel è in grado di fornire interrupt quando il livello di errori supera una soglia programmabile. Se l'errore è persistente, la CPU riceverà un afflusso costante o una tempesta di interrupt a una velocità sufficientemente elevata da influire sulla capacità della CPU di svolgere un lavoro utile. Quando ciò accade, il kernel disabilita il meccanismo CMCI e ritorna a un approccio più classico di polling regolare per gli errori di controllo della macchina. Una volta che la frequenza degli errori diminuisce, il kernel riabilita CMCI.
Per ulteriori informazioni, vedere: https://access.redhat.com/solutions/2710451
Questo problema può causare una tempesta di CMCI, che può anche essere attivata dalle funzionalità e dal software del sistema operativo che intercettano gli errori risolvibili anziché consentire l'acquisizione e la gestione da parte di Dell iDRAC. Ciò si verifica in genere quando EDAC e CMCI sono abilitati.
Resolution
Impostare l SDS interessato in modalità di manutenzione e/o rimuoverlo dal cluster per alleviare l'impatto sull'intero sistema.
Contattare il fornitore dell hardware per verificare la presenza di potenziali problemi hardware. Se non viene rilevato alcun problema hardware, in particolare nel caso di errori correggibili, contattare il fornitore del sistema operativo e richiedere assistenza per disabilitare EDAC e CMCI.
Additional Information
Versioni interessate
N/D - non è un problema di PowerFlex
Risolto nella versione
N/D - problema hardware