PowerFlex: Problém s hardwarem DIMM způsobuje vysoké využití procesoru a oddělení SDS

Shrnutí: Některé problémy s pamětí (např. problémy s moduly DIMM) mohou způsobit zahlcení CMCI a v důsledku toho oddělení SDS. Tento konkrétní problém vznikl tím, že operační systém nereagoval správně na běžná opravná upozornění z paměti. K tomu může také dojít, když na serveru selhává modul RAM DIMM, ale stejný scénář mohou potenciálně způsobit i jiné problémy s hardwarem. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Selhání modulu DIMM lze pozorovat v řadiči iDRAC nebo v protokolech operačního systému, například:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Krátce po zjištění problému s hardwarem je hlášena bouře CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Vysoké využití procesoru může způsobit, že proces SDS zastaví vstupně-výstupní operace (což bude mít vliv na celkovou latenci vstupně-výstupního systému) nebo dokonce oddělí SDS od MDM. Pokud k tomu dojde během probíhajícího opětovného vytvoření nebo když má jiný bezpečnostní list podobné problémy, může to vést k situaci s ochuzeným uranem.

Příčina

Procesory Intel mohou během chyb DIMM trpět "zahlcením přerušení". Podle databáze znalostí Red Hat:

Počínaje 45nm procesorem Intel 64, na kterém CPUID hlásí DisplayFamily_DisplayModel jako 06H_1AH, může procesor hlásit informace o opravených chybách kontroly stroje a poskytovat programovatelné přerušení pro software, aby reagoval na chyby MC, což je považováno jako opravené přerušení chyby kontroly stroje (CMCI). Hardware Intel může poskytovat přerušení, když úroveň chyb překročí programovatelnou prahovou hodnotu. Pokud je chyba trvalá, procesor bude dostávat neustálý příliv nebo bouři přerušení dostatečně vysokou rychlostí, která ovlivní schopnost procesoru vykonávat užitečnou práci. Když k tomu dojde, jádro zakáže mechanismus CMCI a vrátí se ke klasičtějšímu přístupu pravidelného dotazování na chyby kontroly počítače. Jakmile se četnost chyb sníží, jádro CMCI znovu povolí.

Více informací naleznete na: https://access.redhat.com/solutions/2710451
 

Tento problém může vyústit v zahlcení nástroje CMCI, které mohou být také vyvolány funkcemi a softwarem operačního systému, které zachycují opravitelné chyby namísto toho, aby je zachytil a zpracoval řadič Dell iDRAC. K tomu obvykle dochází, když jsou povoleny řadiče EDAC i CMCI.

 

Řešení

Přepněte dotčený SDS do režimu údržby nebo jej odeberte z clusteru, aby se zmírnil dopad na celý systém.

Kontaktujte dodavatele hardwaru a zjistěte, zda nedošlo k potížím s hardwarem. Pokud není zjištěn žádný problém s hardwarem, zejména v případě opravitelných chyb, obraťte se na dodavatele operačního systému a požádejte o pomoc s zakázáním EDAC a CMCI. 

Další informace

Dotčené verze

Není k dispozici – nejedná se o problém se zařízením PowerFlex

Opraveno ve verzi

Není k dispozici – problém s hardwarem

Dotčené produkty

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Vlastnosti článku
Číslo článku: 000197735
Typ článku: Solution
Poslední úprava: 11 kvě 2026
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.