PowerFlex: DIMM-laitteisto-ongelma aiheuttaa suurta suorittimen käyttöä ja SDS:n irrottamista

Summary: Tietyt muistiongelmat (esim. DIMM-ongelmat) voivat aiheuttaa CMCI-myrskyjä ja itse asiassa SDS:n irrotuksen. Tämä ongelma johtui siitä, että käyttöjärjestelmä ei vastannut asianmukaisesti rutiininomaisiin korjattavissa oleviin muisti-ilmoituksiin. Näin voi käydä myös, kun RAM DIMM -moduuli on viallinen palvelimessa, mutta muut laitteisto-ongelmat voivat aiheuttaa saman tilanteen. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Viallinen DIMM-moduuli voidaan havaita iDRAC:ssä tai käyttöjärjestelmän lokeissa, esimerkiksi:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Pian laitteisto-ongelman havaitsemisen jälkeen CMCI-myrskystä ilmoitetaan:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Suuri suorittimen käyttö voi aiheuttaa sen, että SDS-prosessi pysäyttää IO: t (mikä vaikuttaa IO-järjestelmän yleiseen viiveeseen) tai jopa irrottaa SDS: n MDM: stä. Jos se tapahtuu meneillään olevan uudelleenrakennuksen aikana tai kun toisella käyttöturvallisuustiedotteella on samanlaisia ongelmia, se voi johtaa köyhdytettyyn uraaniin.

Cause

Intel-suorittimet saattavat kärsiä keskeytysmyrskyistä DIMM-virheiden aikana. Red Hat KB:n mukaan:

Alkaen 45 nm:n Intel 64 -suorittimesta, jossa CPUID ilmoittaa DisplayFamily_DisplayModel 06H_1AH, suoritin voi raportoida tietoja korjatuista konetarkistusvirheistä ja tarjota ohjelmoitavan keskeytyksen, jotta ohjelmisto voi vastata MC-virheisiin, tätä kutsutaan korjatuksi konetarkistusvirheen keskeytykseksi (CMCI). Intelin laitteisto voi tuottaa keskeytyksiä, kun virheiden taso ylittää ohjelmoitavan kynnyksen. Jos virhe on jatkuva, CPU vastaanottaa jatkuvan keskeytysten tulvan tai myrskyn riittävän suurella nopeudella, että se vaikuttaa suorittimen kykyyn tehdä hyödyllistä työtä. Kun näin tapahtuu, ydin poistaa CMCI-mekanismin käytöstä ja palaa klassisempaan lähestymistapaan, jossa kysytään säännöllisesti koneen tarkistusvirheitä. Kun virheiden määrä vähenee, ydin ottaa CMCI:n takaisin käyttöön.

Katso lisätietoja: https://access.redhat.com/solutions/2710451
 

Tämä ongelma voi aiheuttaa CMCI-myrskyn, jonka voivat laukaista myös käyttöjärjestelmän ominaisuudet ja ohjelmisto, jotka sieppaavat korjattavissa olevat virheet sen sijaan, että antaisivat Dell iDRACin siepata ja käsitellä ne. Näin käy yleensä silloin, kun sekä EDAC että CMCI ovat käytössä.

 

Resolution

Aseta kyseinen käyttöturvallisuustiedote ylläpitotilaan ja/tai poista se klusterista, jotta vaikutukset koko järjestelmään lievenevät.

Ota yhteyttä laitteiston valmistajaan ja tarkista mahdolliset laitteisto-ongelmat. Jos laitteisto-ongelmia ei havaita, erityisesti korjattavissa olevien virheiden tapauksessa, ota yhteyttä käyttöjärjestelmän myyjään ja pyydä apua EDAC:n ja CMCI:n poistamiseksi käytöstä. 

Additional Information

Versiot, joita ongelma koskee

Ei ole PowerFlex-ongelma

Korjattu versiossa

N/A - laitteisto-ongelma

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.