PowerFlex: DIMM Donanım Sorunu, Yüksek CPU Kullanımı ve SDS Ayrılmasına Neden Oluyor

Summary: Bazı bellek sorunları (örn. DIMM sorunları) CMCI fırtınalarına ve aslında SDS ayrışmasına neden olabilir. Bu sorun, işletim sisteminin rutin düzeltilebilir bellek bildirimlerine uygun şekilde yanıt vermemesi nedeniyle ortaya çıkmıştır. Bu, bir sunucuda bir RAM DIMM modülü arızalandığında da ortaya çıkabilir, ancak diğer donanım sorunları potansiyel olarak aynı senaryoya neden olabilir. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Arızalı DIMM, iDRAC veya İşletim Sistemi günlüklerinde görülebilir, örneğin:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Donanım sorunu algılandıktan kısa bir süre sonra CMCI fırtınası bildirilir:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Yüksek CPU kullanımı, SDS işleminin GÇ'leri durdurmasına (genel GÇ sistem gecikmesini etkiler) ve hatta SDS'yi MDM'den ayırmasına neden olabilir. Devam eden bir yeniden oluşturma sırasında veya başka bir SDS benzer sorunlar yaşarken meydana gelirse, bir DU durumuna yol açabilir.

Cause

Intel CPU'lar, DIMM hataları sırasında "kesinti fırtınaları" yaşayabilir. Red Hat KB ye göre:

CPUID'nin DisplayFamily_DisplayModel 06H_1AH olarak bildirdiği 45 nm Intel 64 işlemciden başlayarak, işlemci, düzeltilmiş makine kontrol hataları hakkında bilgi verebilir ve yazılımın düzeltilmiş makine kontrol hatası kesintisi (CMCI) olarak görülen MC hatalarına yanıt vermesi için programlanabilir bir kesinti sağlayabilir. Intel'in donanımı, hata düzeyi programlanabilir bir eşiği aştığında kesintiler verebilir. Hata kalıcıysa, CPU, CPU'nun yararlı işler yapma yeteneğini etkileyecek kadar yüksek bir oranda sürekli bir kesinti akışı veya fırtınası alır. Bu olduğunda, çekirdek CMCI mekanizmasını devre dışı bırakır ve makine kontrol hataları için düzenli olarak yoklama gibi daha klasik bir yaklaşıma geri döner. Hata oranı düştüğünde, çekirdek CMCI'yi yeniden etkinleştirir.

Daha fazla bilgi için bkz: https://access.redhat.com/solutions/2710451
 

Bu sorun, Dell iDRAC tarafından yakalanıp işlenmesine izin vermek yerine düzeltilebilir hataları engelleyen işletim sistemi özellikleri ve yazılımlar tarafından da tetiklenebilen bir CMCI fırtınasına neden olabilir. Bu durum genellikle hem EDAC hem de CMCI etkinleştirildiğinde oluşur.

 

Resolution

Tüm sistem üzerindeki etkisini azaltmak için etkilenen SDS'yi Bakım Moduna alın ve/veya kümeden kaldırın.

Potansiyel donanım sorunlarını incelemek için donanım satıcısıyla iletişime geçin. Hiçbir donanım sorunu algılanmazsa, özellikle de Düzeltilebilir Hatalar durumunda, işletim sistemi satıcısıyla iletişime geçin ve EDAC ve CMCI'yi devre dışı bırakma konusunda yardım isteyin. 

Additional Information

Etkilenen Sürümler

Yok - bir PowerFlex sorunu değil

Düzeltildiği Sürüm

Yok - donanım sorunu

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.