Технологія PowerFlex: Проблема з апаратним забезпеченням DIMM спричиняє високе завантаження ЦП і розв'язку SDS

Summary: Певні проблеми з пам'яттю (наприклад, проблеми з DIMM) можуть спричинити шторми CMCI і, по суті, розв'язку SDS. Ця конкретна проблема виникла через те, що операційна система не реагувала належним чином на рутинні сповіщення з пам'яті, які можна виправити. Це також може статися, коли модуль RAM DIMM виходить з ладу на сервері, але інший апаратний неполадок потенційно може спричинити той самий сценарій. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Збій DIMM можна спостерігати в журналах iDRAC або операційної системи, наприклад:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Незабаром після виявлення апаратної проблеми повідомляється про шторм CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Високе завантаження ЦП може призвести до зупинки процесу SDS вводу-виводу (що вплине на загальну затримку системи вводу-виводу) або навіть від'єднання SDS від MDM. Якщо це станеться під час поточної перебудови або під час іншої SDS зазнає подібних проблем, це може призвести до ситуації DU.

Cause

Процесори Intel можуть страждати від «штормів переривань» під час помилок DIMM. Відповідно до Red Hat KB:

Починаючи з 45 нм процесора Intel 64, на якому CPUID повідомляє про DisplayFamily_DisplayModel як 06H_1AH, процесор може повідомляти інформацію про виправлені помилки перевірки машини та надавати програмоване переривання для програмного забезпечення для реагування на помилки MC, яке розглядається як виправлене переривання помилки перевірки машини (CMCI). Апаратне забезпечення Intel може видавати переривання, коли рівень помилок перевищує програмований поріг. Якщо помилка постійна, центральний процесор потім отримуватиме постійний приплив або бурю переривань з досить високою швидкістю, що це вплине на здатність центрального процесора виконувати корисну роботу. Коли це відбувається, ядро вимикає механізм CMCI і повертається до більш класичного підходу регулярного опитування на предмет помилок перевірки машини. Як тільки частота помилок зменшується, ядро знову вмикає CMCI назад.

Більше інформації за посиланням: https://access.redhat.com/solutions/2710451
 

Ця проблема може призвести до шторму CMCI, який також може бути спровокований функціями ОС і програмним забезпеченням, яке перехоплює помилки, які можна виправити, замість того, щоб дозволити їх захоплення та обробку Dell iDRAC. Зазвичай це відбувається, коли ввімкнено EDAC і CMCI.

 

Resolution

Переведіть уражену SDS у режим обслуговування та/або видаліть її з кластера, щоб зменшити вплив на всю систему.

Зверніться до постачальника обладнання, щоб перевірити його на наявність будь-яких потенційних проблем з обладнанням. Якщо проблем з обладнанням не виявлено, особливо у випадку виправлених помилок, зверніться до постачальника ОС і попросіть допомоги з вимкненням EDAC і CMCI. 

Additional Information

Версії, на які це вплинуло

Н/Д - не проблема PowerFlex

Виправлено у версії

Н/Д - апаратна проблема

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.