PowerFlex. Аппаратная проблема DIMM приводит к высокой загрузке ЦП и разрыву связи с SDS

Summary: Некоторые проблемы с памятью (например, проблемы с модулями DIMM) могут привести к возникновению штормов CMCI и, как следствие, к разрыву связи SDS. Эта конкретная проблема возникала из-за того, что операционная система не реагировала должным образом на стандартные исправляемые уведомления памяти. Это также может произойти при сбое модуля ОЗУ DIMM на сервере, но тот же сценарий может быть вызван другими аппаратными проблемами. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Сбой модуля DIMM можно наблюдать в журналах iDRAC или в журналах операционной системы, например:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Вскоре после обнаружения проблемы с оборудованием появляется сообщение о шторме CMCI:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


Высокая загрузка ЦП может привести к остановке процесса SDS операций ввода-вывода (что повлияет на общую задержку системы ввода-вывода) или даже к разрыву связи SDS с MDM. Если это происходит во время текущего восстановления или когда другая система SDS испытывает аналогичные проблемы, это может привести к ситуации DU.

Cause

ЦП Intel могут страдать от «штормов прерываний» во время ошибок DIMM. В соответствии со статьей базы знаний Red Hat:

Начиная с 45-нм процессора Intel 64, для которого CPUID сообщает DisplayFamily_DisplayModel как 06H_1AH, процессор может сообщать информацию об исправленных ошибках машинной проверки и предоставлять программируемое прерывание для реакции программного обеспечения на ошибки MC, рассматриваемое как исправленное прерывание ошибки машинной проверки (CMCI). Оборудование Intel может выдавать прерывания, когда уровень ошибок превышает программируемый порог. Если ошибка будет повторяться, то ЦП будет получать постоянный приток или шквал прерываний с достаточно высокой скоростью, что это повлияет на способность ЦП выполнять полезную работу. Когда это происходит, ядро отключает механизм CMCI и возвращается к более классическому подходу регулярного опроса ошибок машинной проверки. Как только частота ошибок уменьшается, ядро снова включает CMCI.

Дополнительные сведения см. на сайте: https://access.redhat.com/solutions/2710451
 

Эта проблема может привести к шторму CMCI, который также может быть вызван функциями и программным обеспечением ОС, которые перехватывают устранимые ошибки вместо того, чтобы позволить их перехвату и обработке Dell iDRAC. Обычно это происходит, если включены и EDAC, и CMCI.

 

Resolution

Переведите затронутый SDS в режим обслуживания и/или удалите его из кластера, чтобы устранить последствия для всей системы.

Обратитесь к поставщику оборудования, чтобы проверить наличие потенциальных проблем с оборудованием. Если проблем с оборудованием не обнаружено, особенно в случае устранимых ошибок, обратитесь к поставщику ОС за помощью в отключении EDAC и CMCI. 

Additional Information

Затронутые версии

Н/Д — не является проблемой PowerFlex

Исправлено в версии

Н/Д — аппаратная неполадка

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.