PowerFlex: O problema de hardware do DIMM causa alto uso da CPU e dissociação do SDS

Summary: Certos problemas de memória (por exemplo, problemas de DIMM) podem causar tempestades de CMCI e, na prática, dissociação de SDS. Esse problema específico surgiu porque o sistema operacional não respondeu adequadamente às notificações de memória corrigíveis de rotina. Isso também pode ocorrer quando um módulo DIMM de RAM está falhando em um servidor, mas outros problemas de hardware podem causar o mesmo cenário. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

DIMM com falha podem ser observados no iDRAC ou nos registros do sistema operacional, por exemplo:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
Logo após o problema de hardware ser detectado, a tempestade de CMCI é relatada:
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


O alto uso da CPU pode fazer com que o processo de SDS paralise as E/Ss (o que afetará a latência geral do sistema de E/S) ou até mesmo desconecte o SDS do MDM. Se isso acontecer durante uma reconstrução em andamento ou enquanto outro SDS estiver enfrentando problemas semelhantes, isso pode levar a uma situação de DU.

Cause

As CPUs Intel podem sofrer "tempestades de interrupções" durante erros de DIMM. De acordo com o Red Hat KB:

Começando com um processador Intel 64 de 45 nm no qual o CPUID relata DisplayFamily_DisplayModel como 06H_1AH, o processador pode relatar informações sobre erros de verificação de máquina corrigidos e fornecer uma interrupção programável para que o software responda a erros de MC, visto como interrupção de erro de verificação de máquina corrigida (CMCI). O hardware da Intel pode fornecer interrupções quando o nível de erros excede um limite programável. Se o erro for persistente, a CPU receberá um influxo constante ou uma tempestade de interrupções a uma taxa alta o suficiente para afetar a capacidade da CPU de fazer um trabalho útil. Quando isso acontece, o kernel desativa o mecanismo CMCI e reverte para uma abordagem mais clássica de sondagem regular para erros de verificação de máquina. Depois que a taxa de erros diminui, o kernel reativa o CMCI.

Veja mais informações em: https://access.redhat.com/solutions/2710451
 

Esse problema pode resultar em uma tempestade de CMCI, que também pode ser acionada pelos recursos do sistema operacional e pelo software que interceptam erros corrigíveis em vez de permitir que eles sejam capturados e manipulados pelo Dell iDRAC. Isso geralmente ocorre quando o EDAC e o CMCI estão ativados.

 

Resolution

Coloque o SDS afetado no modo de manutenção e/ou remova-o do cluster para aliviar o impacto em todo o sistema.

Entre em contato com o fornecedor do hardware para inspecionar possíveis problemas de hardware. Se nenhum problema de hardware for detectado, especialmente no caso de erros corrigíveis, entre em contato com o fornecedor do sistema operacional e solicite assistência para desativar o EDAC e o CMCI. 

Additional Information

Versões afetadas

N/D - não é um problema do PowerFlex

Correção feita na versão

N/D - problema de hardware

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.