PowerFlex:DIMMハードウェアの問題により、CPU使用率が高くなり、SDSが分離される

Summary: 特定のメモリーの問題(DIMMの問題など)は、CMCIストーム、そして事実上SDSのデカップリングを引き起こす可能性があります。 この問題は、オペレーティング システムが日常的な修正可能なメモリー通知に適切に応答しないことが原因で発生しました。 これは、サーバーでRAM DIMMモジュールに障害が発生した場合にも発生する可能性がありますが、他のハードウェアの問題によって同じシナリオが発生する可能性があります。 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

DIMMの障害は、iDRACまたはオペレーティング システムのログで確認できます。例:
 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {1}[Hardware Error]: event severity: corrected
 kernel: {1}[Hardware Error]:  Error 0, type: corrected
 kernel: {1}[Hardware Error]:  fru_text: A1
 kernel: {1}[Hardware Error]:   section_type: memory error
 kernel: {1}[Hardware Error]:   error_status: 0x0000000000000400
 kernel: {1}[Hardware Error]:   physical_address: 0x0000000ad6a38ac0
 kernel: {1}[Hardware Error]:   node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
 kernel: {1}[Hardware Error]:   error_type: 13, scrub corrected error
 kernel: {1}[Hardware Error]:   DIMM location: not present. DMI handle: 0x0000
 kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
 kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
 kernel: {2}[Hardware Error]: event severity: corrected
 kernel: {2}[Hardware Error]:  Error 0, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: {2}[Hardware Error]:  Error 1, type: corrected
 kernel: {2}[Hardware Error]:   section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
 kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
 kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
 kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
 kernel: EDAC skx MC0: ADDR 0xad6a38ac0
 kernel: EDAC skx MC0: MISC 0x0
 kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
 kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
 kernel: mce: [Hardware Error]: Machine check events logged
 mcelog: Hardware event. This is not a software error.
 mcelog: MCE 0
 mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
 mcelog: ADDR ad6a38ac0
 mcelog: TIME 1669993821 Fri Dec  2 15:10:21 2022
 mcelog: MCG status:
 mcelog: MCi status:
 mcelog: Corrected error
 mcelog: Error enabled
 mcelog: MCi_ADDR register valid
 
ハードウェアの問題が検出された直後に、CMCIストームが報告されます。
Dec  8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode
Dec  8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode
(...)                
Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode
Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode


CPU使用率が高いと、SDSプロセスでIOが停止したり(IOシステム全体のレイテンシーに影響する)、SDSがMDMから切り離されたりする可能性があります。進行中の再構築中、または別のSDSで同様の問題が発生しているときに発生すると、DU状態につながる可能性があります。

Cause

インテルCPUは、DIMMエラー時に「割り込みストーム」に見舞われる可能性があります。Red Hat KBによると:

CPUIDが06H_1AHとしてDisplayFamily_DisplayModelを報告する45 nmインテル64プロセッサ以降、プロセッサは修正されたマシンチェックエラーに関する情報を報告し、修正されたマシンチェックエラー割り込み(CMCI)と呼ばれるMCエラーに応答するためのソフトウェア用のプログラム可能な割り込みを提供できます。インテルのハードウェアは、エラーのレベルがプログラム可能なしきい値を超えたときに割り込みを配信できます。エラーが続く場合、CPUは、CPUが有用な作業を行う能力に影響を与えるのに十分な高いレートで、絶え間ない割り込みまたは嵐を受け取ります。その場合、カーネルは CMCI メカニズムを無効にし、マシンチェックエラーを定期的にポーリングする従来のアプローチに戻ります。エラー率が下がると、カーネルはCMCIを再度有効にします。

詳細については、https://access.redhat.com/solutions/2710451 を参照してください。
 

この問題により、CMCIストームが発生する可能性があります。また、修正可能なエラーをDell iDRACがキャプチャして処理するのではなく、傍受するOS機能やソフトウェアによってトリガーされることもあります。これは通常、EDACとCMCIの両方が有効になっている場合に発生します。

 

Resolution

影響を受けるSDSをメンテナンス モードにするか、クラスターから削除して、システム全体への影響を軽減します。

ハードウェアのベンダーに問い合わせて、潜在的なハードウェアの問題がないか調べます。ハードウェアの問題が検出されない場合、特に修正可能なエラーの場合は、OSベンダーに連絡し、EDACとCMCIを無効にするサポートをリクエストしてください。 

Additional Information

問題が発生するバージョン

該当なし - PowerFlexの問題ではない

修正バージョン

該当なし - ハードウェアの問題

Affected Products

PowerFlex rack, VxFlex Ready Nodes, ScaleIO
Article Properties
Article Number: 000197735
Article Type: Solution
Last Modified: 08 Apr 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.