PowerFlex:DIMMハードウェアの問題により、CPU使用率が高くなり、SDSが分離される
Summary: 特定のメモリーの問題(DIMMの問題など)は、CMCIストーム、そして事実上SDSのデカップリングを引き起こす可能性があります。 この問題は、オペレーティング システムが日常的な修正可能なメモリー通知に適切に応答しないことが原因で発生しました。 これは、サーバーでRAM DIMMモジュールに障害が発生した場合にも発生する可能性がありますが、他のハードウェアの問題によって同じシナリオが発生する可能性があります。 ...
Symptoms
kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {1}[Hardware Error]: event severity: corrected
kernel: {1}[Hardware Error]: Error 0, type: corrected
kernel: {1}[Hardware Error]: fru_text: A1
kernel: {1}[Hardware Error]: section_type: memory error
kernel: {1}[Hardware Error]: error_status: 0x0000000000000400
kernel: {1}[Hardware Error]: physical_address: 0x0000000ad6a38ac0
kernel: {1}[Hardware Error]: node: 0 card: 0 module: 0 rank: 0 bank: 1 device: 1 row: 58311 column: 712
kernel: {1}[Hardware Error]: error_type: 13, scrub corrected error
kernel: {1}[Hardware Error]: DIMM location: not present. DMI handle: 0x0000
kernel: {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 65534
kernel: {2}[Hardware Error]: It has been corrected by h/w and requires no further action
kernel: {2}[Hardware Error]: event severity: corrected
kernel: {2}[Hardware Error]: Error 0, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: {2}[Hardware Error]: Error 1, type: corrected
kernel: {2}[Hardware Error]: section type: unknown, xxxxxxxx-xxxx-xxxx-xxxx-000xxxxxxx1b
kernel: EDAC skx MC0: HANDLING MCE MEMORY ERROR
kernel: EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
kernel: EDAC skx MC0: TSC 0xcdaff277a3653a
kernel: EDAC skx MC0: ADDR 0xad6a38ac0
kernel: EDAC skx MC0: MISC 0x0
kernel: EDAC skx MC0: PROCESSOR 0:0x50654 TIME 1669993821 SOCKET 0 APIC 0x0
kernel: EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0xad6a38 offset:0xac0 grain:32 syndrome:0x0 - err_code:0x0000:0x009f socket:0 imc:0 rank:0 bg:1 ba:1 row:0xe3c7 col:0x2c8)
kernel: mce: [Hardware Error]: Machine check events logged
mcelog: Hardware event. This is not a software error.
mcelog: MCE 0
mcelog: CPU 0 BANK 1 TSC cdaff277a3653a
mcelog: ADDR ad6a38ac0
mcelog: TIME 1669993821 Fri Dec 2 15:10:21 2022
mcelog: MCG status:
mcelog: MCi status:
mcelog: Corrected error
mcelog: Error enabled
mcelog: MCi_ADDR register valid
Dec 8 08:28:51 node01 kernel: CMCI storm detected: switching to poll mode Dec 8 08:33:50 node01 kernel: CMCI storm subsided: switching to interrupt mode (...) Dec 10 03:19:03 node01 kernel: CMCI storm subsided: switching to interrupt mode Dec 10 03:19:03 node01 kernel: CMCI storm detected: switching to poll mode
CPU使用率が高いと、SDSプロセスでIOが停止したり(IOシステム全体のレイテンシーに影響する)、SDSがMDMから切り離されたりする可能性があります。進行中の再構築中、または別のSDSで同様の問題が発生しているときに発生すると、DU状態につながる可能性があります。
Cause
インテルCPUは、DIMMエラー時に「割り込みストーム」に見舞われる可能性があります。Red Hat KBによると:
CPUIDが06H_1AHとしてDisplayFamily_DisplayModelを報告する45 nmインテル64プロセッサ以降、プロセッサは修正されたマシンチェックエラーに関する情報を報告し、修正されたマシンチェックエラー割り込み(CMCI)と呼ばれるMCエラーに応答するためのソフトウェア用のプログラム可能な割り込みを提供できます。インテルのハードウェアは、エラーのレベルがプログラム可能なしきい値を超えたときに割り込みを配信できます。エラーが続く場合、CPUは、CPUが有用な作業を行う能力に影響を与えるのに十分な高いレートで、絶え間ない割り込みまたは嵐を受け取ります。その場合、カーネルは CMCI メカニズムを無効にし、マシンチェックエラーを定期的にポーリングする従来のアプローチに戻ります。エラー率が下がると、カーネルはCMCIを再度有効にします。
詳細については、https://access.redhat.com/solutions/2710451 を参照してください。
この問題により、CMCIストームが発生する可能性があります。また、修正可能なエラーをDell iDRACがキャプチャして処理するのではなく、傍受するOS機能やソフトウェアによってトリガーされることもあります。これは通常、EDACとCMCIの両方が有効になっている場合に発生します。
Resolution
影響を受けるSDSをメンテナンス モードにするか、クラスターから削除して、システム全体への影響を軽減します。
ハードウェアのベンダーに問い合わせて、潜在的なハードウェアの問題がないか調べます。ハードウェアの問題が検出されない場合、特に修正可能なエラーの場合は、OSベンダーに連絡し、EDACとCMCIを無効にするサポートをリクエストしてください。
Additional Information
問題が発生するバージョン
該当なし - PowerFlexの問題ではない
修正バージョン
該当なし - ハードウェアの問題