PowerFlex SDSプロセスが不安定になり、I/Oエラーが発生します

Summary: SDSがシステムから退避されていないため、SDSが繰り返し応答しなくなり、I/Oエラーが発生します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

MDMイベントでは、SDSの切断(デカップリングの繰り返し)が繰り返され、アプリケーションとSDCがI/Oエラーを報告する可能性があります。MDMイベントでは、SDSの不安定性が確認されています。

# grep ee9b4eb200000002 events.txt  | egrep -v "(OSC|SDC_CON|SDC_DISC)"
4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 
4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

SDCがSDSから切断される(ESXiなどから切断):

vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002

I/OエラーがSDCに表示される:

2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48.
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0)
.
.
.
2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations.  Marking as down
2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418
2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698
2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98
2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002
2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled)  for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers

SDSの切断と再接続が繰り返し発生する場合は、KBに記載されている問題が発生している可能性があります。次の例では、NVDIMMハードウェア(HW)の問題により、SIGBUSエラー(不正なメモリー アクセス)が発生し、信号7でSDSクラッシュが発生します。exp.0:

26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0
26/10 23:37:55.306321 Writing backtraces for all UMTs:
26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0
26/10 23:38:10.133167 Writing backtraces for all UMTs:

Messages:

Oct 26 23:37:55  kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440
Oct 26 23:37:55  kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption
Oct 26 23:37:55  kernel: MCE 0x3d84e04: dax page page recovery: Recovered
Oct 26 23:37:55  kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back
Oct 26 23:37:55  kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus
Oct 26 23:37:55  kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map
Oct 26 23:37:56  sh: abrt-dump-oops: Found oopses: 1
Oct 26 23:37:56  sh: abrt-dump-oops: Creating problem directories
Oct 26 23:37:56  sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on
Oct 26 23:37:56  systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.

Cause

  1. ソフトウェア(SW)またはハードウェアに障害が発生すると、SDSプロセスが応答しなくなり、MDMから切断されます。
  2. SDSはクラッシュからリカバリーし、MDMの観点から、およびSDCを含む他のすべてのシステム コンポーネントに対して、このSDSを一般利用可能としてマークする「再構成ステージ」を通過します。
  3. 15秒後、SDCはI/Oを再試行します(デフォルト)。その間、ポイント「1」で説明したように、SDSは再び応答しなくなります。
  4. タイムアウト時にI/Oが失敗し、SDCアプリケーションがI/Oエラーを報告します。
  5. ステップ「2」→「4」は、このSDSがシステムから退避されるまで、何度でも繰り返される場合があります。

Resolution

システムは設計どおりに動作しています。

オプション1:
クラスターからSDSを削除します。SDSはいつでも削除できます。ダウンタイムは必要ありません。削除中、関連づけられたデータは異なるノードにレプリケートされます。削除プロセスは非同期で行われるため、時間がかかる場合があります。
 
注:ボリュームがこのSDSの容量を使用しており、使用可能な空きスペースがないために容量を置き換えることができない場合、削除は失敗します。

SDSの不安定性の原因となったハードウェアとソフトウェアの問題を修正し、SDSをクラスターに戻します

オプション2:
システムを監視し、同様の状況でSDSがフラッピングし始めたら、SDSで次のコマンドを実行してSDSサービスを停止します。
 /opt/emc/scaleio/sds/bin/delete_service.sh

注:SDSサービスを停止すると、再構築がトリガーされます。問題が解決したら、SDSで次のコマンドを実行して、SDSサービスを再起動します。
 /opt/emc/scaleio/sds/bin/create_service.sh

Additional Information

PowerFlexソフトウェア バージョン4.0では、このタイプのイベントに対する耐障害性が計画されています。

Affected Products

PowerFlex rack, VxRack
Article Properties
Article Number: 000181511
Article Type: Solution
Last Modified: 07 May 2026
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.