PowerFlex SDSプロセスが不安定になり、I/Oエラーが発生します

Summary: SDSがシステムから退避されていないため、SDSが繰り返し応答しなくなり、I/Oエラーが発生します。

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

MDMイベントでは、SDSの切断(デカップリングの繰り返し)が繰り返され、アプリケーションとSDCがI/Oエラーを報告する可能性があります。MDMイベントでは、SDSの不安定性が確認されています。

# grep ee9b4eb200000002 events.txt  | egrep -v "(OSC|SDC_CON|SDC_DISC)"
4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 
4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

SDCがSDSから切断される(ESXiなどから切断):

vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002

I/OエラーがSDCに表示される:

2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48.
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0)
.
.
.
2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations.  Marking as down
2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418
2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698
2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98
2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002
2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled)  for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers

SDSの切断と再接続が繰り返し発生する場合は、KBに記載されている問題が発生している可能性があります。次の例では、NVDIMMハードウェア(HW)の問題により、SIGBUSエラー(不正なメモリー アクセス)が発生し、信号7でSDSクラッシュが発生します。exp.0:

26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0
26/10 23:37:55.306321 Writing backtraces for all UMTs:
26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0
26/10 23:38:10.133167 Writing backtraces for all UMTs:

Messages:

Oct 26 23:37:55  kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440
Oct 26 23:37:55  kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption
Oct 26 23:37:55  kernel: MCE 0x3d84e04: dax page page recovery: Recovered
Oct 26 23:37:55  kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back
Oct 26 23:37:55  kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus
Oct 26 23:37:55  kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map
Oct 26 23:37:56  sh: abrt-dump-oops: Found oopses: 1
Oct 26 23:37:56  sh: abrt-dump-oops: Creating problem directories
Oct 26 23:37:56  sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on
Oct 26 23:37:56  systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.

Cause

  1. ソフトウェア(SW)またはハードウェアに障害が発生すると、SDSプロセスが応答しなくなり、MDMから切断されます。
  2. SDSはクラッシュからリカバリーし、MDMの観点から、およびSDCを含む他のすべてのシステム コンポーネントに対して、このSDSを一般利用可能としてマークする「再構成ステージ」を通過します。
  3. 15秒後、SDCはI/Oを再試行します(デフォルト)。その間、ポイント「1」で説明したように、SDSは再び応答しなくなります。
  4. タイムアウト時にI/Oが失敗し、SDCアプリケーションがI/Oエラーを報告します。
  5. ステップ「2」→「4」は、このSDSがシステムから退避されるまで、何度でも繰り返される場合があります。

Resolution

システムは設計どおりに動作しています。

オプション1:
クラスターからSDSを削除します。SDSはいつでも削除できます。ダウンタイムは必要ありません。削除中、関連づけられたデータは異なるノードにレプリケートされます。削除プロセスは非同期で行われるため、時間がかかる場合があります。
 
注:ボリュームがこのSDSの容量を使用しており、使用可能な空きスペースがないために容量を置き換えることができない場合、削除は失敗します。

SDSの不安定性の原因となったハードウェアとソフトウェアの問題を修正し、SDSをクラスターに戻します

オプション2:
システムを監視し、同様の状況でSDSがフラッピングし始めたら、SDSで次のコマンドを実行してSDSサービスを停止します。
 /opt/emc/scaleio/sds/bin/delete_service.sh

注:SDSサービスを停止すると、再構築がトリガーされます。問題が解決したら、SDSで次のコマンドを実行して、SDSサービスを再起動します。
 /opt/emc/scaleio/sds/bin/create_service.sh

Additional Information

PowerFlexソフトウェア バージョン4.0では、このタイプのイベントに対する耐障害性が計画されています。

Produse afectate

PowerFlex rack, VxRack
Proprietăți articol
Article Number: 000181511
Article Type: Solution
Ultima modificare: 07 mai 2026
Version:  3
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.