PowerFlex SDS 프로세스 불안정성으로 인한 I/O 오류

Summary: SDS가 시스템에서 비워지지 않기 때문에 SDS가 반복적으로 응답하지 않아 I/O 오류가 발생합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

MDM 이벤트에서 애플리케이션 및 SDC 보고 I/O 오류와 함께 반복적인 SDS 연결 해제(반복적인 분리)가 관찰될 수 있습니다. MDM 이벤트에서 SDS 불안정성이 관찰됩니다.

# grep ee9b4eb200000002 events.txt  | egrep -v "(OSC|SDC_CON|SDC_DISC)"
4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 
4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

SDC와 SDS의 연결이 끊어집니다(예: ESXi에서).

vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002

SDC에 I/O 오류가 나타남:

2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48.
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0)
.
.
.
2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations.  Marking as down
2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418
2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698
2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98
2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002
2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled)  for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers

SDS 연결 해제와 재연결이 반복되는 경우 KB에 설명된 문제가 발생할 수 있습니다. 아래 예에서는 NVDIMM 하드웨어(HW) 문제로 인해 SIGBUS 오류(잘못된 메모리 액세스)가 발생하고 신호 7과 함께 SDS 충돌이 발생합니다. 경험.0:

26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0
26/10 23:37:55.306321 Writing backtraces for all UMTs:
26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0
26/10 23:38:10.133167 Writing backtraces for all UMTs:

Messages:

Oct 26 23:37:55  kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440
Oct 26 23:37:55  kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption
Oct 26 23:37:55  kernel: MCE 0x3d84e04: dax page page recovery: Recovered
Oct 26 23:37:55  kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back
Oct 26 23:37:55  kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus
Oct 26 23:37:55  kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map
Oct 26 23:37:56  sh: abrt-dump-oops: Found oopses: 1
Oct 26 23:37:56  sh: abrt-dump-oops: Creating problem directories
Oct 26 23:37:56  sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on
Oct 26 23:37:56  systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.

Cause

  1. 소프트웨어(SW) 또는 HW 장애로 인해 SDS 프로세스가 응답하지 않고 MDM에서 연결이 끊어집니다.
  2. SDS는 충돌에서 복구되고 MDM의 관점에서 SDC를 포함한 다른 모든 시스템 구성 요소에 대해 이 SDS를 일반적으로 사용 가능한 것으로 표시하는 "재구성 단계"를 통과합니다.
  3. 15초 후 SDC는 I/O(기본값)를 재시도하지만 SDS는 "1"에 설명된 대로 다시 응답하지 않습니다.
  4. 시간 초과 시 I/O가 실패하고 SDC 애플리케이션이 I/O 오류를 보고합니다.
  5. 이 SDS가 시스템에서 제거될 때까지 "2" →4" 단계가 반복해서 발생할 수 있습니다.

Resolution

시스템이 정상적으로 작동하고 있습니다.

옵션 1:
클러스터에서 SDS를 제거합니다. SDS는 언제든지 다운타임 없이 제거할 수 있습니다. 제거하는 동안 연결된 데이터가 다른 노드에 복제됩니다. 제거 프로세스는 비동기식이며 시간이 오래 걸릴 수 있습니다.
 
참고: 볼륨이 이 SDS의 용량을 사용하고 사용 가능한 여유 공간이 부족하여 용량을 교체할 수 없는 경우 제거가 실패합니다.

SDS 불안정의 원인이 된 HW 및 SW 문제를 해결하고 SDS를 클러스터로 되돌립니다.

옵션 2:
시스템을 모니터링하고 유사한 상황에서 SDS가 플래핑을 시작하면 SDS에서 다음 명령을 실행하여 SDS 서비스를 중지합니다.
 /opt/emc/scaleio/sds/bin/delete_service.sh

참고: SDS 서비스를 중지하면 재구축이 트리거됩니다. 문제가 해결되면 SDS에서 다음 명령을 실행하여 SDS 서비스를 재시작합니다.
 /opt/emc/scaleio/sds/bin/create_service.sh

Additional Information

이러한 유형의 이벤트에 대한 복원력은 PowerFlex 소프트웨어 버전 4.0에 추가될 예정입니다.

Affected Products

PowerFlex rack, VxRack
Article Properties
Article Number: 000181511
Article Type: Solution
Last Modified: 07 May 2026
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.