La inestabilidad del proceso del SDS de PowerFlex provoca un error de I/O

Summary: El SDS no responde repetidamente y provoca errores de I/O debido a que el SDS no se evacua del sistema.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

En los eventos de MDM, es posible que se observe una desconexión repetida del SDS (desacoplamiento repetido) con posibles errores de I/O en la aplicación y en la generación de informes de SDC. Se observa inestabilidad de SDS en los eventos de MDM:

# grep ee9b4eb200000002 events.txt  | egrep -v "(OSC|SDC_CON|SDC_DISC)"
4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 
4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED           INFO     	 SDS: sds-********v004 (ID ee9b4eb200000002) reconnected

El SDC se desconecta del SDS, por ejemplo, de ESXi:

vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002
vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002

Aparece un error de I/O en SDC:

2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48.
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0)
.
.
.
2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations.  Marking as down
2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418
2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698
2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed  to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98
2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002
2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled)  for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers

Si se producen desconexiones y reconexiones reiteradas de SDS, es probable que se esté produciendo el problema descrito en la base de conocimientos. En el siguiente ejemplo, un problema de hardware (HW) de NVDIMM genera un error de SIGBUS (acceso incorrecto a la memoria) y provoca un bloqueo del SDS con señal 7. Exp.0:

26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0
26/10 23:37:55.306321 Writing backtraces for all UMTs:
26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0
26/10 23:38:10.133167 Writing backtraces for all UMTs:

Mensajes:

Oct 26 23:37:55  kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440
Oct 26 23:37:55  kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption
Oct 26 23:37:55  kernel: MCE 0x3d84e04: dax page page recovery: Recovered
Oct 26 23:37:55  kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back
Oct 26 23:37:55  kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus
Oct 26 23:37:55  kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map
Oct 26 23:37:56  sh: abrt-dump-oops: Found oopses: 1
Oct 26 23:37:56  sh: abrt-dump-oops: Creating problem directories
Oct 26 23:37:56  sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on
Oct 26 23:37:56  systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.

Cause

  1. La falla de software (SW) o hardware hace que el proceso de SDS no responda y se desconecte del MDM.
  2. SDS se recupera del bloqueo y pasa la "etapa de reconfiguración" que marca este SDS como disponible con carácter general desde el punto de vista del MDM y para todos los demás componentes del sistema, incluido el SDC.
  3. Después de 15 segundos, SDC reintenta la I/O (valor predeterminado), mientras tanto, SDS no responde nuevamente, como se describe en el punto "1".
  4. Las I/O fallan cuando se agota el tiempo de espera y la aplicación SDC informa un error de I/O.
  5. Los pasos "2"→"4" pueden ocurrir una y otra vez hasta que este SDS sea evacuado del sistema.

Resolution

El sistema funciona según lo previsto.

Opción 1:
Quite el SDS del clúster. Puede eliminar un SDS en cualquier momento, sin necesidad de tiempo de inactividad. Durante la eliminación, los datos asociados se replican en diferentes nodos. El proceso de eliminación es asíncrono y puede tardar mucho tiempo.
 
Nota: Si los volúmenes utilizan la capacidad de este SDS y la capacidad no se puede reemplazar debido a la falta de espacio libre disponible, la eliminación fallará.

Corrija los problemas de hardware y software que causaron la inestabilidad del SDS y devuelva el SDS al clúster.

Opción 2:
Monitoree el sistema y, si el SDS comienza a parpadear en circunstancias similares, detenga el servicio de SDS mediante la ejecución del siguiente comando en el SDS:
 /opt/emc/scaleio/sds/bin/delete_service.sh

Nota: La detención del servicio SDS desencadena una reconstrucción. Una vez que se resuelva el problema, reinicie el servicio SDS mediante la ejecución del siguiente comando en el SDS:
 /opt/emc/scaleio/sds/bin/create_service.sh

Additional Information

La resiliencia a este tipo de evento está planificada para el software PowerFlex versión 4.0.

Affected Products

PowerFlex rack, VxRack
Article Properties
Article Number: 000181511
Article Type: Solution
Last Modified: 07 May 2026
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.