Нестабильность процесса программно определяемого хранилища PowerFlex приводит к ошибкам ввода-вывода
Сводка: Система SDS постоянно перестает отвечать, что приводит к ошибкам ввода-вывода, поскольку система SDS не эвакуируется из системы.
Данная статья применяется к
Данная статья не применяется к
Эта статья не привязана к какому-либо конкретному продукту.
В этой статье указаны не все версии продуктов.
Симптомы
В событиях MDM может наблюдаться повторное отключение SDS (повторяющаяся развязка) с возможными ошибками ввода-вывода приложения и SDC. Нестабильность SDS наблюдается в событиях MDM:
# grep ee9b4eb200000002 events.txt | egrep -v "(OSC|SDC_CON|SDC_DISC)" 4284507 2020-10-26 23:38:02.330 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 4284546 2020-10-26 23:38:17.103 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected 4284674 2020-10-26 23:40:12.318 SDS_RECONNECTED INFO SDS: sds-********v004 (ID ee9b4eb200000002) reconnected
SDC отключается от SDS, например от ESXi:
vmkernel.0:2020-10-27T04:01:01.193Z cpu56:66319)WARNING: [14896504445] Disconnected from SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:02.296Z cpu32:66320)WARNING: [14896505547] Connected to SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:18.232Z cpu35:66319)WARNING: [14896521482] Disconnected from SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:19.332Z cpu35:66319)WARNING: [14896522582] Connected to SDS with ID ee9b4eb200000002 vmkernel.0:2020-10-27T04:01:34.769Z cpu53:66320)WARNING: [14896538017] Disconnected from SDS with ID ee9b4eb200000002
На SDC отображается ошибка ввода-вывода:
2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:491 :[14895126141] IO-ERROR Type TEST_AND_SET. comb: 55880098015. offsetInComb 2721096. SizeInLB 1. SDS_ID 0. Comb Gen 4619. Head Gen 4b30. StartLB ad48. 2020-10-27T03:38:02.752Z cpu32:66313)WARNING: ScaleIO mapVolIO_ReportIOErrorIfNeeded:512 :Vol ID 0x735105ff0000001c. Last vol network error status NOT_CONN(4) Reason (ABORTED) RC (ABORTED) Retry count (5) chan (0) . . . 2020-10-27T04:08:20.234Z cpu35:66313)WARNING: ScaleIO netCon_IsKaNeeded:3761 :CON 0x439dc29f6700 didn't receive message for 30 iterations. Marking as down 2020-10-27T04:08:20.234Z cpu18:66894)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f5efc socket 0x439dc29f6418 2020-10-27T04:08:20.234Z cpu33:66806)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f817c socket 0x439dc29f8698 2020-10-27T04:08:20.234Z cpu0:66879)WARNING: ScaleIO netSock_RcvIntrn:1920 :Error: Failed to receive 128 data PTR 0x439dc29f6a7c socket 0x439dc29f6f98 2020-10-27T04:08:20.234Z cpu23:66319)WARNING: [14896943442] Disconnected from SDS with ID ee9b4eb200000002 2020-10-27T04:08:23.246Z cpu37:65868)Res6: 2346: All helpers quiesced (12 cancelled) for vol 'SD4W21AVxFlexCU03': 1280 LFBCs, 20/1 buckets allocated (4 KB), 1 flush, 0 helpers
Если происходит многократное отключение и повторное подключение SDS, вероятно, возникла проблема, описанная в статье базы знаний. В приведенном ниже примере проблема с оборудованием (HW) NVDIMM приводит к ошибке SIGBUS (неверный доступ к памяти) и вызывает сбой SDS с сигналом 7. Опыт 0:
26/10 23:37:55.305617 Termination due to signal 7. PID 2601 Faulting address 0x7efb85004000. errno 0 26/10 23:37:55.306321 Writing backtraces for all UMTs: 26/10 23:38:10.132585 Termination due to signal 7. PID 99889 Faulting address 0x7f5485004000. errno 0 26/10 23:38:10.133167 Writing backtraces for all UMTs:
Messages:
Oct 26 23:37:55 kernel: mce: Uncorrected hardware memory error in user-access at 3d84e04440 Oct 26 23:37:55 kernel: MCE 0x3d84e04: Killing sds-3.0.1000.20:2601 due to hardware memory corruption Oct 26 23:37:55 kernel: MCE 0x3d84e04: dax page page recovery: Recovered Oct 26 23:37:55 kernel: sds-3.0.1000.20:4006 conflicting memory types 3d84e04000-3d84e05000 uncached-minus<->write-back Oct 26 23:37:55 kernel: reserve_memtype failed [mem 0x3d84e04000-0x3d84e04fff], track uncached-minus, req uncached-minus Oct 26 23:37:55 kernel: Could not invalidate pfn=0x3d84e04 from 1:1 map Oct 26 23:37:56 sh: abrt-dump-oops: Found oopses: 1 Oct 26 23:37:56 sh: abrt-dump-oops: Creating problem directories Oct 26 23:37:56 sh: abrt-dump-oops: Not going to make dump directories world readable because PrivateReports is on Oct 26 23:37:56 systemd: Configuration file /opt/nsr/admin/networker.service is marked executable.
Причина
- Сбой программного обеспечения (ПО) или оборудования приводит к тому, что процесс SDS не отвечает и отключается от MDM.
- SDS восстанавливается после сбоя и проходит «этап повторной настройки», в результате чего этот SDS становится общедоступным с точки зрения MDM, а также для всех остальных компонентов системы, включая SDC.
- Через 15 секунд SDC повторяет попытку ввода-вывода (по умолчанию), в это время SDS снова перестает отвечать, как описано в пункте 1.
- По истечении времени ожидания происходит сбой ввода-вывода, и приложение SDC сообщает об ошибке ввода-вывода.
- Шаги «2→4» могут повторяться снова и снова, пока SDS не будет удален из системы.
Разрешение
Система работает должным образом.
Вариант 1:
Извлеките SDS из кластера. Вы можете удалить SDS в любое время без простоя. Во время удаления связанные данные реплицируются на различные узлы. Процесс удаления асинхронный и может занять много времени.
Устраните проблемы с оборудованием и программным обеспечением, которые вызвали нестабильность SDS, и верните SDS в кластер.
Вариант 2:
Следите за системой, и если при аналогичных обстоятельствах система SDS начинает давать сбои, остановите работу сервиса SDS, выполнив следующую команду на SDS:
Примечание. Остановка службы SDS запускает восстановление системы. После устранения проблемы перезапустите службу SDS, выполнив следующую команду на SDS:
Вариант 1:
Извлеките SDS из кластера. Вы можете удалить SDS в любое время без простоя. Во время удаления связанные данные реплицируются на различные узлы. Процесс удаления асинхронный и может занять много времени.
Примечание. Если тома используют емкость этого SDS, а емкость не может быть заменена из-за нехватки свободного места, удаление не будет выполнено.
Устраните проблемы с оборудованием и программным обеспечением, которые вызвали нестабильность SDS, и верните SDS в кластер.
Вариант 2:
Следите за системой, и если при аналогичных обстоятельствах система SDS начинает давать сбои, остановите работу сервиса SDS, выполнив следующую команду на SDS:
/opt/emc/scaleio/sds/bin/delete_service.sh
Примечание. Остановка службы SDS запускает восстановление системы. После устранения проблемы перезапустите службу SDS, выполнив следующую команду на SDS:
/opt/emc/scaleio/sds/bin/create_service.sh
Дополнительная информация
Устойчивость к событиям этого типа планируется для программного обеспечения PowerFlex версии 4.0.
Затронутые продукты
PowerFlex rack, VxRackСвойства статьи
Номер статьи: 000181511
Тип статьи: Solution
Последнее изменение: 07 May 2026
Версия: 3
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.