PowerFlex 3.x. Служба SDS постоянно вызывает сбой в работе drl_IsClean
Summary: В редких случаях в службе SDS может постоянно возникать критическая ошибка с функцией drl_IsClean. Эта проблема наблюдалась, когда размер устройств SDS превышал 2 Тбайт.
Symptoms
Служба SDS постоянно вызывает сбой при следующей трассировке стека:
/opt/emc/scaleio/sds/logs/exp.0
2024/07/22 21:54:33.819866 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/bm/drl.c, line 1238, function drl_IsClean, PID 17253.Panic Expression !(offsetInLbs < pDrl->protectedOffsetInLbs) PANIC_ID_tgt_1497349762194.
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mosDbg_PanicPrepare+0x13a) [0x93ab8a]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(drl_IsClean+0x5e) [0x9346ae]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyDev_IsDrlGroupClean+0x4b) [0x93476b]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgPhyComb_ReadIntegrityBits+0x130) [0x906040]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(mgStorageRegion_ReadRegionIntegrity+0xb4) [0x906224]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(storageRegion_ReadDirtyRegion+0xad) [0x740f4d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(raidComb_ReadDrl+0x7d) [0x74105d]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_ReadCombDrl+0x758) [0x5eb368]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(ioh_NewRequest+0x2084) [0x5fb4a4]
/opt/emc/scaleio/sds/bin/sds-3.6.400.107(contNet_RecvIORequest+0x2c4) [0x601534]
Воздействие
Недоступность пользовательских данных может произойти, если какая-либо другая SDS отсоединяется в рамках одного из следующих состояний:
- Режим мгновенного обслуживания (IMM)
- Состояние ошибки
- Во время текущей перестройки
Cause
Критические ошибки сервиса SDS, вызванные большими смещениями устройства.
Resolution
Исправление:
- PowerFlex 3.6.5 и более поздних версий (окончание поддержки)
- PowerFlex 4.5 и более поздние версии
Временное решение.
Выберите один из вариантов.
Если Вариант 1 не устранил проблему, перейдите к Варианту 2.
Вариант 1.
-
- Введите узел SDS в IMM из командной строки scli или пользовательского интерфейса сервера презентаций.
- Если узел SDS не может войти в IMM, остановите управляющую программу SDS, запустив сценарий
/opt/emc/scaleio/sds/bin/delete_service.sh.Take necessary precautions to prevent the cluster from entering a Data Unavailability (DU) state. Before stopping the SDS daemon, verify that no Rebuild is in progress. If you're unsure about the DU state, consult L2 or an SME.
- Если узел SDS не может войти в IMM, остановите управляющую программу SDS, запустив сценарий
- Остановите сервис SDS после размещения SDS в IMM
/opt/emc/scaleio/sds/bin/delete_service.sh - Извлеките разделяемую память на SDS (включая общую память CloudLink).
- Переместите файлы, созданные с помощью следующей команды, во временный каталог
ls -l /dev/shm | egrep -i *EMC_sds* ls -l /dev/shm | egrep emc_scaleio_*
- Переместите файлы, созданные с помощью следующей команды, во временный каталог
- Запустите службу SDS
/opt/emc/scaleio/sds/bin/create_service.sh
- Введите узел SDS в IMM из командной строки scli или пользовательского интерфейса сервера презентаций.
-
- Выведите SDS из IMM с помощью scli или пользовательского интерфейса сервера презентаций. Ожидается, что начнется перестройка. Если SDS не было в IMM, перейдите к следующему шагу
- Проверьте выходные данные следующей команды, чтобы убедиться, что SDS подключен:
scli --query_all_sds
- Выведите SDS из IMM с помощью scli или пользовательского интерфейса сервера презентаций. Ожидается, что начнется перестройка. Если SDS не было в IMM, перейдите к следующему шагу
Вариант 2.
-
Если система не находится в состоянии сбоя данных и имеется достаточно свободного или резервного пространства, удалите узел SDS из кластера PowerFlex. После завершения повторной балансировки снова добавьте узел SDS со всеми устройствами SDS.
ВАЖНЫЙ:
Повторная проблема может возникнуть из-за фонового сканера (BGS) и частичной ошибки устройства (PDE). Если возможно, отключите BGS или используйте BGS в режиме "только отчеты".
Постоянные контрольные суммы не должны приводить к проблемам. Однако в случае несоответствия контрольной суммы инициируется небольшое перестроение, которое может привести к повторному возникновению проблемы. Если это возможно, отключите постоянную контрольную сумму.