PowerFlex. Проблемы с целостностью данных при обновлении ОС без модернизации DasCache
Summary: Проблемы с целостностью данных могут возникнуть при обновлении ОС без предварительного обновления пакета DasCache. Для обновления ОС, в которой находятся SDS и DasCache, использовалось обновление YUM, однако пакет DasCache не был обновлен после обновления ОС. ...
Instructions
Сценарий
- DasCache настроен правильно (с помощью /dev/disk-by-id).
- SDS находился в режиме обслуживания до использования команды yum для обновления ОС. После обновления ОС использовался режим обслуживания выхода из SDS, и вскоре после этого приложение начинает сообщать о несогласованности данных (DI).
- В данном конкретном случае были модернизированы две ОС SDS, однако одна модернизация ОС SDS также может вызвать проблему.
Примечание. После обновления ОС SDS служба DasCache не запускалась по какой-то причине (все еще расследуется), служба SDS успешно запускалась без DasCache, хотя предполагалось, что это приведет к сбою дисковых устройств/SDS, и служба не должна запуститься для защиты данных.
Симптомы
До обновления ОС версия SDS DasCache была:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
SDS перешел в режим обслуживания для модернизации ОС:
6457 2021-04-28 09:19:09.196 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command enter_maintenance_mode received, User: 'admin'. [10252559] SDS: ID: 82c410860000000d;
Модернизация ОС SDS с RH 7.2 до RH 7.6 была выполнена с помощью yum update:
Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: libgcc-4.8.5-36.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: redhat-release-server-7.6-4.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Installed: 1:grub2-common-2.02-0.76.el7.noarch Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: setup-2.8.71-10.el7.noarch Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: filesystem-3.2-25.el7.x86_64 Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: 32:bind-license-9.9.4-72.el7.noarch Apr 28 10:28:18 redhat-cust-1 yum[351251]: Installed: 1:grub2-pc-modules-2.02-0.76.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: tzdata-2018e-3.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: kbd-misc-1.15.5-15.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:quota-nls-4.01-17.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:emacs-filesystem-24.3-22.el7.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: ncurses-base-5.9-14.20130511.el7_4.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: nss-softokn-freebl-3.36.0-5.el7_5.x86_64 Apr 28 10:28:24 redhat-cust-1 yum[351251]: Updated: glibc-common-2.17-260.el7.x86_64
Сервер SDS был перезагружен, но служба DasCache не запустилась:
Apr 28 10:47:04 [localhost] fio.init: Starting Fio devices: Failed Apr 28 10:47:04 [localhost] systemd: fio.service: main process exited, code=exited, status=4/NOPERMISSION Apr 28 10:47:04 [localhost] systemd: Failed to start Block Driver Interface to Flashsoft Cache. Apr 28 10:47:04 [localhost] systemd: Unit fio.service entered failed state. Apr 28 10:47:04 [localhost] systemd: fio.service failed.
[root@Node]# fscli -l Starting fio service failed
После обновления ОС версия SDS DasCache оставалась той же версии, так как DasCache не обновлялся:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
Примечание. По неизвестной причине (которая все еще исследуется) служба SDS была успешно запущена, хотя она должна была привести к сбою устройств SDS/дисков. С этого момента, как только SDS выйдет из режима обслуживания, необходимо сообщать о DI.
Выход SDS из режима обслуживания:
6507 2021-04-28 10:01:54.700 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command exit_maintenance_mode received, User: 'admin'. [10303510] SDS: ID: 82c410860000000d; 6508 2021-04-28 10:01:54.740 CLI_COMMAND_SUCCEEDED INFO Command exit_maintenance_mode succeeded. [10303510] 6509 2021-04-28 10:04:00.111 SDS_MAINTENANCE_MODE_ENDED INFO SDS 10.1.150.50-RedHat (ID 82c410860000000d) has exited maintenance mode.
Вскоре после выхода SDS из режима обслуживания приложение (в данном случае это были хранилища данных и виртуальные машины VMware) начинает сообщать о DI:
2021-04-29T04:12:37.697Z cpu12:982259)WARNING: Res3: 4232: Volume 5e6bb636-01b03ca0-5350-246e96905870 ("DS_SQL_PD2PB_01") might be damaged on the disk. Resource cluster metadata corruption has been detected.
Воздействие
DI/DL
Основная причина
Когда DasCache используется с PowerFlex, дисковые устройства передаются в SDS еще на один уровень, таким образом SDS считываются и записываются в DasCache, а затем данные сбрасываются на дисковые устройства.
По замыслу, когда служба DasCache не запускается, SDS отключает дисковые устройства для защиты данных на дисковых устройствах, таким образом, SDS НЕ сможет получить прямой доступ к дисковым устройствам.
В этом случае ОС SDS была обновлена, однако пакет DasCache не был обновлен, что привело к успешному запуску службы SDS и, обходя DasCache, после чтения/записи данных непосредственно с диска в данных возник пробел, так как DasCache не сбросил все данные на дисковые устройства, что в конечном итоге привело к DI.
Примечание. Причина, по которой сервис SDS мог быть успешно запущен, все еще исследуется.
Временное решение
Если SDS уже выходит из режима обслуживания, а сервис DasCache находится в состоянии сбоя, временное решение проблемы отсутствует.
Если ОС была модернизирована, а SDS все еще находится в режиме обслуживания, существует два способа избежать DI:
-
- Загрузка со старого ядра (в данном случае версии 3.10.0-327)
- Модернизируйте DasCache, чтобы он соответствовал версии ядра, и перезапустите службу SDS, как описано в следующей процедуре в статье базы знаний 000195110
Затронутые версии
Все версии PowerFlex
Исправлено в версии
Н/Д - все еще расследуется