PowerFlex: Problemer med dataintegritet ved oppgradering av operativsystemet uten oppgradering av DasCache
Summary: Dataintegritetsproblemer kan oppstå når en operativsystemoppgradering utføres, og uten at DasCache-pakken oppgraderes først. Yum-oppdateringen ble brukt til å oppgradere operativsystemet som SDS og DasCache ligger på, men DasCache-pakken ble ikke oppgradert etter OS-oppgraderingen. ...
Instructions
Scenario
- DasCache er riktig konfigurert (ved hjelp av /dev/disk-by-id).
- SDS var i vedlikeholdsmodus før du brukte yum-kommandoen til å oppgradere operativsystemet. Etter OS-oppgraderingen ble det brukt avsluttet SDS-vedlikeholdsmodus, og kort tid etter begynner applikasjonen å rapportere om datainkonsekvens (DI).
- I dette spesifikke tilfellet ble to SDS OS-er oppgradert, men en enkelt SDS OS-oppgradering kan også utløse problemet.
Merk: Etter SDS OS-oppgraderingen ble DasCache-tjenesten ikke startet, av en eller annen grunn (fortsatt under etterforskning), startet SDS-tjenesten vellykket uten DasCache, selv om den skulle mislykkes i diskenhetene / SDS, og tjenesten skulle ikke starte for å beskytte dataene.
Symptomer
Før OS-oppgraderingen var SDS DasCache-versjonen:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
SDS gikk inn i vedlikeholdsmodus for å oppgradere operativsystemet:
6457 2021-04-28 09:19:09.196 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command enter_maintenance_mode received, User: 'admin'. [10252559] SDS: ID: 82c410860000000d;
SDS OS-oppgradering fra RH 7.2 til RH 7.6 ble utført ved hjelp av yum update:
Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: libgcc-4.8.5-36.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: redhat-release-server-7.6-4.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Installed: 1:grub2-common-2.02-0.76.el7.noarch Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: setup-2.8.71-10.el7.noarch Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: filesystem-3.2-25.el7.x86_64 Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: 32:bind-license-9.9.4-72.el7.noarch Apr 28 10:28:18 redhat-cust-1 yum[351251]: Installed: 1:grub2-pc-modules-2.02-0.76.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: tzdata-2018e-3.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: kbd-misc-1.15.5-15.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:quota-nls-4.01-17.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:emacs-filesystem-24.3-22.el7.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: ncurses-base-5.9-14.20130511.el7_4.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: nss-softokn-freebl-3.36.0-5.el7_5.x86_64 Apr 28 10:28:24 redhat-cust-1 yum[351251]: Updated: glibc-common-2.17-260.el7.x86_64
SDS-serveren ble startet på nytt, men DasCache-tjenesten kunne ikke starte:
Apr 28 10:47:04 [localhost] fio.init: Starting Fio devices: Failed Apr 28 10:47:04 [localhost] systemd: fio.service: main process exited, code=exited, status=4/NOPERMISSION Apr 28 10:47:04 [localhost] systemd: Failed to start Block Driver Interface to Flashsoft Cache. Apr 28 10:47:04 [localhost] systemd: Unit fio.service entered failed state. Apr 28 10:47:04 [localhost] systemd: fio.service failed.
[root@Node]# fscli -l Starting fio service failed
Etter OS-oppgraderingen var SDS DasCache-versjonen fortsatt på samme versjon, da DasCache ikke ble oppgradert:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
Merk: Av en eller annen ukjent grunn (fortsatt under etterforskning) startet SDS-tjenesten vellykket, selv om den burde ha mislyktes SDS / disk-enhetene. Fra dette tidspunktet, når SDS avslutter vedlikeholdsmodus, skal en DI rapporteres.
SDS avslutter vedlikeholdsmodus:
6507 2021-04-28 10:01:54.700 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command exit_maintenance_mode received, User: 'admin'. [10303510] SDS: ID: 82c410860000000d; 6508 2021-04-28 10:01:54.740 CLI_COMMAND_SUCCEEDED INFO Command exit_maintenance_mode succeeded. [10303510] 6509 2021-04-28 10:04:00.111 SDS_MAINTENANCE_MODE_ENDED INFO SDS 10.1.150.50-RedHat (ID 82c410860000000d) has exited maintenance mode.
Kort tid etter SDS-vedlikeholdsmodusen begynner applikasjonen (i dette tilfellet var det VMware-datalagre og VM-er) å rapportere om DI:
2021-04-29T04:12:37.697Z cpu12:982259)WARNING: Res3: 4232: Volume 5e6bb636-01b03ca0-5350-246e96905870 ("DS_SQL_PD2PB_01") might be damaged on the disk. Resource cluster metadata corruption has been detected.
Innvirkning
Di/DL
Hovedårsak
Når DasCache brukes med PowerFlex, blir diskenhetene eksponert for SDS med ett lag til, på den måten blir SDS lese/skrive til DasCache, og senere blir dataene skyllet til diskenhetene.
Ved design når DasCache-tjenesten ikke starter, mislykkes SDS diskenhetene for å beskytte dataene på diskenheter, på den måten vil SDS IKKE kunne få tilgang til diskenhetene direkte.
I dette tilfellet ble SDS OS oppgradert, men DasCache-pakken ble ikke oppgradert, noe som resulterte i at SDS-tjenesten startet vellykket og omgikk DasCache, når SDS leste / skrev data direkte fra disk, var det et gap i dataene da DasCache ikke har spylt alle dataene til diskenhetene, noe som til slutt førte til DI.
Merk: Årsaken til at SDS-tjenesten kan starte vellykket, undersøkes fortsatt.
Omgåelse av problemet
Det finnes ingen løsning på problemet hvis SDS allerede avslutter vedlikeholdsmodus og DasCache-tjenesten er i en mislykket tilstand.
Hvis operativsystemet ble oppgradert og SDS fortsatt er i vedlikeholdsmodus, er det to alternativer for å unngå en DI:
-
- Start fra den gamle kjernen (i dette tilfellet versjon 3.10.0-327)
- Oppgrader DasCache slik at den samsvarer med kjerneversjonen, og start SDS-tjenesten på nytt, som beskrevet i følgende fremgangsmåte for KB-000195110
Berørte versjoner
Alle PowerFlex-versjoner
Løst i versjon
I/T - fortsatt under etterforskning