PowerFlex: Dataintegritetsproblemer ved opgradering af operativsystemet uden opgradering af DasCache
Summary: Dataintegritetsproblemer kan opstå, når en OS-opgradering udføres og uden at opgradere DasCache-pakken først. Yum-opdateringen blev brugt til at opgradere det operativsystem, hvor SDS og DasCache befinder sig, men DasCache-pakken blev ikke opgraderet efter OS-opgraderingen. ...
Instructions
Scenarie
- DasCache er konfigureret korrekt (ved hjælp af /dev/disk-by-id).
- SDS var i vedligeholdelsestilstand, før du brugte yum-kommandoen til at opgradere operativsystemet. Efter OS-opgraderingen blev der brugt SDS-vedligeholdelsestilstand til afslutning, og kort tid efter begynder programmet at rapportere om datainkonsistent (DI).
- I dette specifikke tilfælde blev to SDS OS'er opgraderet, men en enkelt SDS OS-opgradering kan også udløse problemet.
Bemærk: Efter SDS OS-opgraderingen kunne DasCache-tjenesten ikke starte, af en eller anden grund (stadig under undersøgelse) startede SDS-tjenesten med succes uden DasCache, selvom den skulle mislykkes diskenhederne / SDS, og tjenesten skulle ikke starte for at beskytte dataene.
Symptomer
Før OS-opgraderingen var SDS DasCache-versionen:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
SDS gik i vedligeholdelsestilstand for at opgradere operativsystemet:
6457 2021-04-28 09:19:09.196 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command enter_maintenance_mode received, User: 'admin'. [10252559] SDS: ID: 82c410860000000d;
SDS OS-opgradering fra RH 7.2 til RH 7.6 blev udført ved hjælp af yum update:
Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: libgcc-4.8.5-36.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: redhat-release-server-7.6-4.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Installed: 1:grub2-common-2.02-0.76.el7.noarch Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: setup-2.8.71-10.el7.noarch Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: filesystem-3.2-25.el7.x86_64 Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: 32:bind-license-9.9.4-72.el7.noarch Apr 28 10:28:18 redhat-cust-1 yum[351251]: Installed: 1:grub2-pc-modules-2.02-0.76.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: tzdata-2018e-3.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: kbd-misc-1.15.5-15.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:quota-nls-4.01-17.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:emacs-filesystem-24.3-22.el7.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: ncurses-base-5.9-14.20130511.el7_4.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: nss-softokn-freebl-3.36.0-5.el7_5.x86_64 Apr 28 10:28:24 redhat-cust-1 yum[351251]: Updated: glibc-common-2.17-260.el7.x86_64
SDS-serveren blev genstartet, men tjenesten DasCache kunne ikke starte:
Apr 28 10:47:04 [localhost] fio.init: Starting Fio devices: Failed Apr 28 10:47:04 [localhost] systemd: fio.service: main process exited, code=exited, status=4/NOPERMISSION Apr 28 10:47:04 [localhost] systemd: Failed to start Block Driver Interface to Flashsoft Cache. Apr 28 10:47:04 [localhost] systemd: Unit fio.service entered failed state. Apr 28 10:47:04 [localhost] systemd: fio.service failed.
[root@Node]# fscli -l Starting fio service failed
Efter OS-opgraderingen var SDS DasCache-versionen stadig på den samme version, da DasCache ikke blev opgraderet:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
Bemærk: Af en eller anden ukendt årsag (stadig under undersøgelse) startede SDS-tjenesten med succes, selvom den burde have svigtet SDS / diskenhederne. Fra dette tidspunkt, når SDS afslutter vedligeholdelsestilstand, skal en DI rapporteres.
SDS afslutter vedligeholdelsestilstand:
6507 2021-04-28 10:01:54.700 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command exit_maintenance_mode received, User: 'admin'. [10303510] SDS: ID: 82c410860000000d; 6508 2021-04-28 10:01:54.740 CLI_COMMAND_SUCCEEDED INFO Command exit_maintenance_mode succeeded. [10303510] 6509 2021-04-28 10:04:00.111 SDS_MAINTENANCE_MODE_ENDED INFO SDS 10.1.150.50-RedHat (ID 82c410860000000d) has exited maintenance mode.
Kort efter at SDS afslutter vedligeholdelsestilstand, begynder applikationen (i dette tilfælde var det VMware-datalagre og VM'er) at rapportere om DI:
2021-04-29T04:12:37.697Z cpu12:982259)WARNING: Res3: 4232: Volume 5e6bb636-01b03ca0-5350-246e96905870 ("DS_SQL_PD2PB_01") might be damaged on the disk. Resource cluster metadata corruption has been detected.
Påvirkning
DI/DL
Problem
Når DasCache bruges sammen med PowerFlex, eksponeres diskenhederne for SDS med endnu et lag, på den måde læser/skriver SDS til DasCache, og senere skylles dataene til diskenhederne.
Ved design, når DasCache-tjenesten ikke starter, fejler SDS diskenhederne for at beskytte dataene på diskenheder, på den måde vil SDS IKKE være i stand til at få adgang til diskenhederne direkte.
I dette tilfælde blev SDS OS opgraderet, men DasCache-pakken blev ikke opgraderet, resulterede i, at SDS-tjenesten startede med succes og omgik DasCache, når SDS læste / skrev data direkte fra disken, var der et hul i dataene, da DasCache ikke har skyllet alle data til diskenhederne, hvilket til sidst fører til DI.
Bemærk: Årsagen til, at SDS-tjenesten kunne starte med succes, undersøges stadig.
Løsning
Der er ingen løsning på problemet, hvis SDS allerede afslutter vedligeholdelsestilstand, og DasCache-tjenesten er i en fejlbehæftet tilstand.
Hvis operativsystemet blev opgraderet, og SDS stadig er i vedligeholdelsestilstand, er der to muligheder for at undgå en DI:
-
- Start fra den gamle kerne (i dette tilfælde version 3.10.0-327)
- Opgrader DasCache, så den svarer til kerneversionen, og genstart SDS-tjenesten som beskrevet i følgende procedure KB 000195110
Påvirkede versioner
Alle PowerFlex-versioner
Fast i version
Ikke relevant - undersøges stadig