PowerFlex: Problemen met data-integriteit bij het upgraden van het besturingssysteem zonder DasCache te upgraden
Summary: Data-integriteitsproblemen kunnen optreden wanneer een upgrade van het besturingssysteem wordt uitgevoerd en zonder dat eerst het DasCache-pakket wordt bijgewerkt. Yum-update is gebruikt om het besturingssysteem waarop de SDS en DasCache zich bevinden te upgraden, maar het DasCache-pakket is niet geüpgraded na de upgrade van het besturingssysteem. ...
Instructions
Scenario
- DasCache is correct geconfigureerd (met /dev/disk-by-id).
- SDS bevond zich in de onderhoudsmodus voordat u de yum-opdracht gebruikte om het besturingssysteem te upgraden. Nadat de upgrade van het besturingssysteem is uitgevoerd, wordt de SDS-onderhoudsmodus gebruikt en kort daarna begint de applicatie te rapporteren over data-inconsistentie (DI).
- In dit specifieke geval zijn twee SDS OSs geüpgraded, maar een enkele upgrade van het SDS OS kan het probleem ook veroorzaken.
Opmerking: Na de SDS OS-upgrade kon de DasCache-service niet worden gestart. Om de een of andere reden (die nog wordt onderzocht) is de SDS-service met succes gestart zonder de DasCache, hoewel het de schijfapparaten/SDS zou moeten mislukken en de service niet zou moeten starten om de data te beschermen.
Symptomen
Vóór de upgrade van het besturingssysteem was de SDS DasCache-versie:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
SDS is naar de onderhoudsmodus gegaan om het besturingssysteem te upgraden:
6457 2021-04-28 09:19:09.196 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command enter_maintenance_mode received, User: 'admin'. [10252559] SDS: ID: 82c410860000000d;
SDS OS-upgrade van RH 7.2 naar RH 7.6 werd uitgevoerd met behulp van yum update:
Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: libgcc-4.8.5-36.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: redhat-release-server-7.6-4.el7.x86_64 Apr 28 10:28:16 redhat-cust-1 yum[351251]: Installed: 1:grub2-common-2.02-0.76.el7.noarch Apr 28 10:28:16 redhat-cust-1 yum[351251]: Updated: setup-2.8.71-10.el7.noarch Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: filesystem-3.2-25.el7.x86_64 Apr 28 10:28:17 redhat-cust-1 yum[351251]: Updated: 32:bind-license-9.9.4-72.el7.noarch Apr 28 10:28:18 redhat-cust-1 yum[351251]: Installed: 1:grub2-pc-modules-2.02-0.76.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: tzdata-2018e-3.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: kbd-misc-1.15.5-15.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:quota-nls-4.01-17.el7.noarch Apr 28 10:28:19 redhat-cust-1 yum[351251]: Updated: 1:emacs-filesystem-24.3-22.el7.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: ncurses-base-5.9-14.20130511.el7_4.noarch Apr 28 10:28:20 redhat-cust-1 yum[351251]: Updated: nss-softokn-freebl-3.36.0-5.el7_5.x86_64 Apr 28 10:28:24 redhat-cust-1 yum[351251]: Updated: glibc-common-2.17-260.el7.x86_64
De SDS-server is opnieuw opgestart, maar de DasCache-service kan niet worden gestart:
Apr 28 10:47:04 [localhost] fio.init: Starting Fio devices: Failed Apr 28 10:47:04 [localhost] systemd: fio.service: main process exited, code=exited, status=4/NOPERMISSION Apr 28 10:47:04 [localhost] systemd: Failed to start Block Driver Interface to Flashsoft Cache. Apr 28 10:47:04 [localhost] systemd: Unit fio.service entered failed state. Apr 28 10:47:04 [localhost] systemd: fio.service failed.
[root@Node]# fscli -l Starting fio service failed
Na de upgrade van het besturingssysteem was de SDS DasCache-versie nog steeds op dezelfde versie, omdat de DasCache niet is geüpgraded:
fiop-1.5.14.rel-R3_9_Win_Linux.41_3.10.0_327.el7.x86_64.x86_6
Opmerking: Om een onbekende reden (die nog wordt onderzocht) is de SDS-service met succes gestart, hoewel de SDS/schijfapparaten zouden moeten zijn mislukt. Vanaf dit punt, zodra de SDS de onderhoudsmodus heeft verlaten, moet een DI worden gerapporteerd.
SDS onderhoudsmodus afsluiten:
6507 2021-04-28 10:01:54.700 MDM_CLI_CONF_COMMAND_RECEIVED INFO Command exit_maintenance_mode received, User: 'admin'. [10303510] SDS: ID: 82c410860000000d; 6508 2021-04-28 10:01:54.740 CLI_COMMAND_SUCCEEDED INFO Command exit_maintenance_mode succeeded. [10303510] 6509 2021-04-28 10:04:00.111 SDS_MAINTENANCE_MODE_ENDED INFO SDS 10.1.150.50-RedHat (ID 82c410860000000d) has exited maintenance mode.
Kort nadat de SDS de onderhoudsmodus heeft afgesloten, begint de applicatie (in dit geval waren dit VMware-datastores en VM's) te rapporteren over DI:
2021-04-29T04:12:37.697Z cpu12:982259)WARNING: Res3: 4232: Volume 5e6bb636-01b03ca0-5350-246e96905870 ("DS_SQL_PD2PB_01") might be damaged on the disk. Resource cluster metadata corruption has been detected.
Impact
DI/DL
Hoofdoorzaak
Wanneer DasCache wordt gebruikt met PowerFlex, worden de schijfapparaten met nog een laag blootgesteld aan de SDS. Op die manier wordt de SDS gelezen/geschreven naar de DasCache en worden de data later naar de schijfapparaten gespoeld.
Wanneer de DasCache-service niet kan worden gestart, laat de SDS de schijfapparaten mislukken om de data op schijfapparaten te beschermen. Op die manier heeft de SDS GEEN directe toegang tot de schijfapparaten.
In dit geval werd het SDS-besturingssysteem geüpgraded, maar het DasCache-pakket werd niet geüpgraded, wat resulteerde in een succesvolle start van de SDS-service en het omzeilen van de DasCache. Nadat de SDS gegevens rechtstreeks van de schijf las/schreef, was er een gat in de gegevens omdat DasCache niet alle gegevens naar de schijfapparaten heeft gespoeld, wat uiteindelijk tot DI heeft geleid.
Opmerking: De reden waarom de SDS-service succesvol kon starten, wordt nog onderzocht.
Tijdelijke oplossing
Er is geen oplossing voor het probleem als de SDS de onderhoudsmodus al afsluit en de DasCache-service een mislukte status heeft.
Als het besturingssysteem is geüpgraded en de SDS nog in onderhoudsmodus is, zijn er twee opties om een DI te voorkomen:
-
- Opstarten vanaf de oude kernel (in dit geval versie 3.10.0-327)
- Upgrade DasCache zodat deze overeenkomt met de kernelversie en start de SDS-service opnieuw, zoals beschreven in de volgende procedure KB 000195110
Versies waarop dit van toepassing is
Alle PowerFlex-versies
Opgelost in versie
N.v.t. - wordt nog onderzocht