PowerFlex 3.X: Langsom skrivning til OS-disk kan forårsage flere MDM-problemer.
Summary: Langsom skrivning til operativsystemets disk kan forårsage flere MDM-problemer.
Symptoms
Et vilkårligt antal scenarier kan præsenteres som et resultat af en langsom operativsystemdisk på en MDM.
I ScaleIO 3.0 er MDM-mekanismen blevet gjort mere robust for bedre at kunne håndtere alvorligt langsomme OS-diskproblemer. (10+ sekunders ventetid)
Når MDM er kører på OS-diske, der tager for lang tid at skrive, kan følgende symptomer opleves:
-
Hvis du sætter et SDS i vedligeholdelse, afbrydes Master MDM.
-
En genopbygningshændelse får Master MDM og muligvis også Slave MDMs til at afbryde forbindelsen.
-
MDM-omskiftning fungerer ikke; Slave-MDM'er kan ikke overtage Master MDM-ansvaret, og derfor er ingen MDM master.
-
Output fra "scli --query_cluster" viser, at slave-MDM er ikke synkroniseres lejlighedsvis.
-
SDC skriver IO-fejl.
I alle scenarier ses "Hærden tog for lang tid" i MDM trc-logfiler:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Påvirkning
MDM-lagerskrivninger, der overskrider hærdningstærsklen, betyder, at MDM ikke synkroniseres.
Det betyder, at MDM-klyngen ikke synkroniseres, og MDM-processer genstartes.
Hvis MDM er genstarter hurtigt/gentagne gange nok, skal du fuldføre data, der ikke er tilgængelige scenarier (når der ikke er nogen Master MDM tilgængelig) som i MDM-klyngen ned, efter at gentagne failovers kan forekomme.
Cause
Når Master MDM skal foretage ændringer i tilstanden for datablokke, skal den skrive disse tilstandsændringer til MDM-arkivet og derefter synkronisere disse ændringer med Slave MDMs. Når disse skrivninger er fuldført, giver MDM SDS'erne besked om, at ændringerne er afsluttet, og de kan kun vise skrive-IO'er til SDC'erne fra den primære kopi (indtil genopbygningen er fuldført). Hvis det tager længere tid end 500 millisekunder (1/2 sekund) for Master MDM at skrive ændringerne til det lokale lager, vises meddelelserne "Harden tog for lang tid" i MDM trc-logfilerne. Dette medfører, at MDM ikke kan reagere hurtigt nok på SDS'ernes anmodninger og kan forårsage IO-fejl på SDC'erne. MDM forbliver i denne tilstand, indtil IO kan skrive til lageret på mindre end 500 millisekunder eller efter 10 sekunder, når der opstår ejerskab af en MDM-switch i klyngen.
Resolution
Løsningen er at løse problemet med OS-diskens ventetid.
Dette kan skyldes:
-
RAID-genopbygninger (14G Ready Nodes har BOSS-kort med 2x m.2 SATA-drev i RAID1)
-
Diskslitage/alder
-
Forkert størrelse / valg af OS-diske (HDD, langsom / billig SSD osv. Normalt kun i softwarekonfigurationer)
-
Fejl i OS disk controller / disk firmware
-
Diskfejl/forudsigende fejltilstand
-
Men den mest almindelige årsag er fremmed IO-belastning på OS-disken.
Under alle omstændigheder er overvågning / profilering af OS-diskens ydeevne nødvendig.
Diskventetid kan overvåges af sar eller iostat.
Det nemmeste/mest universelt tilgængelige værktøj er iostat.
Kør
iostat -xtN 1
Og overhold ventetiderne, rapporteret i millisekunder.
Alle versioner er påvirket.