PowerFlex 3.X: Treg skriving til OS-disk kan forårsake flere MDM-problemer.
Summary: Treg skriving til operativsystemdisken kan forårsake flere MDM-problemer.
Symptoms
Et hvilket som helst antall scenarier kan vises som et resultat av en treg operativsystemdisk på en MDM.
I ScaleIO 3.0 er MDM-mekanismen gjort mer robust for bedre å håndtere alvorlig langsomme OS-diskproblemer. (10+ sekunders ventetid)
Når MDM-ene kjører på OS-disker som bruker for lang tid på å skrive, kan følgende symptomer vises:
-
Når et SDS settes i vedlikehold, kobles Master MDM-en fra.
-
En gjenoppbyggingshendelse fører til at Master MDM og muligens også Slave MDM-ene kobles fra.
-
MDM-bytte fungerer ikke; Slave-MDM-er kan ikke ta over Master MDM-ansvaret, og derfor er ingen MDM master.
-
Utdataene fra "scli --query_cluster" viser at MDM-er ikke synkroniseres av og til.
-
SDC skriver I/O-feil.
I alle scenarier er "Harden tok for lang tid" sett i MDM trc-logger:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Innvirkning
MDM-repositorielle skrivinger som overskrider herdingsterskelen, betyr at MDM ikke er synkronisert.
Dette betyr at MDM-klyngen ikke synkroniseres, og MDM-prosesser startes på nytt.
Hvis MDM-er starter på nytt raskt/gjentatte ganger, kan det oppstå fullstendige data som ikke er tilgjengelige scenarier (når det ikke er noen Master MDM-klynge tilgjengelig), som i MDM-klynge etter gjentatte failover.
Cause
Når den overordnede MDM-en må gjøre endringer i tilstanden for datablokker, må den skrive disse tilstandsendringene til MDM-repositoriumfilen og deretter synkronisere disse endringene til slave-MDM-ene. Når disse skriveoperasjonene er fullført, varsler MDM-en SDS-ene om at endringene er fullført, og de kan bare levere skrive-I/O-er til SDC-ene fra den primære kopien (til gjenoppbyggingen er fullført). Hvis det tar mer enn 500 millisekund (1/2 sekund) for Master MDM å skrive endringene til det lokale repositoriet, vises meldingene "Harden tok for lang tid" i MDM trc-loggene. Dette fører til at MDM-en ikke kan svare raskt nok på SDS-forespørsler og kan forårsake I/O-feil på SDC-ene. MDM-en forblir i denne tilstanden til I/O-en kan skrive til repositoriet på mindre enn 500 millisekund eller etter 10 sekunder når det blir eierskap av MDM-svitsjen i klyngen.
Resolution
Løsningen er å løse problemet med ventetid på operativsystemdisken.
Dette kan skyldes:
-
Gjenoppbygging av RAID (14G Ready Nodes har BOSS-kort med 2 stk. m.2 SATA-disker i RAID1)
-
Slitasje/alder på disk
-
Feil dimensjonering / valg av OS disker (HDD, treg / billig SSD, etc. vanligvis bare i programvare bare configs)
-
Feil i OS diskkontroller / diskfastvare
-
Diskfeil/prediktiv feiltilstand
-
Men den vanligste årsaken er ekstern IO-belastning på OS-disken.
Under alle omstendigheter er det nødvendig å overvåke / profilere OS-diskens ytelse.
Diskforsinkelse kan overvåkes av sar eller iostat.
Det enkleste/mest universelt tilgjengelige verktøyet er iostat.
Kjør
iostat -xtN 1
Og observer ventetidene, rapportert i millisekunder.
Alle versjoner påvirkes.