PowerFlex 3.X: Långsam skrivning till OS-disk kan orsaka flera MDM-problem.
Summary: Långsamma skrivningar till operativsystemdisken kan orsaka flera MDM-problem.
Symptoms
Ett obegränsat antal scenarier kan uppstå som ett resultat av en långsam operativsystemdisk på en MDM.
I ScaleIO 3.0 har MDM-mekanismen gjorts mer robust för att bättre hantera problem med mycket långsamma OS-diskar. (10+ sekunders latens)
När MDM-enheter körs på OS-diskar som tar för lång tid att skriva kan följande symtom uppstå:
-
Om du använder en SDS för underhåll kopplas huvud-MDM-enheten bort.
-
En återskapandehändelse gör att Master MDM-enheten och eventuellt även slav-MDM-enheterna kopplas från.
-
MDM-växling fungerar inte; Slav-MDM-enheter kan inte ta över Master MDM-ansvaret och därför är ingen MDM master.
-
Utdata från "scli --query_cluster" visar att MDM-enheter med slav inte synkroniseras ibland.
-
SDC skriver I/O-fel.
I alla scenarier visas "Harden took too long" i MDM trc-loggar:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Påverkan
MDM-lagringsplatsens skrivningar som överskrider härdningströskeln innebär att MDM inte synkroniseras.
Det innebär att MDM-klustret inte synkroniseras och att MDM-processerna startas om.
Om MDM-enheterna startas om tillräckligt snabbt/upprepade gånger kan scenarier med ofullständiga data vara otillgängliga (när det inte finns någon tillgänglig Master MDM) som i MDM-klustret nere efter upprepade redundansväxlingar kan inträffa.
Cause
När Master MDM måste göra ändringar i tillståndet för datablock måste den skriva dessa lägesändringar till MDM-lagringsfilen och sedan synkronisera ändringarna till slav-MDM-enheterna. När dessa skrivningar är klara meddelar MDM:en SDS:erna att ändringarna har slutförts och de kan endast hantera skriv-I/O:er till SDC:erna från den primära kopian (tills återskapandet är klart). Om det tar längre tid än 500 millisekunder (1/2 sekund) för Master MDM att skriva ändringarna till den lokala databasen visas meddelandet "Harden took too long" i MDM trc-loggarna. Detta gör att MDM inte kan svara tillräckligt snabbt på SDS-förfrågningar och kan orsaka IO-fel på SDC:er. MDM-enheten förblir i det här läget tills IO kan skriva till databasen på mindre än 500 millisekunder eller efter 10 sekunder när ett MDM-switchägarskap inträffar i klustret.
Resolution
Lösningen är att lösa problemet med svarstiden för OS-disken.
Detta kan bero på:
-
RAID-ombyggnad (14G-förberedda noder har BOSS-kort med 2x m.2 SATA-enheter i RAID1)
-
Diskens slitage/ålder
-
Felaktig storlek/val av OS-diskar (hårddisk, långsam/billig SSD osv. vanligtvis endast i programvarukonfigurationer)
-
Buggar i OS-diskstyrenheten/den fasta programvaran för disken
-
Diskfel/förutsägbart feltillstånd
-
Men den vanligaste orsaken är överflödig I/O-belastning på OS-disken.
I vilket fall som helst är det nödvändigt att övervaka/profilera OS-diskens prestanda.
Diskfördröjningen kan övervakas av sar eller iostat.
Det enklaste/mest universellt tillgängliga verktyget är iostat.
Kör
iostat -xtN 1
Och observera väntetiderna, rapporterade i millisekunder.
Alla versioner påverkas.