PowerFlex 3.X: Pomalé zápisy na disk OS mohou způsobit několik problémů s MDM.
Summary: Pomalé zápisy na disk operačního systému mohou způsobit více problémů s MDM.
Symptoms
Pomalý disk operačního systému ve službě MDM může vyvolat libovolný počet scénářů.
Ve ScaleIO 3.0 je mechanismus MDM robustnější, aby lépe zvládal problémy s výrazně pomalými disky s operačním systémem. (latence 10+ sekund)
Pokud jsou uzly MDM spuštěné na discích s operačním systémem, jejichž zápis trvá příliš dlouho, mohou se zobrazit následující příznaky:
-
Vložení SDS do údržby způsobí odpojení hlavního uzlu MDM.
-
Událost opětovného sestavení způsobí odpojení hlavního uzlu MDM a případně také podřízených center MDM.
-
Přepnutí MDM nefunguje; Podřízené MDM nemohou převzít odpovědnost za hlavní uzel MDM, takže žádný uzel MDM není hlavním.
-
Výstup příkazu "scli --query_cluster" občas zobrazuje nesynchronizované podřízené MDM.
-
SDC zapisuje chyby IO.
Ve všech scénářích se v protokolech MDM trc zobrazuje zpráva "Harden trval příliš dlouho":
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Důsledky
Zápisy do úložiště MDM, které překračují prahovou hodnotu posílení, znamenají, že MDM není synchronizovaný.
To znamená, že cluster MDM není synchronizován a procesy MDM se restartují.
Pokud se uzlovací uzly MDM restartují dostatečně rychle/opakovaně, může dojít k dokončení scénářů nedostupnosti dat (kdy není k dispozici žádný hlavní uzel MDM), jako je tomu v případě výpadku clusteru MDM po opakovaném převzetí služeb při selhání.
Cause
Když hlavní uzel MDM musí změnit stav datových bloků, musí tyto změny stavu zapsat do souboru úložiště MDM a poté tyto změny synchronizovat s podřízenými uzly MDM. Po dokončení těchto zápisů uzel MDM upozorní úložiště SDS, že změny jsou dokončeny, a tyto řadiče mohou do SDC odesílat IO pouze z primární kopie (dokud se opětovné vytvoření nedokončí). Pokud zápisu změn do místního úložiště v hlavním uzlovém uzlu MDM trvá déle než 500 milisekund (1/2 sekundy), zobrazí se v protokolech MDM trc zpráva "Harden trval příliš dlouho". To způsobí, že uzel MDM nebude schopen dostatečně rychle reagovat na požadavky SDS a může způsobit chyby IO na SDC. MDM zůstane v tomto stavu, dokud IO nebude moci zapisovat do úložiště za méně než 500 milisekund nebo po 10 sekundách, když dojde k vlastnictví přepínače MDM v clusteru.
Resolution
Řešením je vyřešit problém s latencí disku s operačním systémem.
To může být způsobeno:
-
Obnova pole RAID (konfigurace 14G Ready Node mají karty BOSS se 2 disky m.2 SATA v poli RAID1)
-
Opotřebení/stáří disku
-
Nesprávné dimenzování/výběr disků s OS (HDD, pomalé/levné SSD, atd. obvykle pouze v softwarových konfiguracích)
-
Chyby v řadiči disku OS / firmwaru disku
-
Stav selhání disku / prediktivního selhání
-
Nejběžnější příčinou je ale nadbytečné zatížení vstupně-výstupních operací na disku s operačním systémem.
V každém případě je nutné monitorovat a profilovat výkon disku s operačním systémem.
Latenci disku lze monitorovat pomocí sar nebo iostat.
Nejjednodušším/nejuniverzálnějším nástrojem je iostat.
Spustit
iostat -xtN 1
A sledujte čekací doby, hlášené v milisekundách.
Ovlivněny jsou všechny verze.