PowerFlex 3.X: Pomalé zápisy na disk OS mohou způsobit několik problémů s MDM.

摘要: Pomalé zápisy na disk operačního systému mohou způsobit více problémů s MDM.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Pomalý disk operačního systému ve službě MDM může vyvolat libovolný počet scénářů.

Ve ScaleIO 3.0 je mechanismus MDM robustnější, aby lépe zvládal problémy s výrazně pomalými disky s operačním systémem. (latence 10+ sekund)


Pokud jsou uzly MDM spuštěné na discích s operačním systémem, jejichž zápis trvá příliš dlouho, mohou se zobrazit následující příznaky:

  • Vložení SDS do údržby způsobí odpojení hlavního uzlu MDM.

  • Událost opětovného sestavení způsobí odpojení hlavního uzlu MDM a případně také podřízených center MDM.

  • Přepnutí MDM nefunguje; Podřízené MDM nemohou převzít odpovědnost za hlavní uzel MDM, takže žádný uzel MDM není hlavním.

  • Výstup příkazu "scli --query_cluster" občas zobrazuje nesynchronizované podřízené MDM.

  • SDC zapisuje chyby IO.

Ve všech scénářích se v protokolech MDM trc zobrazuje zpráva "Harden trval příliš dlouho":

08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms
08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms
08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms

Důsledky

Zápisy do úložiště MDM, které překračují prahovou hodnotu posílení, znamenají, že MDM není synchronizovaný.
To znamená, že cluster MDM není synchronizován a procesy MDM se restartují. 
Pokud se uzlovací uzly MDM restartují dostatečně rychle/opakovaně, může dojít k dokončení scénářů nedostupnosti dat (kdy není k dispozici žádný hlavní uzel MDM), jako je tomu v případě výpadku clusteru MDM po opakovaném převzetí služeb při selhání. 

原因

Když hlavní uzel MDM musí změnit stav datových bloků, musí tyto změny stavu zapsat do souboru úložiště MDM a poté tyto změny synchronizovat s podřízenými uzly MDM. Po dokončení těchto zápisů uzel MDM upozorní úložiště SDS, že změny jsou dokončeny, a tyto řadiče mohou do SDC odesílat IO pouze z primární kopie (dokud se opětovné vytvoření nedokončí). Pokud zápisu změn do místního úložiště v hlavním uzlovém uzlu MDM trvá déle než 500 milisekund (1/2 sekundy), zobrazí se v protokolech MDM trc zpráva "Harden trval příliš dlouho". To způsobí, že uzel MDM nebude schopen dostatečně rychle reagovat na požadavky SDS a může způsobit chyby IO na SDC. MDM zůstane v tomto stavu, dokud IO nebude moci zapisovat do úložiště za méně než 500 milisekund nebo po 10 sekundách, když dojde k vlastnictví přepínače MDM v clusteru. 

解决方案

Řešením je vyřešit problém s latencí disku s operačním systémem.  

To může být způsobeno:

  • Obnova pole RAID (konfigurace 14G Ready Node mají karty BOSS se 2 disky m.2 SATA v poli RAID1)

  • Opotřebení/stáří disku

  • Nesprávné dimenzování/výběr disků s OS (HDD, pomalé/levné SSD, atd. obvykle pouze v softwarových konfiguracích)

  • Chyby v řadiči disku OS / firmwaru disku

  • Stav selhání disku / prediktivního selhání 

  • Nejběžnější příčinou je ale nadbytečné zatížení vstupně-výstupních operací na disku s operačním systémem. 

V každém případě je nutné monitorovat a profilovat výkon disku s operačním systémem.

Latenci disku lze monitorovat pomocí sar nebo iostat. 

Nejjednodušším/nejuniverzálnějším nástrojem je iostat. 

Spustit 

iostat -xtN 1

A sledujte čekací doby, hlášené v milisekundách. 

Ovlivněny jsou všechny verze.

受影响的产品

Converged Infrastructure

产品

Converged Infrastructure, Software, Storage, PowerFlex Software
文章属性
文章编号: 000201707
文章类型: Solution
上次修改时间: 19 11月 2025
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。