PowerFlex 3.X: Le scritture lente sul disco del sistema operativo possono causare più problemi MDM.
Summary: Le scritture lente sul disco del sistema operativo possono causare più problemi MDM.
Symptoms
Possono presentarsi innumerevoli scenari come risultato di un disco del sistema operativo lento su un MDM.
In ScaleIO 3.0, il meccanismo MDM è stato reso più robusto per gestire meglio i problemi del disco del sistema operativo molto lenti. (latenza di 10+ secondi)
Quando gli MDM sono in esecuzione su dischi del sistema operativo che richiedono troppo tempo per la scrittura, è possibile che vengano visualizzati i seguenti sintomi:
-
L'inserimento di un SDS in manutenzione causa la disconnessione dell MDM master.
-
Un evento di ricostruzione causa la disconnessione dell MDM master ed eventualmente anche degli MDM slave.
-
Lo switchover dell MDM non funziona; Gli MDM slave non possono assumere le responsabilità di MDM master e quindi nessun MDM è master.
-
L'output di "scli --query_cluster" mostra gli MDM slave non sincronizzati occasionalmente.
-
SDC scrive errori di I/O.
In tutti gli scenari, il messaggio "Harden took too long" viene visualizzato nei log trc MDM:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Impatto
Le scritture nel repository MDM che superano la soglia di protezione avanzata significa che MDM non è sincronizzato.
Ciò significa che il cluster MDM non è sincronizzato e i processi MDM vengono riavviati.
Se gli MDM si riavviano rapidamente/ripetutamente in modo abbastanza rapido, possono verificarsi scenari di dati non disponibili completi (quando non è disponibile alcun MDM master), come nel cluster MDM inattivo dopo ripetuti failover.
Cause
Quando l MDM master deve apportare modifiche allo stato dei blocchi di dati, deve scrivere queste modifiche di stato nel file del repository MDM, quindi sincronizzare tali modifiche con gli MDM slave. Al termine di tali scritture, MDM informa gli SDS che le modifiche sono state finalizzate e questi possono servire I/O di scrittura agli SDC solo dalla copia primaria (fino al completamento della ricostruzione). Se sono necessari più di 500 millisecondi (1/2 secondo) affinché l MDM master scriva le modifiche nel repository locale, nei registri trc dell MDM verranno visualizzati i messaggi "Harden took too long". In questo modo l MDM non è in grado di rispondere abbastanza rapidamente alle richieste degli SDS e può causare errori di I/O sugli SDC. L MDM rimarrà in questo stato fino a quando l'I/O non può scrivere nel repository in meno di 500 millisecondi o dopo 10 secondi quando si verificherà la proprietà di uno switch MDM all'interno del cluster.
Resolution
La soluzione consiste nel risolvere il problema di latenza del disco del sistema operativo.
Ciò può essere dovuto a:
-
Ricostruzioni RAID (i Ready Node 14G dispongono di schede BOSS con 2 unità SATA M.2 in RAID1)
-
Usura/età del disco
-
Dimensionamento/selezione impropri dei dischi del sistema operativo (HDD, SSD lente/economiche ecc., di solito solo nelle configurazioni solo software)
-
Bug nel controller del disco del sistema operativo/nel firmware del disco
-
Stato di errore/guasto previsto del disco
-
Ma la causa più comune è il carico di I/O estraneo sul disco del sistema operativo.
In ogni caso, è necessario monitorare/profilare le prestazioni del disco del sistema operativo.
La latenza del disco può essere monitorata tramite sar o iostat.
Lo strumento più semplice e universalmente disponibile è iostat.
Eseguire
iostat -xtN 1
E osservare i tempi di attesa, segnalati in millisecondi.
Sono interessate tutte le versioni.