Dell Unity: Große oder wachsende Snapshot-Warteschlange verursacht Performanceprobleme
Summary: Dell Unity: Große oder steigende Snapshot-Warteschlange verursacht Performanceprobleme und hohe CPU-Auslastung für Storage-Prozessor (SP)
Symptoms
- Der Wert für Recover Point Objective (RPO) wurde auf einen Wert reduziert, der als aggressiver betrachtet wird (d. h. 10 Minuten). “
- "Recovery Point Objective (RPO) ist ein branchenweit anerkannter Begriff, der die akzeptable Datenmenge angibt, gemessen in Zeiteinheiten, die bei einem Ausfall verloren gehen darf. Wenn Sie eine asynchrone Replikationssitzung einrichten, können Sie die automatische Synchronisation basierend auf der RPO konfigurieren. Sie können eine RPO von mindestens 5 Minuten und maximal 1.440 Minuten (24 Stunden) angeben. Das Standard-RPO ist auf ein Intervall von 60 Minuten (1 Stunde) festgelegt. Für die synchrone Replikation ist das RPO auf 0 festgelegt."
- Es gibt viele Snapshots, die sich für eine LUN in einem "zerstörenden" Status befinden.
- Die Anzahl der Snapshots im Status "wird gelöscht" nimmt im Laufe der Zeit zu.
- Hohe SP-CPU ohne entsprechende IOPS-/Bandbreiten-Workload.
- LUNs und Back-end-Laufwerke bilden Warteschlangen und haben erhöhte Antwortzeiten.
Sie können in Unisphere im Abschnitt "Block" nachsehen. Stellen Sie sicher, dass Sie die Spalte "Snapshots" hinzufügen, um eine Auslesung pro LUN zu erhalten. Wenn viele Snapshots für eine oder mehrere LUNs aufgelistet sind, weist dies auf einige Dinge
hin. Navigieren Sie zu der einzelnen LUN und wählen Sie die Registerkarte "Snapshots" aus, um "State" (wird "destroying") und "Taken by" (wird "Replication") zur Bestätigung zu überprüfen:
Cause
Es kann viele Ursachen für die Bildung von Warteschlangen geben. Eine der Hauptursachen wird einem RPO zugeschrieben, das als "zu aggressiv" angesehen wird.
Native asynchrone Blockreplikation:
Die native asynchrone Blockreplikation verwendet ein Delta zwischen zwei Snapshots, um Daten zu übertragen. Während der Lebensdauer der Replikationssitzungen gibt es mehrere Snapshot-"Aktualisierungen", die bei der Übertragung von Änderungen stattfinden.
Wenn ein Snapshot aktualisiert wird, wird er tatsächlich im Hintergrund gelöscht und neu erstellt.
Die wichtigsten Bedenken betreffen die SP-CPU-Auslastung und zusätzliche Back-end-I/O, die mit der Snapshot-Funktionalität verbunden sind.
Das Unity-Array kann die Snapshots nicht in einem relativ angemessenen Zeitraum vollständig löschen, was dazu führt, dass die Rate der Snapshots, die in den Status "Wird gelöscht" übergehen, die Rate der Snapshots, die innerhalb eines bestimmten Zeitraums vollständig gelöscht werden, bei weitem übersteigt. Wenn Sie den RPO-Wert verringern, erhöht sich die Anzahl der Snapshot-Erstellungen oder -Löschungen innerhalb eines bestimmten Zeitraums.
Resolution
Legen Sie für die LUN mit den meisten Snapshots in einem gelöschten Status das RPO mindestens auf die Standardeinstellung (60 Minuten) fest, bis das Löschen von Snapshots aufholen kann. Je nachdem, wie viele Snapshots sich in der Warteschlange befanden, können Sie den Wert bei diesem neuen RPO belassen und entsprechend beurteilen.
"Dell Technologies empfiehlt, einen Flash-Tier in einen Hybridpool aufzunehmen, in dem Snapshots aktiv sind.
Snapshots erhöhen die CPU-Gesamtlast auf dem System und erhöhen die Gesamt-Laufwerks-IOPS im Storage-Pool. Snapshots verwenden auch Poolkapazität, um die älteren Daten zu speichern, die vom Snapshot nachverfolgt werden, wodurch sich die Menge der im Pool verwendeten Kapazität erhöht, bis der Snapshot gelöscht wird. Berücksichtigen Sie den Overhead von Snapshots bei der Planung von Performance- und Kapazitätsanforderungen für den Storage-Pool.
Bevor Sie Snapshots auf einem Storage-Objekt aktivieren, wird empfohlen, das System zu überwachen und sicherzustellen, dass die vorhandenen Ressourcen die zusätzlichen Workload-Anforderungen erfüllen können (siehe Abschnitt Richtlinien für Hardwarefunktionen, Tabelle 2). Aktivieren Sie Snapshots auf jeweils einigen Storage-Objekten und überwachen Sie dann das System, um sicherzustellen, dass es sich noch innerhalb des empfohlenen Betriebsbereichs befindet, bevor Sie weitere Snapshots aktivieren.
Es wird empfohlen, Snapshot-Vorgänge (Erstellung, Löschung usw.) zu staffeln. Dies kann durch die Verwendung unterschiedlicher Snapshot-Zeitpläne für verschiedene Sätze von Storage-Objekten erreicht werden. Es wird auch empfohlen, Snapshot-Vorgänge zu planen, nachdem alle FAST VP-Verlagerungen abgeschlossen wurden.
Snapshots werden vom System asynchron gelöscht. Wenn ein Snapshot gerade gelöscht wird, wird er als "Destroying" markiert. Wenn das System im Laufe der Zeit "zerstörte" Snapshots ansammelt, kann dies ein Hinweis darauf sein, dass vorhandene Snapshot-Zeitpläne zu aggressiv sind. Wenn Sie Snapshots seltener erstellen, erhalten Sie möglicherweise ein zuverlässigeres Performancelevel.
Dell Unity drosselt Snapshot-Löschvorgänge, um die Auswirkungen auf die Host-I/O zu reduzieren. Snapshot-Löschvorgänge werden in Zeiträumen geringer Systemauslastung schneller durchgeführt." Dell Unity: Leitfaden für optimale Verfahren
Additional Information