Dell Unity: Stor eller växande snapshotkö som orsakar prestandaproblem
Summary: Dell Unity: Stor eller växande snapshotkö som orsakar prestandaproblem och hög lagringsprocessor (SP)
Symptoms
- Värdet för mål för återställningspunkt (RPO) minskades till något som anses vara mer aggressivt (det vill säga 10 minuter). ”
- "Mål för återställningspunkt (RPO) är en vedertagen branschterm som anger den acceptabla mängden data, mätt i tidsenheter, som kan gå förlorade vid ett fel. När du konfigurerar en asynkron replikeringssession kan du konfigurera automatisk synkronisering baserat på RPO. Du kan ange ett RPO från minst 5 minuter upp till högst 1440 minuter (24 timmar). Standard-RPO är inställt på 60 minuters (1 timme) intervall. För synkron replikering är RPO fast på 0."
- Det finns många ögonblicksbilder i ett "förstörande" tillstånd för ett LUN.
- Antalet ögonblicksbilder i ett "förstörande" tillstånd ökar med tiden.
- Hög SP-processor utan korrelerande arbetsbelastning för IOPS/bandbredd.
- LUN och backend-enheter har köer och längre svarstider.
Du kan titta i Unisphere i avsnittet "Block". Se till att lägga till kolumnen "Snapshots" för att få en avläsning per LUN. Om du ser många ögonblicksbilder listade för ett eller flera LUN indikerar detta några saker
Gå till det enskilda LUN och välj fliken "Snapshots" för att kontrollera "State" (kommer att vara "destroying") och "Taken by" (kommer att vara "Replication") för bekräftelse:
Cause
Det kan finnas många orsaker till att köer byggs upp. En av huvudorsakerna tillskrivs ett RPO som anses vara "för aggressivt".
Inbyggd asynkron blockreplikering:
Inbyggd asynkron blockreplikering använder ett delta mellan två snapshots för att överföra data. Under replikeringssessionernas livslängd sker flera snapshot-"uppdateringar" vid överföring av ändringar.
När en snapshot uppdateras tas den bort och återskapas i bakgrunden.
De mest anmärkningsvärda problemen är SP CPU-förbrukning och ytterligare serverdels-I/O som är associerade med snapshot-funktioner.
Unity-disksystemet kan inte ta bort ögonblicksbilderna helt inom en relativt rimlig tid, vilket gör att antalet snapshots som går in i tillståndet "ska tas bort" vida överstiger hastigheten för snapshots som tas bort helt inom en viss tidsperiod. När du minskar RPO-värdet ökar antalet ögonblicksbilder som skapas eller tas bort inom en viss tidsperiod.
Resolution
För det LUN som har flest ögonblicksbilder i förstörelsetillstånd ställer du in RPO på minst standardvärdet (60 minuter) tills borttagningen av ögonblicksbilderna kan komma ikapp. Du kanske vill lämna värdet vid det här nya RPO:t beroende på hur många ögonblicksbilder som köades och bedöma därefter.
"Dell Technologies rekommenderar att du inkluderar en Flash-nivå i en hybridpool där snapshots är aktiva.
Snapshots ökar den totala CPU-belastningen på systemet och ökar den totala enhets-IOPS i lagringspoolen. Ögonblicksbilder använder också poolkapacitet för att lagra äldre data som spåras av ögonblicksbilden, vilket ökar mängden kapacitet som används i poolen tills ögonblicksbilden tas bort. Tänk på omkostnaderna för snapshots när du planerar både prestanda- och kapacitetskrav för lagringspoolen.
Innan du aktiverar snapshots på ett lagringsobjekt rekommenderar vi att du övervakar systemet och ser till att befintliga resurser kan uppfylla de ytterligare arbetsbelastningskraven (se avsnittet Riktlinjer för maskinvarufunktioner, tabell 2). Aktivera snapshots på några lagringsobjekt åt gången och övervaka sedan systemet för att vara säker på att det fortfarande ligger inom rekommenderade driftsintervall innan du aktiverar fler snapshots.
Vi rekommenderar att du sprider ut ögonblicksbildsåtgärder (skapande, borttagning och så vidare). Detta kan åstadkommas genom att använda olika snapshot-scheman för olika uppsättningar lagringsobjekt. Vi rekommenderar även att du schemalägger snapshot-åtgärder efter att eventuella FAST VP-flyttningar har slutförts.
Snapshots tas bort av systemet asynkront. När en snapshot håller på att tas bort markeras den som "Destroying". Om systemet samlar på sig "förstörande" snapshots över tid kan det vara en indikation på att befintliga snapshot-scheman är för aggressiva. Att ta snapshots mer sällan kan ge mer förutsägbara prestandanivåer.
Dell Unity stryper borttagningsåtgärder för snapshots för att minska påverkan på värdens I/O. Borttagning av snapshots kommer att ske snabbare under perioder med låg systemanvändning." Dell Unity: Manual för bästa praxis
Additional Information