Data Domain: En översikt över data Domain File System (DDFS) Clean/skräp insamling (GC) faser
Summary: Den här artikeln innehåller en översikt över faserna under data Domains rengöring/skräp insamling, och beskriver skillnaderna mellan olika rena algoritmer som används i olika versioner av data Domain-operativsystemet. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain-filsystemet (DDFS) skiljer sig från många vanliga implementeringar av fil system i när en fil tas bort från fil system utrymmet som används av filen är inte omedelbart tillgängligt för åter användning. Orsaken till detta beror på att data Domain relagrings enheten (DDR) inte omedelbart vet om data som refererades av den borttagna filen också är deduplicerade mot andra filer och därför om det är säkert att ta bort dessa data eller inte.
Rengöring (kallas ibland för skräp insamling/GC) är den process som används för att DDR:
I den här artikeln beskrivs ren/GC i mer detaljerad information:
Rengöring (kallas ibland för skräp insamling/GC) är den process som används för att DDR:
- Avgör vilka data på disken som är överflödiga (dvs. inte längre refereras av objekt som t. ex. filer eller ögonblicks bilder)
- Ta bort överflödiga data som gör underliggande disk utrymme tillgängligt för åter användning (dvs. intag av nya data)
- Tids krävande
- Dyr i beräkning
I den här artikeln beskrivs ren/GC i mer detaljerad information:
- Faserna som rensas vanligt vis körs
- De olika rena algoritmerna som används i olika versioner av DDOS
Cause
Inget
Resolution
Varje tid rensa/GC kör det har två huvud syften-först måste det hitta överflödiga data på DDR-en kort översikt över hur detta åstadkoms är enligt följande:
Observera att det inte fysiskt går att frigöra utrymme på systemet förrän ren/GC når kopierings fasen. Det kan leda till att det föreligger en avsevärd fördröjning mellan rengöringar och utrymme som börjar frigöras (på grund av uppräknings processen som måste köras för att först slutföras). För detta skäl bör system inte vara tillåtet att fylla 100% fullt innan ren/GC startas.
Uppräknings faserna tenderar att vara dyra när det gäller processor användning (dvs. de är vanligt vis processor gränser) medan kopierings fasen är dyr i förhållande till CPU och I/O (dvs. de är vanligt vis CPU och I/O-bundna). I sammanfattningen är det dock möjligt att säga att:
DDOS 5,4 (och tidigare)-full Clean algorithm: Kör 6 eller 10 faser (som visas ovan):
Liknande identifierings växling från fysiska till perfekta, rena algoritmer automatiskt när den uppgraderas från DDOS 5. x till 6,0 (eller senare). Observera dock att den perfekta fysiska rensade algoritmen kräver att index ska vara i formatet ' index 2,0 ' innan den kan användas. Observera följande:
Oavsett vilket som nämnts ovan kan ren/GC-algoritmen kräva ett variabel antal faser, till exempel om den fullständiga rensade algoritmen kräver 6 eller 10 faser. Orsaken till detta är att:
Det finns ingen tillgänglig information för att direkt fastställa att ett system har växlat från den fysiska rensnings algoritmen till den perfekta fysiska rengörings algoritmen utöver:
Oavsett om den rena algoritmen har använts för kopierings fasen (där död data tas bort fysiskt från systemet) fungerar det på samma sätt i alla versioner. Prestandan för kopierings fasen beror vanligt vis på:
exempel 1:
En betydligt större mängd i/O och CPU krävs för att utföra den kopia som beskrivs i exempel 2 när den jämförs med det i exempel 1, så det tar avsevärt längre tid att frigöra 45Mb fysiskt utrymme i disk i det här exemplet.
Användare har vanligt vis ingen kontroll över "fragmentering" av död data på disken på en DDR eftersom detta är mycket beroende på användnings fall/typ av data som skrivs till systemet. Observera dock att ren/GC upprätthåller statistik som hjälper till att fastställa "fragmenterad" av död data som påträffats under kopierings fasen (vilket gör det möjligt för en användare att avgöra om den här fragmenteringen kan förklara en kopierings fas som eventuellt är i drift). Sådan statistik från den senaste fasen ren/GC samlas i AutoSupport. Till exempel nedan visas en kopierings fas där död data var ganska sammanhängande (dvs. de flesta behållare valdes för kopiering som mest döda data):
procent andel av real tids data som kopierats: 3,6% 4,3%
Nedan visas en kopierings fas där död data fragmenterades (dvs. de flesta behållare som valts för kopieringen är huvudsakligen Real data):
procent andel av real tids data som kopierats: 70,9% 71,5%
Som beskrivs ovan måste rensas eller GC utföra jämför ande mycket mer arbete i det andra scenariot för att fysiskt frigöra utrymme på DDR vilket gör att kopierings fasen reduceras.
Kopiering av fas-genomflöde kan också påverkas negativt av:
- Ren/GC räknar upp innehållet i DDFS-filsystemet som söker efter objekt, ögonblicks bilder och loggfiler som för närvarande finns på systemet
- Då bestäms alla fysiska data på disken som de ska refereras till aktivt.
- Data som är aktivt hänvisas till är "Live" och kan inte tas bort från DDR, annars skulle de objekt som refererar till dessa data skadas (de skulle inte längre kunna läsas som underliggande data de förväntas ha kvar på disken)
- Data som inte är aktivt refereras till av ett objekt sägs vara "dött" och är överflödiga. dessa data kan tas bort på ett säkert sätt från systemet
- Alla data på en DDR packas i objekt av 4,5 MB i storlek som kallas för containrar
- Genom uppräknings ren/GC kan du bestämma vilka 4,5 MB-behållare som ska lagra död data och mängden döda data i varje
- Som standard kommer rengör/GC att välja 4,5 MB behållare som innehåller > 8% död data för "Processing"
- Behållare som valts för bearbetning kontrol leras igen för att bekräfta att de innehåller en bra mängd döda data
- Live data extraheras från dessa behållare och skrivs till nya 4,5 MB-behållare i slutet av fil systemet
- När det här är slutförda valda behållare (inklusive förlorade data) tas de bort från disken fysiskt frigör disk utrymme
- Den version av DDOS som används på DDR (den rena algoritmen används som standard av den versionen av DDOS)
- Systemets konfiguration/innehåll
- Före uppräkning-uppräkning av innehållet i fil systemet DDFS
- Pre-merge-utför en DDFS-index sammanslagning för att säkerställa att den senaste kopian av index informationen töms på disk
- Före filtrering avgör om det finns dubbletter av data i DDFS-filsystemet och om så är fallet
- Pre-Select-avgör vilka 4,5 MB-behållare som ska bearbetas genom att rengöra
- Copy-fysiskt extrahera Real data från valda behållare, Skriv detta till nya behållare och ta sedan bort valda behållare
- Sammanfattning-Bygg om sammanfattnings vektorer (som används som en optimering vid intag av nya data)
Observera att det inte fysiskt går att frigöra utrymme på systemet förrän ren/GC når kopierings fasen. Det kan leda till att det föreligger en avsevärd fördröjning mellan rengöringar och utrymme som börjar frigöras (på grund av uppräknings processen som måste köras för att först slutföras). För detta skäl bör system inte vara tillåtet att fylla 100% fullt innan ren/GC startas.
Uppräknings faserna tenderar att vara dyra när det gäller processor användning (dvs. de är vanligt vis processor gränser) medan kopierings fasen är dyr i förhållande till CPU och I/O (dvs. de är vanligt vis CPU och I/O-bundna). I sammanfattningen är det dock möjligt att säga att:
- Den totala längden på uppräknings faserna beror på mängden data på DDR som behöver räknas upp
- Den totala längden på kopierings fasen beror på mängden av förlorade data på DDR som måste tas bort och hur "fragmenterad" data finns på disken (beskrivs nedan)
DDOS 5,4 (och tidigare)-full Clean algorithm: Kör 6 eller 10 faser (som visas ovan):
- Innehållet i DDFS-filsystemet räknas upp (dvs. det är filinriktad)
- DDFS identifierar alla filer som finns på DDR och söker sedan igenom varje fil i tur och ordning för att avgöra vilka data som refereras till av filen
- Detta gör att ren/GC kan avgöra vilka data på disken som är "Live"
- Innehållet i DDFS är uppräknat nedifrån (dvs. det söker inte längre igenom enskilda filer)
- DDFS upptäcker fil systemets metadata som refererar till fysiska data på disken och söker efter metadata för att avgöra vilka data som hänvisas till
- Detta gör att ren/GC kan avgöra vilka data på disken som är "Live"
- Detta uppnås genom tillsats av en "analys" fas (vilket ökar i takt med att hela fasen ökas)
- I de flesta fall förväntas total varaktighet av fysisk rensning vara kortare än fullt ren för samma system (även om den består av flera enskilda faser).
- Det här är helt enkelt en optimering av den fysiska rensade algoritmen och beskrivs nedan
- Ett stort antal små filer (som kontext brytare vid förflyttning från uppräkning av en fil till nästa var dyr/långsam)
- Hög avduplicerad kvot (som flera filer refereras till samma fysiska data, så samma data har räknats upp flera gånger)
Liknande identifierings växling från fysiska till perfekta, rena algoritmer automatiskt när den uppgraderas från DDOS 5. x till 6,0 (eller senare). Observera dock att den perfekta fysiska rensade algoritmen kräver att index ska vara i formatet ' index 2,0 ' innan den kan användas. Observera följande:
- Formatet ' index 2,0 ' har införts med DDOS 5,5 (så alla fil system som skapas på 5,5 eller senare kommer redan att använda index 2,0)
- Fil systemet som skapas på 5,4 eller tidigare har inlednings vis haft index i index 1,0-formatet. När du har uppgraderat till DDOS 5,5 (eller senare) kommer indexen att konverteras till index 2,0 format-konverteringen sker varje gång rensning körs, men endast ~ 1% av index konverteras under varje rensning så att det kan ta upp till två år (under förutsättning att ren körs varje vecka) för att fullständigt konvertera index till 2,0-formatet
Oavsett vilket som nämnts ovan kan ren/GC-algoritmen kräva ett variabel antal faser, till exempel om den fullständiga rensade algoritmen kräver 6 eller 10 faser. Orsaken till detta är att:
- När DDFS startas reserveras en fast mängd minne som används av ren/GC
- I detta minne rensar/GC skapar data strukturer för att beskriva resultaten av uppräkningen (dvs. Beskrivning av var det finns Real-och död data på disken)
- När en DDR innehåller en relativt liten mängd data kan hela innehållet i DDFS-filsystemet beskrivas i detta område av minnet
- På många system är det dock inte möjligt och det här minnes utrymmet blir för stort innan hela innehållet i DDFS-filsystemet räknades upp
- Som ett resultat av detta utför dessa system "sampling" vilket ökar antalet rensade faser som krävs
- Utför en samplings överföring över hela fil systemet – Observera att uppräkningen inte är slutförd (dvs. det registrerar inte fullständig information om varje del av fil systemet utan i stället uppskattar information för varje del av fil systemet)
- Använd den här samplings informationen för att avgöra vilken del av DDFS-filsystemet som mest åtnjuter en ren/GC-körning mot den (dvs. vilken del av fil systemet skulle ge bäst resultat i termer av utrymme som frigörs om det har rensats)
- Utför en andra Round-uppräkning mot den valda delen av fil systemet vars innehåll nu kan beskrivas fullständigt i det minne som är reserverat för GC
- En ökning av antalet faser som behöver utföras av ren/GC
- En motsvarande ökning av den totala varaktigheten av ren/GC
Det finns ingen tillgänglig information för att direkt fastställa att ett system har växlat från den fysiska rensnings algoritmen till den perfekta fysiska rengörings algoritmen utöver:
- När systemet körs fysiskt rent på DDOS 5,5-5,7 utfördes 12 faser under rensning
- Efter det system som uppgraderas till DDOS 6,0 (eller senare) utför det endast 7 faser under rensning
Oavsett om den rena algoritmen har använts för kopierings fasen (där död data tas bort fysiskt från systemet) fungerar det på samma sätt i alla versioner. Prestandan för kopierings fasen beror vanligt vis på:
- Mängden "dött" data som ska tas bort
- "Fragmentering" av dessa döda data (dvs. hur det sprider sig över flera diskar)
exempel 1:
- 10 behållare har valts för kopiering (45Mb total data)
- Alla om dessa behållare inte har några real tids data (dvs. de data som innehas är helt icke refererade/döda)
- Som en resultat kopia måste du helt enkelt markera dessa behållare som borttagna för att frigöra 45Mb fysiskt utrymme på disken
- 100 behållare väljs för kopiering (450Mb total data)
- Var och en av dessa behållare rymmer 90% Live data/10% förlorade data
- Om du vill bearbeta dessa behållar kopia måste du:
Läs 90% Live-data från alla 100-behållare (405Mb data)
Skapa en uppsättning nya behållare för att rymma dessa 405Mb-data i slutet av fil systemet
Skriv dessa 405Mb-data till dessa behållare och uppdatera strukturer såsom index i enlighet med detta
Markera de 100 valda behållare som borttaget och frigör därför 45Mb fysiskt utrymme på disken
En betydligt större mängd i/O och CPU krävs för att utföra den kopia som beskrivs i exempel 2 när den jämförs med det i exempel 1, så det tar avsevärt längre tid att frigöra 45Mb fysiskt utrymme i disk i det här exemplet.
Användare har vanligt vis ingen kontroll över "fragmentering" av död data på disken på en DDR eftersom detta är mycket beroende på användnings fall/typ av data som skrivs till systemet. Observera dock att ren/GC upprätthåller statistik som hjälper till att fastställa "fragmenterad" av död data som påträffats under kopierings fasen (vilket gör det möjligt för en användare att avgöra om den här fragmenteringen kan förklara en kopierings fas som eventuellt är i drift). Sådan statistik från den senaste fasen ren/GC samlas i AutoSupport. Till exempel nedan visas en kopierings fas där död data var ganska sammanhängande (dvs. de flesta behållare valdes för kopiering som mest döda data):
procent andel av real tids data som kopierats: 3,6% 4,3%
Nedan visas en kopierings fas där död data fragmenterades (dvs. de flesta behållare som valts för kopieringen är huvudsakligen Real data):
procent andel av real tids data som kopierats: 70,9% 71,5%
Som beskrivs ovan måste rensas eller GC utföra jämför ande mycket mer arbete i det andra scenariot för att fysiskt frigöra utrymme på DDR vilket gör att kopierings fasen reduceras.
Kopiering av fas-genomflöde kan också påverkas negativt av:
- Användning av kryptering: Data kan behöva dekrypteras eller omkrypteras under kopieringen vilket avsevärt ökar den mängd processor som krävs
- Användning av låg bandbredds optimering: Behållare kan behöva en "skiss"-information som ska genereras under kopieringen vilket även orsakar en avsevärd ökning av den mängd processor som krävs
Additional Information
Ytterligare information om att kontrol lera/ändra ren schemaläggning och begränsning finns i följande KB-artikel: https://support.emc.com/kb/306100
Observera dock att:
En DDR med ren begränsning av "100" (dvs. den högsta/mest aggressiva möjliga begränsnings inställningen) använder avsevärd processor och I/O medan ren körs och inte frigör resurser även om DDR är utsatt för annan arbets belastning (i det här fallet är det sannolikt att ren nedbrytning kommer att orsaka betydande försämring av insugnings-/återställnings-/replikerings operationer)
Till exempel:
Denna information kan även visas från data Domains kommando rad Shell (DDCLI) så här:
Logga in på DDCLI
# system show serialno
-Visa GC-statistik:
Se@dd4200 # # filer Visa detaljerad-statistik 70
GC statistik för fysisk städning på aktivt genomförd 1 avbröts 0
de senaste lyckade GC-behållarobjektet: 198 till 562458
GC fas: för sammanslagnings tid: 177 medelvärde: 177 seg/s: 0 kont/s: 857
GC-fas: tid för analys: 187 medelvärde: 187 seg/s: 0 kont/s: 811
GC-fas: tid för uppräkning: 573 medelvärde: 573 seg/s: 1086296 kont/s: 264
GC-fas: tid för filtrering: 181 medelvärde: 181 seg/s: 1728325 kont/s: 838
GC-fas: i förväg väljer du tid: 77 medelvärde: 77 seg/s: 3500864 kont/s: 1970
GC-fas: kopierings tid: 54 medelvärde: 54 seg/s: 0 kont/s: 2809
GC-fas: sammanfattnings tid: 1 medelvärde: 1 seg/s: 0 kont/s: 151726
...
Observera dock att:
- Under normala omständigheter ska ren tids plane ras för att köras den senaste veckan som körs oftare än detta kan medföra att data på disken blir alltför fragmenterade (dvs. har en dålig avstånds plats) vilket kan resultera i dåliga Läs-/replikerings-/data rörelser
- Ren begränsning påverkar inte den totala mängden processor och I/O bandbredd som förbrukas av ren-i stället styrs hur känsligt ren är för andra arbets belastningar på systemet. Till exempel:
En DDR med ren begränsning av "1" (dvs. lägsta/minsta aggressiva möjliga begränsnings inställning) kommer fortfarande att använda stor processor och I/O medan ren är igång. Den ska dock omedelbart stänga av och frigöra resurser så snart som DDR drabbar andra arbets belastningar
En DDR med ren begränsning av "100" (dvs. den högsta/mest aggressiva möjliga begränsnings inställningen) använder avsevärd processor och I/O medan ren körs och inte frigör resurser även om DDR är utsatt för annan arbets belastning (i det här fallet är det sannolikt att ren nedbrytning kommer att orsaka betydande försämring av insugnings-/återställnings-/replikerings operationer)
- Som standard är Clean-begränsning inställt på 50-det är användarens ansvar att testa ren med olika inställningar, medan DDR förbrukar normal belastning för att fastställa en begränsnings inställning som gör det möjligt att:
Rensa för att köras på den minsta möjliga tids mängd
Rensa för att köra utan att orsaka onödig försämring av prestanda för andra arbets belastningar
- Observera att en tids krävande ren städning inte nödvändigt vis är ett problem så länge som:
Clean kan slutföras fullständigt mellan de schemalagda start tiderna (dvs. om ren är planerad att börja vid 6am på tisdagar ska den slutföras före 6am följande tisdag)
Systemet har tillräckligt med ledigt utrymme, som inte ska bli helt innan rensningen når sin kopierings fas (och utrymmet börjar bli återställt)
Ren skadar inte orimligt försämrade prestanda för andra arbets belastningar medan det körs
- Systemet med utökad bevarande funktion ska konfigureras så att:
Data förflyttning från aktiv-> arkivnivå är schemalagd att köras med jämna mellanrum (dvs. en gång i veckan)
Rensa Active-nivån är schemalagd att köras vid slutförandet av data förflyttning
Rensa i Active-skiktet har inget eget/oberoende schema (det kan orsaka överdriven rengöring)
- Fullständig information från den senaste rensnings funktionen ingår i följande funktioner och information:
En översikt över faserna som körs under rensning
Varaktighet och data flöde för varje ren rengörings fas
Detaljerad statistik för varje ren rengörings fas
Till exempel:
GC stats statistik för fysisk städning på aktivt framgångs rik 39 som avbrutits 0 senaste
lyckade GC-behållarobjektet: 15925661 till 62813670
GC fas: för sammanslagnings tid: 133 medelvärde: 154 seg/s: 0 kont/s: 0
GC-fas: tid för analys: 1331 medelvärde: 1768 seg/s: 0 kont/s: 0
GC-fas: tid för uppräkning: 34410 medelvärde: 31832 seg/s: 1471833 kont/s: 0
GC-fas: tid för filtrering: 2051 medelvärde: 1805 seg/s: 1988827 kont/s: 0
GC-fas: i förväg väljer du tid: 2770 medelvärde: 2479 seg/s: 1472593 kont/s: 2675
GC-fas: sammanslagnings tid: 111 medelvärde: 69 seg/s: 0 kont/s: 0
GC-fas: tid för analys: 1350 medelvärde: 900 seg/s: 0 kont/s: 0
GC-fas: tid för kandidat: 1478 medelvärde: 739 seg/s: 6833465 kont/s: 2156
GC-fas: uppräknings tid: 37253 medelvärde: 20074 seg/s: 5490502 kont/s: 0
GC-fas: filter tid: 1667 medelvärde: 910 seg/s: 9787652 kont/s: 0
GC-fas: kopierings tid: 52164 medelvärde: 49496 seg/s: 0 kont/s: 61
GC-fas: sammanfattnings tid: 2840 medelvärde: 2427 seg/s: 5552869 kont/s:
information om 2501 GC-analys fas: Senaste kumulativa
antal segment i index: 16316022459 572186212855 unikt segment antal som har beställts
: 494653358 319255282440
unika LP-segment Antal: 494653866 17879171482
fördröjd omfördelning av buffert: 0 0
index fullständigt uppgraderat: 1 16
Sök endast efter LP: 1 39
Max LP-segment antal som stöds: 18105971430 706132885747
...
lyckade GC-behållarobjektet: 15925661 till 62813670
GC fas: för sammanslagnings tid: 133 medelvärde: 154 seg/s: 0 kont/s: 0
GC-fas: tid för analys: 1331 medelvärde: 1768 seg/s: 0 kont/s: 0
GC-fas: tid för uppräkning: 34410 medelvärde: 31832 seg/s: 1471833 kont/s: 0
GC-fas: tid för filtrering: 2051 medelvärde: 1805 seg/s: 1988827 kont/s: 0
GC-fas: i förväg väljer du tid: 2770 medelvärde: 2479 seg/s: 1472593 kont/s: 2675
GC-fas: sammanslagnings tid: 111 medelvärde: 69 seg/s: 0 kont/s: 0
GC-fas: tid för analys: 1350 medelvärde: 900 seg/s: 0 kont/s: 0
GC-fas: tid för kandidat: 1478 medelvärde: 739 seg/s: 6833465 kont/s: 2156
GC-fas: uppräknings tid: 37253 medelvärde: 20074 seg/s: 5490502 kont/s: 0
GC-fas: filter tid: 1667 medelvärde: 910 seg/s: 9787652 kont/s: 0
GC-fas: kopierings tid: 52164 medelvärde: 49496 seg/s: 0 kont/s: 61
GC-fas: sammanfattnings tid: 2840 medelvärde: 2427 seg/s: 5552869 kont/s:
information om 2501 GC-analys fas: Senaste kumulativa
antal segment i index: 16316022459 572186212855 unikt segment antal som har beställts
: 494653358 319255282440
unika LP-segment Antal: 494653866 17879171482
fördröjd omfördelning av buffert: 0 0
index fullständigt uppgraderat: 1 16
Sök endast efter LP: 1 39
Max LP-segment antal som stöds: 18105971430 706132885747
...
Denna information kan även visas från data Domains kommando rad Shell (DDCLI) så här:
Logga in på DDCLI
-Ta bort till se-läget:
# system show serialno
[systemets serie nummer visas]
# Föreg.
[Observera att vissa system kan fråga efter information om en användare med säkerhets roll på detta stadium]
[lösen ords ledtext – ange serie nummer från ovan]
-Visa GC-statistik:
Se@dd4200 # # filer Visa detaljerad-statistik 70
GC statistik för fysisk städning på aktivt genomförd 1 avbröts 0
de senaste lyckade GC-behållarobjektet: 198 till 562458
GC fas: för sammanslagnings tid: 177 medelvärde: 177 seg/s: 0 kont/s: 857
GC-fas: tid för analys: 187 medelvärde: 187 seg/s: 0 kont/s: 811
GC-fas: tid för uppräkning: 573 medelvärde: 573 seg/s: 1086296 kont/s: 264
GC-fas: tid för filtrering: 181 medelvärde: 181 seg/s: 1728325 kont/s: 838
GC-fas: i förväg väljer du tid: 77 medelvärde: 77 seg/s: 3500864 kont/s: 1970
GC-fas: kopierings tid: 54 medelvärde: 54 seg/s: 0 kont/s: 2809
GC-fas: sammanfattnings tid: 1 medelvärde: 1 seg/s: 0 kont/s: 151726
...
Affected Products
Data DomainProducts
Data DomainArticle Properties
Article Number: 000017462
Article Type: Solution
Last Modified: 11 Dec 2023
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.