Troubleshooting eines schlechten Deduplizierungs- und Komprimierungsverhältnisses von Dateien auf Data Domain Restorers (DDRs)
Summary: Troubleshooting eines schlechten Deduplizierungs- und Komprimierungsverhältnisses von Dateien auf Data Domain Restorers (DDRs)
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain Restorers (DDRs) sind darauf ausgelegt, große Mengen an logischen (vorkomprimierten) Daten unter Verwendung von minimalem physischem (postkomprimiertem) Festplattenspeicher zu speichern. Dies wird erreicht durch:
- Deduplizierung aufgenommener Daten zum Entfernen doppelter Datenblöcke, die bereits auf der Festplatte auf dem DDR gespeichert sind, sodass nur eindeutige Daten übrig bleiben
- Komprimierung eindeutiger Daten, bevor diese Daten physisch auf die Festplatte geschrieben werden.
- Anwendungsbeispiel
- Aufgenommene Datentypen
- Konfiguration der Backupanwendung
- Der DDR kann seine nutzbare Kapazität schnell ausschöpfen.
- Auswirkungen auf Backup-, Wiederherstellungs- oder Replikationsperformance
- Ein Fehler des DDR, um die Kundenerwartungen zu erfüllen
Cause
In diesem Artikel soll Folgendes besprochen werden:
- Eine kurze Übersicht über die Deduplizierung und Komprimierung von Daten auf einem DDR
- Bestimmen des allgemeinen Komprimierungsverhältnisses für das System und einzelne Dateien
- Faktoren, die zu einer Verschlechterung des allgemeinen Komprimierungsverhältnisses führen können
Resolution
Wie nimmt ein Data Domain Restorer neue Daten auf?
Neben der Deduplizierung/Komprimierung neu eingetroffener Daten erstellt der DDR auch eine "Segmentstruktur" für jede aufgenommene Datei. Dies ist im Wesentlichen eine Liste der Segment-"Fingerabdrücke", aus denen diese Datei besteht. Wenn der DDR die Datei später wieder lesen muss, wird Folgendes ausgeführt:
Wie kann das allgemeine Komprimierungsverhältnis auf einem DDR ermittelt werden?
Die Gesamtauslastung eines DDR (und Komprimierungsverhältnis) kann mit dem Befehl "filesys show space" angezeigt werden. Beispiel:
Aktiver Tier:
Ressourcengröße GiB Verwendet GiB Nutzung GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/Data: pre-comp - 115367.8 - -
/data: post-comp 6794 0,2 6242,4 551,8 92 % 202,5
/ddvar 49,2 9,1 37,6 20 % –
---------------- -------- -------- --------- ---- -------------- In diesem Fall sehen wir Folgendes:
Pre-Comp Post-Comp Global-Comp Local-Comp Total-Comp
(GiB) (GiB) Factor Factor Factor
(Reduction %)
---------------- -------- --------- ----------- ---------- -------------
Currently Used:* 115367.8 6242.4 – 18,5 x (94,6) <– HINWEIS
geschrieben:
Letzte 7 Tage 42214,7 1863,2 11,0 x 2,1 x 22,7 x (95,6)
Die letzten 24 Stunden 4924,8 274,0 8,8 x 2,0 x 18,0 x (94,4)
---------------- -------- --------- ----------- ---------- -------------
Overall-Auslastungszahlen auf dem DDR werden wie folgt berechnet:
Container-Set 73fcwolledea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <== Containergröße in Byte
...
attrs.max_containers = 1546057 <== Maximal mögliche Container
attrs.free_containers = 125562 <== Derzeit freie Container
attrs.used_containers = 1420495 <== Derzeit in Verwendung von Containern
...
Sehen Sie sich Folgendes an:
Wie können Deduplizierungs- und Komprimierungsverhältnisse für eine einzelne Datei, ein Einzelnes Verzeichnis oder eine Verzeichnisstruktur ermittelt werden?
Wenn eine Datei aufgenommen wird, erfasst der DDR Statistiken über die Datei, einschließlich:
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files: 1; Byte/storage_used: 2.9
Ursprüngliche Byte: 3.242.460.364
Global komprimiert: 1.113.584.070
lokal komprimiert: 1.130.871.915
Metadaten: 4.772.672
So melden Sie Statistiken für eine gesamte Verzeichnisstruktur:
SE@DDVE60_JF## filesys show compression /data/col1/backup
Total files: 3; Byte/storage_used: 1.4
Ursprüngliche Byte: 7.554.284.280
global komprimiert: 5.425.407.986
lokal komprimiert: 5.510.685.100
Metadaten: 23.263.692
Beachten Sie jedoch, dass es bei der Verwendung dieser Statistiken einige Einschränkungen gibt:
Die vorkomprimierten Bytes entsprechen nicht unbedingt der vorkomprimierten/logischen Größe der Datei. Stattdessen handelt es sich um die Gesamtzahl der Byte, die in ihrer Lebensdauer in eine Datei geschrieben wurden. Daher werden in bestimmten Umgebungen vorhandene Dateien häufig überschrieben (z. B. solche, die funktionen der virtuellen Bandbibliothek verwenden), diese Abbildung kann größer sein als die logische Größe der entsprechenden Dateien.
Kann die Aufnahme von Daten mit "schlechter Qualität" zu einer Verschlechterung des allgemeinen Komprimierungsverhältnisses führen?
Ja – Damit ein DDR ein gutes Komprimierungsverhältnis der aufgenommenen Daten erreichen kann, muss er diese Daten deduplizieren und komprimieren können. Es gibt verschiedene Arten von Daten, die dies verhindern können, wie unten beschrieben:
Vorkomprimierte/vorverschlüsselte Daten:
Dies sind Datentypen, die entweder auf dem Clientsystem oder durch die Backupanwendung komprimiert oder verschlüsselt werden. Dies kann auch anwendungsspezifische Dateien umfassen, die per Design komprimiert oder verschlüsselt werden (z. B. Mediendateien) und Datenbankdateien, die entweder komprimiert oder verschlüsselt sind oder binäre Objekte wie Mediendateien einbetten.
Aufgrund der Art und Weise, wie der Komprimierungs- oder Verschlüsselungsalgorithmus eine relativ kleine Änderung an den zugrunde liegenden Daten einer Datei verwendet, führt dies dazu, dass Änderungen in der gesamten Datei "ankniffen". Ein Client kann beispielsweise eine 100 Mb verschlüsselte Datei enthalten, in der 10 KB geändert werden. Normalerweise wäre die resultierende Datei vor und nach der Änderung identisch, abgesehen vom 10-KB-Abschnitt, der sich geändert hat. Wenn die Verschlüsselung verwendet wird, obwohl sich vor und nach der Änderung nur 10 KB unverschlüsselter Daten geändert haben, führt der Verschlüsselungsalgorithmus dazu, dass sich der gesamte Inhalt der Datei ändert.
Wenn solche Daten regelmäßig geändert und regelmäßig an einen DDR gesendet werden, führt dieser "Welleneffekt" dazu, dass jede Generation der Datei anders als frühere Generationen derselben Datei aussieht. Daher enthält jede Generation einen eindeutigen Satz von Segmenten (und Segmentfingerabdrücke), sodass ein schlechtes Deduplizierungsverhältnis angezeigt wird.
Beachten Sie auch, dass anstelle von vorkomprimierten Dateien der lz-Algorithmus wahrscheinlich nicht in der Lage sein wird, konstituierende Segmentdaten weiter zu komprimieren, sodass Daten nicht komprimiert werden können, bevor sie auf die Festplatte geschrieben werden.
Als allgemeine Richtlinie führt die Vorkomprimierung/Vorabverschlüsselung zu Folgendem:
Wenn möglich, sollten an einen DDR gesendete Daten nicht verschlüsselt oder komprimiert werden. Dies kann die Deaktivierung der Verschlüsselung oder Komprimierung auf dem Endclient oder innerhalb der entsprechenden Backupanwendung erfordern.
Wenden Sie sich an den entsprechenden Supportanbieter, um Unterstützung bei der Überprüfung, Änderung der Verschlüsselungs- oder Komprimierungseinstellungen innerhalb eines bestimmten Backups, einer Clientanwendung oder eines Betriebssystems zu erhalten.
Mediendateien:
Bestimmte Dateitypen enthalten standardmäßig vorkomprimierte oder vorverschlüsselte Daten. Zum Beispiel:
Dateien mit hoher "Eindeutigkeit":
Das Erreichen eines guten Deduplizierungsverhältnisses hängt davon ab, ob der DDR mehrmals dieselbe Gruppe von Segmenten (und Segment-Fingerabdrücken) sieht. Bestimmte Datentypen enthalten jedoch nur eindeutige Transaktionsdaten, die designweise "eindeutige" Daten enthalten.
Wenn diese Dateien an einen DDR gesendet werden, enthält jede Generation des Backups einen eindeutigen Satz von Segmenten oder Segmentfingerabdrucken und erkennt daher ein herabgesetztes Deduplizierungsverhältnis.
Beispiele für solche Dateien sind:
Kleine Dateien:
Kleine Dateien verursachen verschiedene Probleme beim Schreiben auf einen DDR. Dazu gehören:
Übermäßiges Multiplexing durch Backupanwendungen:
Backupanwendungen können so konfiguriert werden, dass Multiplexing von Daten über Streams hinweg durchgeführt wird, die an das Backupgerät gesendet werden, d. h. Daten aus Eingabestreams (d. h. verschiedene Clients) werden in einem einzigen Stream an das Backupgerät gesendet. Diese Funktion ist in erster Linie beim Schreiben auf physische Bandgeräte wie folgt zu verwenden:
Darüber hinaus kann die Wiederherstellungsleistung schlecht sein, da der DDR viele Dateien oder Container lesen muss, wenn die meisten Daten in den Dateien oder Containern überflüssig sind, da sie sich auf backups anderer Clients beziehen.
Backupanwendungen dürfen beim Schreiben auf einen DDR kein Multiplexing verwenden, da DDRs eine höhere eingehende Streamanzahl als physische Bandgeräte unterstützen, da jeder Stream mit einer variablen Geschwindigkeit schreiben kann. Daher sollte Multiplexing durch Backupanwendungen deaktiviert werden. Wenn die Backupperformance nach dem Deaktivieren von Multiplexing beeinträchtigt wird, gehen Sie wie folgt vor:
Backupanwendungen, die übermäßige Bandmarkierungen einfügen:
Einige Backupanwendungen können wiederholte Datenstrukturen in einen Backupstream einfügen, der als "Marker" bezeichnet wird. Markierungen stellen keine physischen Daten innerhalb des Backups dar, sondern werden stattdessen von der Backupanwendung als Indexierungs- oder Positionssystem verwendet.
Unter bestimmten Umständen kann die Einbeziehung von Markern in einen Backupstream das Deduplizierungsverhältnis beeinträchtigen, z. B.:
Um dieses Problem zu vermeiden, verwendet der DDR eine Marker Recognition-Technologie, die Folgendes ermöglicht:
Um diese Technologie voll auszuschöpfen, ist es jedoch wichtig, dass der DDR die Markierungen, die in Backupstreams eingefügt werden, korrekt erkennen kann. Der DDR sucht nach Markierungen, abhängig von der Einstellung der Option "marker type", z. B.:
SE@DDVE60_JF## filesys option show
Option Value
-------------------------------- --------
...
Markierungstyp automatisch
...
-------------------------------- --------Usualerweise sollte dies auf "auto" eingestellt werden, da dies es dem DDR ermöglicht, automatisch den gängigsten Markierungstypen zu entsprechen. Wenn das System Daten von nur einer Backupanwendung erfasst, die Markierungen einfügt, kann die Angabe eines bestimmten Markierungstyps einen Performancevorteil haben, d. h.:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Beachten Sie Folgendes:
Für Systeme, die Daten aus Anwendungen aufnehmen, die Backupmarkierungen verwenden, aber nicht durch automatisierte Marker-Handling-Technologie (z. B. Produkte von BridgeHead-Software) erkannt werden, wenden Sie sich an Ihren vertraglich vereinbarten Supportanbieter, der dann mit dem Data Domain-Support zusammenarbeiten kann, um die erforderlichen Einstellungen auf dem DDR zu bestimmen, um den nicht standardmäßigen Marker zu erkennen.
Hinweise darauf, dass daten mit schlechter Qualität von einem DDR empfangen werden:
In der folgenden Tabelle sind die erwarteten Deduplizierungs- und Komprimierungsverhältnisse für die verschiedenen oben aufgeführten Datentypen aufgeführt. Diese Liste ist nicht erschöpfend und es kann offensichtlich einige Abweichungen bei den genauen Zahlen geben, die aufgrund von Workloads oder Daten, die vom DDR aufgenommen werden, auf einem bestimmten System zu sehen sind:
Gibt es bestimmte Faktoren auf einem DDR, die sich auf das gesamte Deduplizierungsverhältnis auswirken können?
Ja – Es gibt mehrere Faktoren, die dazu führen können, dass alte/Superflous-Daten auf der Festplatte auf einem DDR aufbewahrt werden, was zu einer Zunahme des postkomprimierten (physischen) Speicherplatzes und einem Rückgang des komprimierten Gesamtverhältnisses führt. Solche Faktoren werden unten besprochen.
Ein Fehler beim regelmäßigen Ausführen der Dateisystembereinigung:
Die Dateisystembereinigung ist die einzige Möglichkeit, alte/Superflous-Daten auf der Festplatte physisch zu entfernen, die nicht mehr von Dateien auf dem DDR referenziert werden. Infolgedessen löscht ein Benutzer möglicherweise mehrere Dateien aus dem System (was zu einem Rückgang der vorkomprimierten Auslastung führt), führt aber nicht bereinigt aus (sodass die postkomprimierte/physische Auslastung hoch bleibt). Dies würde zu einem Rückgang des allgemeinen Komprimierungsverhältnisses führen.
Data Domain empfiehlt, die Bereinigung wie folgt in regelmäßigen Abständen auszuführen:
Übermäßige alte Snapshots auf dem System:
DDRs können MTree-Snapshots erstellen, die den Inhalt eines MTree zu dem Zeitpunkt darstellen, zu dem der Snapshot erstellt wurde. Beachten Sie jedoch, dass das Verlassen alter Snapshots auf einem System zu einer Zunahme der postkomprimierten/physischen Auslastung führen kann, was zu einem Rückgang des gesamten Komprimierungsverhältnisses führt. Zum Beispiel:
Weitere Informationen zum Arbeiten mit Snapshots und Snapshot-Zeitplänen finden Sie im folgenden Artikel: Data Domain – Managen von Snapshot-Zeitplänen
Übermäßige Replikationsverzögerung:
Die native Data Domain-Replikation verwendet entweder ein Replikationsprotokoll oder MTree-Snapshots (je nach Replikationstyp), um nachzuverfolgen, welche Dateien oder Daten eine Replikation auf einen Remote-DDR ausstehen. Replikationsverzögerung ist das Konzept, dass das Replikat änderungen am Quell-DDR hinterherhinkt. Dies kann auf verschiedene Faktoren zurückzuführen sein, darunter:
Wenn DDRs unter hoher Auslastung leiden und dies vermutlich auf Replikationsverzögerungen zurückzuführen ist, wenden Sie sich an Ihren vertraglich vereinbarten Supportanbieter, um weitere Unterstützung zu erhalten.
Gibt es Konfigurationsänderungen oder bestimmte Faktoren auf einem DDR, die das Komprimierungsverhältnis insgesamt erhöhen können?
Ja– Das Entfernen oder Beheben der zuvor in diesem Dokument besprochenen Probleme sollte es einem DDR ermöglichen, ein verbessertes Komprimierungsverhältnis im Laufe der Zeit anzuzeigen. Es gibt auch verschiedene Faktoren oder Arbeitslasten auf einem DDR, die zu einer Steigerung der Deduplizierungsrate führen können. Dazu gehören in der Regel:
Standardmäßig komprimieren DDRs Daten, die mit dem lz-Algorithmus auf die Festplatte geschrieben werden. Wie bereits erwähnt, wird lz verwendet, da es relativ geringe Overheads in Bezug auf die CPU aufweist, die für die Komprimierung oder Dekomprimierung erforderlich sind, aber eine angemessene Effektivität bei der Reduzierung der Datengröße zeigt.
Es ist möglich, die Aggressivität des Komprimierungsalgorithmus zu erhöhen, um weitere Einsparungen bei der postkomprimierten oder Festplattenauslastung zu erzielen (und damit das Komprimierungsverhältnis insgesamt zu verbessern). Unterstützte Komprimierungsalgorithmen in der Reihenfolge der Effektivität (von niedrig bis hoch) lauten wie folgt:
Gemäß der obigen Tabelle gilt: Je aggressiver der Komprimierungsalgorithmus ist, desto mehr CPU ist während der Komprimierung oder Dekomprimierung von Daten erforderlich. Aus diesem Grund sollten Änderungen an einem aggressiveren Algorithmus nur auf Systemen vorgenommen werden, die bei normaler Workload leicht geladen sind. Das Ändern des Algorithmus auf stark ausgelasteten Systemen kann zu einer extremen Verschlechterung der Backup- oder Wiederherstellungsleistung und möglichen Dateisystem-Paniken oder Neustarts führen (was zu einem Ausfall des DDR führt).
Weitere Informationen zum Ändern des Komprimierungstyps finden Sie im folgenden Artikel: Auswirkungen der Konvertierung in GZ-Komprimierung
auf das Data Domain-System und die BereinigungsleistungAufgrund der potenziellen Auswirkungen einer Änderung des Komprimierungsalgorithmus wird empfohlen, dass Kunden, die dies tun möchten, sich an ihren vertraglich vereinbarten Supportanbieter wenden, um die Änderung weiter zu besprechen, bevor sie fortfahren.
Verwendung von file system fastcopy:
DDRs ermöglichen die Verwendung des Befehls "file system fastcopy", um schnell eine Datei (oder Verzeichnisstruktur) zu kopieren. Diese Funktion erstellt eine Datei durch Klonen der Metadaten einer vorhandenen Datei (oder Einer Gruppe von Dateien), sodass die neuen Dateien zwar nicht physisch mit der ursprünglichen Datei verbunden sind, aber genau dieselben Daten auf der Festplatte wie die ursprüngliche Datei referenzieren. Das bedeutet, dass die neue Datei unabhängig von der Größe der ursprünglichen Datei wenig Speicherplatz auf der Festplatte belegt (da sie perfekt mit vorhandenen Daten dedupliziert wird).
Das Ergebnis dieses Verhaltens ist, dass bei Verwendung von File System Fastcopy die vorkomprimierte (logische) Größe der Daten auf dem DDR schnell zunimmt, die postkomprimierte/physische Auslastung des DDR jedoch statisch bleibt.
Der folgende DDR verfügt beispielsweise über eine Auslastung wie folgt (was das Komprimierungsverhältnis von ~1,8x angibt):
Aktiver Tier:
Ressourcengröße GiB Verwendete GiB GiB Nutzung% Bereinigungsfähige GiB*
---------------- -------- -------- --------- ---- --------------
/Daten: pre-comp - 12.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
It enthält eine große Datei (/data/col1/backup/testfile):
!!! DDVE60_JF Ihre Daten in Gefahr !!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root root 3221225472 Jul 29 04:20 /data/col1/backup/testfile
Die Datei wird mehrmals schnell kopiert:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data/. col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
Dies führt dazu, dass die vorkomprimierte Auslastung für geringe Änderungen an der postkomprimierten Auslastung zunimmt:
aktiver Tier:
Ressourcengröße GiB Verwendete GiB GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/Data: pre-comp - 21.0 - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45,6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
Als Ergebnis zeigt der DDR jetzt ein Komprimierungsverhältnis von ca. 3,1x an.
Wie oben erwähnt, zeigen die Komprimierungsstatistiken der Kopien, dass sie perfekt dedupliziert werden:
sysadmin@DDVE60_JF# filesys zeigen Komprimierung /data/col1/backup/testfile_copy1
Gesamtdateien: 1; Byte/storage_used: 21331976.1
Ursprüngliche Byte: 3.242.460.364
Global komprimiert: 0
Lokal komprimiert: 0
Metadaten: 152
Die Fastcopy-Funktion kann nicht verwendet werden, um das Komprimierungsverhältnis insgesamt zu verbessern, indem die physische Auslastung des DDR reduziert wird. Dies kann jedoch die Ursache für ein hohes allgemeines Komprimierungsverhältnis sein (insbesondere in Umgebungen, in denen fastcopy wie Avamar 6.x umfassend verwendet wird).
- Die Backupanwendung sendet Daten (d. h. Dateien) an den DDR.
- Der DDR teilt diese Dateien in Blöcke mit einer Größe von 4 bis 12 KB auf – jeder Block wird als "Segment" betrachtet.
- Der DDR erzeugt je nach den im Segment enthaltenen Daten einen eindeutigen "Fingerabdruck" (ähnlich einer Prüfsumme) für jedes Segment.
- Die Fingerabdrücke der neu eingetroffenen Segmente werden in Festplattenindizes auf dem DDR abgehakt, um festzustellen, ob der DDR bereits ein Segment mit demselben Fingerabdruck enthält.
- Wenn der DDR bereits ein Segment mit demselben Fingerabdruck enthält, ist das entsprechende Segment in den neu eingetroffenen Daten ein Duplikat und kann gelöscht werden (d. h. dedupliziert).
- Sobald alle doppelten Segmente aus den neu eingetroffenen Daten entfernt wurden, bleiben nur eindeutige oder neue Segmente erhalten.
- Diese eindeutigen oder neuen Segmente werden in 128 KB "Komprimierungsbereiche" gruppiert und dann komprimiert (standardmäßig mit dem lz-Algorithmus ).
- Komprimierte Komprimierungsregionen werden in 4,5-Mb-Speichereinheiten komprimiert, die als "Container" bezeichnet werden und dann auf die Festplatte geschrieben werden.
Neben der Deduplizierung/Komprimierung neu eingetroffener Daten erstellt der DDR auch eine "Segmentstruktur" für jede aufgenommene Datei. Dies ist im Wesentlichen eine Liste der Segment-"Fingerabdrücke", aus denen diese Datei besteht. Wenn der DDR die Datei später wieder lesen muss, wird Folgendes ausgeführt:
- Bestimmen Sie den Speicherort der Dateisegmentstruktur.
- Lesen Sie die Segmentstruktur, um eine Liste aller Segmentfingerabdrücke zu erhalten, die den Bereich der zu lesenden Datei bilden.
- Verwenden Sie in Festplattenindizes, um den physischen Speicherort (d. h. Container) der Daten auf der Festplatte zu bestimmen.
- Lesen Sie die physischen Segmentdaten aus den zugrunde liegenden Containern auf der Festplatte.
- Verwenden Sie physische Segmentdaten, um die Datei zu rekonstruieren.
Wie kann das allgemeine Komprimierungsverhältnis auf einem DDR ermittelt werden?
Die Gesamtauslastung eines DDR (und Komprimierungsverhältnis) kann mit dem Befehl "filesys show space" angezeigt werden. Beispiel:
Aktiver Tier:
Ressourcengröße GiB Verwendet GiB Nutzung GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/Data: pre-comp - 115367.8 - -
/data: post-comp 6794 0,2 6242,4 551,8 92 % 202,5
/ddvar 49,2 9,1 37,6 20 % –
---------------- -------- -------- --------- ---- -------------- In diesem Fall sehen wir Folgendes:
- Vorkomprimierte oder logische Daten, die auf DDR gespeichert sind: 115367,8 Gb
- Postkomprimierte oder physischer Speicherplatz, der auf DDR verwendet wird: 6242,4 GB
- Das Gesamtkomprimierungsverhältnis beträgt 115367,8 / 6242,4 = 18,48 x
Pre-Comp Post-Comp Global-Comp Local-Comp Total-Comp
(GiB) (GiB) Factor Factor Factor
(Reduction %)
---------------- -------- --------- ----------- ---------- -------------
Currently Used:* 115367.8 6242.4 – 18,5 x (94,6) <– HINWEIS
geschrieben:
Letzte 7 Tage 42214,7 1863,2 11,0 x 2,1 x 22,7 x (95,6)
Die letzten 24 Stunden 4924,8 274,0 8,8 x 2,0 x 18,0 x (94,4)
---------------- -------- --------- ----------- ---------- -------------
Overall-Auslastungszahlen auf dem DDR werden wie folgt berechnet:
- Insgesamt vorkomprimierte Daten: Die Summe der vorkomprimierten (logischen) Größe aller Dateien, die vom DDR aufbewahrt werden.
- Gesamtanzahl der postkomprimierten Daten: Die Anzahl der verwendeten Container auf der Festplatte multipliziert mit 4,5 Mb (die Größe eines einzigen Containers).
- Postkomprimierte Gesamtgröße: Die Anzahl der maximalen "Container", die erstellt werden, wenn der verfügbare Speicherplatz auf dem System angegeben wird.
Container-Set 73fcwolledea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <== Containergröße in Byte
...
attrs.max_containers = 1546057 <== Maximal mögliche Container
attrs.free_containers = 125562 <== Derzeit freie Container
attrs.used_containers = 1420495 <== Derzeit in Verwendung von Containern
...
Sehen Sie sich Folgendes an:
Postcomp size = 1546057 * 4718592 / 1024 / 1024 / 1024 = 6794,2 GB
Postcomp used = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242,4 Gb
Postcomp used = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242,4 Gb
Wie können Deduplizierungs- und Komprimierungsverhältnisse für eine einzelne Datei, ein Einzelnes Verzeichnis oder eine Verzeichnisstruktur ermittelt werden?
Wenn eine Datei aufgenommen wird, erfasst der DDR Statistiken über die Datei, einschließlich:
- Vorkomprimierte (logische) Byte
- Größe der eindeutigen Segmente nach deduplizierung
- Größe der eindeutigen Segmente nach Deduplizierung und Komprimierung
- Größe der Metadaten der Datei (d. h. Segmentstruktur usw.)
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files: 1; Byte/storage_used: 2.9
Ursprüngliche Byte: 3.242.460.364
Global komprimiert: 1.113.584.070
lokal komprimiert: 1.130.871.915
Metadaten: 4.772.672
So melden Sie Statistiken für eine gesamte Verzeichnisstruktur:
SE@DDVE60_JF## filesys show compression /data/col1/backup
Total files: 3; Byte/storage_used: 1.4
Ursprüngliche Byte: 7.554.284.280
global komprimiert: 5.425.407.986
lokal komprimiert: 5.510.685.100
Metadaten: 23.263.692
Beachten Sie jedoch, dass es bei der Verwendung dieser Statistiken einige Einschränkungen gibt:
- Die Statistiken werden zum Zeitpunkt der Datei- oder Datenaufnahme erzeugt und danach nicht aktualisiert. Aufgrund der Funktionsweise eines DDR kann die Aufnahme neuer Dateien oder das Löschen von Dateien, die auf dieselben Daten verweisen usw. ändern, wie eine Datei im Laufe der Zeit dedupliziert wird, was dazu führt, dass diese Statistiken veraltet werden.
- Darüber hinaus können bestimmte Anwendungsfälle auf dem DDR (z. B. fastcopy einer Datei und anschließendes Löschen der ursprünglichen Datei) dazu führen, dass diese Statistiken irreführend oder falsch werden.
Die vorkomprimierten Bytes entsprechen nicht unbedingt der vorkomprimierten/logischen Größe der Datei. Stattdessen handelt es sich um die Gesamtzahl der Byte, die in ihrer Lebensdauer in eine Datei geschrieben wurden. Daher werden in bestimmten Umgebungen vorhandene Dateien häufig überschrieben (z. B. solche, die funktionen der virtuellen Bandbibliothek verwenden), diese Abbildung kann größer sein als die logische Größe der entsprechenden Dateien.
Kann die Aufnahme von Daten mit "schlechter Qualität" zu einer Verschlechterung des allgemeinen Komprimierungsverhältnisses führen?
Ja – Damit ein DDR ein gutes Komprimierungsverhältnis der aufgenommenen Daten erreichen kann, muss er diese Daten deduplizieren und komprimieren können. Es gibt verschiedene Arten von Daten, die dies verhindern können, wie unten beschrieben:
Vorkomprimierte/vorverschlüsselte Daten:
Dies sind Datentypen, die entweder auf dem Clientsystem oder durch die Backupanwendung komprimiert oder verschlüsselt werden. Dies kann auch anwendungsspezifische Dateien umfassen, die per Design komprimiert oder verschlüsselt werden (z. B. Mediendateien) und Datenbankdateien, die entweder komprimiert oder verschlüsselt sind oder binäre Objekte wie Mediendateien einbetten.
Aufgrund der Art und Weise, wie der Komprimierungs- oder Verschlüsselungsalgorithmus eine relativ kleine Änderung an den zugrunde liegenden Daten einer Datei verwendet, führt dies dazu, dass Änderungen in der gesamten Datei "ankniffen". Ein Client kann beispielsweise eine 100 Mb verschlüsselte Datei enthalten, in der 10 KB geändert werden. Normalerweise wäre die resultierende Datei vor und nach der Änderung identisch, abgesehen vom 10-KB-Abschnitt, der sich geändert hat. Wenn die Verschlüsselung verwendet wird, obwohl sich vor und nach der Änderung nur 10 KB unverschlüsselter Daten geändert haben, führt der Verschlüsselungsalgorithmus dazu, dass sich der gesamte Inhalt der Datei ändert.
Wenn solche Daten regelmäßig geändert und regelmäßig an einen DDR gesendet werden, führt dieser "Welleneffekt" dazu, dass jede Generation der Datei anders als frühere Generationen derselben Datei aussieht. Daher enthält jede Generation einen eindeutigen Satz von Segmenten (und Segmentfingerabdrücke), sodass ein schlechtes Deduplizierungsverhältnis angezeigt wird.
Beachten Sie auch, dass anstelle von vorkomprimierten Dateien der lz-Algorithmus wahrscheinlich nicht in der Lage sein wird, konstituierende Segmentdaten weiter zu komprimieren, sodass Daten nicht komprimiert werden können, bevor sie auf die Festplatte geschrieben werden.
Als allgemeine Richtlinie führt die Vorkomprimierung/Vorabverschlüsselung zu Folgendem:
- Vorverschlüsselte Daten: Schlechtes Deduplizierungsverhältnis, aber akzeptables Komprimierungsverhältnis
- Vorkomprimierte Daten: Schlechtes Deduplizierungsverhältnis und schlechtes Komprimierungsverhältnis
Wenn möglich, sollten an einen DDR gesendete Daten nicht verschlüsselt oder komprimiert werden. Dies kann die Deaktivierung der Verschlüsselung oder Komprimierung auf dem Endclient oder innerhalb der entsprechenden Backupanwendung erfordern.
Wenden Sie sich an den entsprechenden Supportanbieter, um Unterstützung bei der Überprüfung, Änderung der Verschlüsselungs- oder Komprimierungseinstellungen innerhalb eines bestimmten Backups, einer Clientanwendung oder eines Betriebssystems zu erhalten.
Mediendateien:
Bestimmte Dateitypen enthalten standardmäßig vorkomprimierte oder vorverschlüsselte Daten. Zum Beispiel:
- PDF-Dateien
- Bestimmte Audiodateien (mp3, wma, ogg usw.)
- Videodateien (avi, mkv usw.)
- Bilddateien (png, bmp, jpeg usw.)
- Anwendungsspezifische Dateien (Microsoft Office, Open Office, Libre Office usw.)
Dateien mit hoher "Eindeutigkeit":
Das Erreichen eines guten Deduplizierungsverhältnisses hängt davon ab, ob der DDR mehrmals dieselbe Gruppe von Segmenten (und Segment-Fingerabdrücken) sieht. Bestimmte Datentypen enthalten jedoch nur eindeutige Transaktionsdaten, die designweise "eindeutige" Daten enthalten.
Wenn diese Dateien an einen DDR gesendet werden, enthält jede Generation des Backups einen eindeutigen Satz von Segmenten oder Segmentfingerabdrucken und erkennt daher ein herabgesetztes Deduplizierungsverhältnis.
Beispiele für solche Dateien sind:
- Datenbanktransaktionsprotokolle (z. B. Oracle-Archivprotokolle).
- Microsoft Exchange-Transaktionsprotokolle
Kleine Dateien:
Kleine Dateien verursachen verschiedene Probleme beim Schreiben auf einen DDR. Dazu gehören:
- Metadatenaufblähung: Der DDR enthält im Vergleich zu physischen Daten eine höhere Menge an Dateimetadaten als erwartet.
- Schlechte Containerauslastung – designmäßig (aufgrund des Data Domain Stream Informed Segment Layout oder der SISL-Architektur – über den Umfang dieses Dokuments hinaus) enthält ein 4,5-Mb-Container auf der Festplatte nur Daten aus einer einzigen Datei. Das Backup einer einzelnen 10-KB-Datei führt beispielsweise dazu, dass mindestens ein vollständiger 4,5-Mb-Container für diese Datei geschrieben wird. Dies kann bedeuten, dass der DDR für solche Dateien deutlich mehr postkomprimierten (physischen) Speicherplatz verwendet als die entsprechende Menge der vorkomprimierten (logischen) daten, die gesichert werden, was wiederum ein negatives Gesamtkomprimierungsverhältnis verursacht.
- Schlechtes Deduplizierungsverhältnis: Dateien, die kleiner als 4 KB sind (die minimale unterstützte Segmentgröße auf einem DDR), bestehen aus einem einzigen Segment, das auf 4 KB gepolstert ist. Solche Segmente werden nicht dedupliziert, sondern direkt auf die Festplatte geschrieben. Dies kann dazu führen, dass der DDR mehrere Kopien desselben Segments (als doppelte Segmente) hält.
- Schlechte Backup-, Wiederherstellungs- oder Bereinigungsperformance – Es gibt große Overheads während des Backups, der Wiederherstellung oder der Bereinigung, wenn von einer Datei zur nächsten verschoben wird (da der Kontext der verwendeten Metadaten gewechselt werden muss).
- Die Auswirkungen auf die Bereinigungsleistung bei verwendung kleiner Dateien wurden durch die Einführung der physischen Bereinigung oder automatischen Speicherbereinigung in DDOS 5.5 und höher bis zu einem gewissen Grad verringert.
- Die Bereinigung versucht, die schlechte Containerauslastung rückgängig zu machen, indem Daten aus Containern mit geringer Auslastung während der Kopierphase in eng gepackte Container aggregiert werden.
- Bereinigung versucht, übermäßige doppelte Segmente während der Kopierphase zu entfernen.
Übermäßiges Multiplexing durch Backupanwendungen:
Backupanwendungen können so konfiguriert werden, dass Multiplexing von Daten über Streams hinweg durchgeführt wird, die an das Backupgerät gesendet werden, d. h. Daten aus Eingabestreams (d. h. verschiedene Clients) werden in einem einzigen Stream an das Backupgerät gesendet. Diese Funktion ist in erster Linie beim Schreiben auf physische Bandgeräte wie folgt zu verwenden:
- Ein physisches Bandgerät kann nur einen einzelnen eingehenden Schreibstream unterstützen.
- Die Backupanwendung muss einen ausreichenden Durchsatz auf dem Bandgerät aufrechterhalten, um zu verhindern, dass Band gestartet, gestoppt oder zurückspulet (auch als "Shoe-Shining" bezeichnet). Dies ist einfacher, wenn der Stream, der zum Bandgerät geht, Daten enthält, die von mehr als einem Client gelesen werden.
Darüber hinaus kann die Wiederherstellungsleistung schlecht sein, da der DDR viele Dateien oder Container lesen muss, wenn die meisten Daten in den Dateien oder Containern überflüssig sind, da sie sich auf backups anderer Clients beziehen.
Backupanwendungen dürfen beim Schreiben auf einen DDR kein Multiplexing verwenden, da DDRs eine höhere eingehende Streamanzahl als physische Bandgeräte unterstützen, da jeder Stream mit einer variablen Geschwindigkeit schreiben kann. Daher sollte Multiplexing durch Backupanwendungen deaktiviert werden. Wenn die Backupperformance nach dem Deaktivieren von Multiplexing beeinträchtigt wird, gehen Sie wie folgt vor:
- Bei Backupanwendungen mit CIFS, NFS oder OST (DDBoost) sollte die Anzahl der Schreibstreams erhöht werden (sodass mehr Dateien parallel auf dem DDR geschrieben werden können).
- Umgebungen, die VTL verwenden, sollten dem DDR zusätzliche Laufwerke hinzufügen, da jedes Laufwerk die Unterstützung eines zusätzlichen parallelen Schreibstreams ermöglicht.
Backupanwendungen, die übermäßige Bandmarkierungen einfügen:
Einige Backupanwendungen können wiederholte Datenstrukturen in einen Backupstream einfügen, der als "Marker" bezeichnet wird. Markierungen stellen keine physischen Daten innerhalb des Backups dar, sondern werden stattdessen von der Backupanwendung als Indexierungs- oder Positionssystem verwendet.
Unter bestimmten Umständen kann die Einbeziehung von Markern in einen Backupstream das Deduplizierungsverhältnis beeinträchtigen, z. B.:
- In der ersten Generation eines Backups gab es 12 KB Daten, die zusammenhängend waren. Dies wurde vom DDR als ein einziges Segment erkannt.
- In der zweiten Generation des Backups werden jedoch dieselben 12 KB an Daten durch die Einbeziehung einer Backupmarkierung aufgeteilt, die durch 6 KB Daten, Backupmarkierung und 6 KB Daten dargestellt werden kann.
- Daher stimmen die Segmente, die während der zweiten Generation des Backups erstellt werden, nicht mit denen überein, die während der ersten Generation des Backups erzeugt wurden. Daher werden sie nicht ordnungsgemäß dedupliziert.
Um dieses Problem zu vermeiden, verwendet der DDR eine Marker Recognition-Technologie, die Folgendes ermöglicht:
- Backupmarkierungen, die während der Aufnahme des Backups transparent aus dem Backupstream entfernt werden.
- Backupmarkierungen, die während der Wiederherstellung des Backups wieder in den Backupstream eingefügt werden
Um diese Technologie voll auszuschöpfen, ist es jedoch wichtig, dass der DDR die Markierungen, die in Backupstreams eingefügt werden, korrekt erkennen kann. Der DDR sucht nach Markierungen, abhängig von der Einstellung der Option "marker type", z. B.:
SE@DDVE60_JF## filesys option show
Option Value
-------------------------------- --------
...
Markierungstyp automatisch
...
-------------------------------- --------Usualerweise sollte dies auf "auto" eingestellt werden, da dies es dem DDR ermöglicht, automatisch den gängigsten Markierungstypen zu entsprechen. Wenn das System Daten von nur einer Backupanwendung erfasst, die Markierungen einfügt, kann die Angabe eines bestimmten Markierungstyps einen Performancevorteil haben, d. h.:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
Beachten Sie Folgendes:
- Jeder Vorteil der Performance durch die Auswahl eines bestimmten Markierungstyps ist wahrscheinlich minimal.
- Die Auswahl eines falschen Markierungstyps kann zu einer erheblichen zusätzlichen Verschlechterung der Backup- oder Wiederherstellungsperformance und des Deduplizierungsverhältnisses führen.
Für Systeme, die Daten aus Anwendungen aufnehmen, die Backupmarkierungen verwenden, aber nicht durch automatisierte Marker-Handling-Technologie (z. B. Produkte von BridgeHead-Software) erkannt werden, wenden Sie sich an Ihren vertraglich vereinbarten Supportanbieter, der dann mit dem Data Domain-Support zusammenarbeiten kann, um die erforderlichen Einstellungen auf dem DDR zu bestimmen, um den nicht standardmäßigen Marker zu erkennen.
Hinweise darauf, dass daten mit schlechter Qualität von einem DDR empfangen werden:
In der folgenden Tabelle sind die erwarteten Deduplizierungs- und Komprimierungsverhältnisse für die verschiedenen oben aufgeführten Datentypen aufgeführt. Diese Liste ist nicht erschöpfend und es kann offensichtlich einige Abweichungen bei den genauen Zahlen geben, die aufgrund von Workloads oder Daten, die vom DDR aufgenommen werden, auf einem bestimmten System zu sehen sind:
| Globale Komprimierung | Lokale Komprimierung | Wahrscheinliche Ursache |
| Niedrig (x 1 bis 4) | Niedrig (x 1 bis 1,5) | Vorkomprimierte oder verschlüsselte Daten |
| Niedrig (x 1 bis 2) | Hoch (>x 2) | Eindeutige, aber komprimierbare Daten, z. B. Datenbankarchivprotokolle |
| Niedrig (x 2 bis 5) | Hoch (>x 1,5) | Markierungen, die nicht erkannt werden, oder eine hohe Datenänderungsrate oder Stream-Multiplexing. |
| Hoch (>10x) | Niedrig (<x 1,5) | Backups derselben komprimierten oder verschlüsselten Daten. Das ist ungewöhnlich. |
Gibt es bestimmte Faktoren auf einem DDR, die sich auf das gesamte Deduplizierungsverhältnis auswirken können?
Ja – Es gibt mehrere Faktoren, die dazu führen können, dass alte/Superflous-Daten auf der Festplatte auf einem DDR aufbewahrt werden, was zu einer Zunahme des postkomprimierten (physischen) Speicherplatzes und einem Rückgang des komprimierten Gesamtverhältnisses führt. Solche Faktoren werden unten besprochen.
Ein Fehler beim regelmäßigen Ausführen der Dateisystembereinigung:
Die Dateisystembereinigung ist die einzige Möglichkeit, alte/Superflous-Daten auf der Festplatte physisch zu entfernen, die nicht mehr von Dateien auf dem DDR referenziert werden. Infolgedessen löscht ein Benutzer möglicherweise mehrere Dateien aus dem System (was zu einem Rückgang der vorkomprimierten Auslastung führt), führt aber nicht bereinigt aus (sodass die postkomprimierte/physische Auslastung hoch bleibt). Dies würde zu einem Rückgang des allgemeinen Komprimierungsverhältnisses führen.
Data Domain empfiehlt, die Bereinigung wie folgt in regelmäßigen Abständen auszuführen:
- Normaler DDR: Einmal pro Woche
- DDR mit erweiterter Aufbewahrung: Einmal alle zwei Wochen
Übermäßige alte Snapshots auf dem System:
DDRs können MTree-Snapshots erstellen, die den Inhalt eines MTree zu dem Zeitpunkt darstellen, zu dem der Snapshot erstellt wurde. Beachten Sie jedoch, dass das Verlassen alter Snapshots auf einem System zu einer Zunahme der postkomprimierten/physischen Auslastung führen kann, was zu einem Rückgang des gesamten Komprimierungsverhältnisses führt. Zum Beispiel:
- Ein MTree enthält viele Dateien (daher ist die vorkomprimierte Auslastung hoch).
- Ein Snapshot des MTree wird erstellt.
- Viele Dateien werden gelöscht (was dazu führt, dass die vorkomprimierte Auslastung abfällt).
- Dateisystembereinigung wird ausgeführt. Beachten Sie jedoch, dass nur minimaler Festplattenspeicherplatz freigegeben wird, da eine Kopie der gelöschten Dateien im MTree-Snapshot verbleibt, was bedeutet, dass daten, die von diesen Dateien referenziert werden, nicht von der Festplatte entfernt werden können.
- Infolgedessen bleibt die postkomprimierte/physische Auslastung hoch.
Weitere Informationen zum Arbeiten mit Snapshots und Snapshot-Zeitplänen finden Sie im folgenden Artikel: Data Domain – Managen von Snapshot-Zeitplänen
Übermäßige Replikationsverzögerung:
Die native Data Domain-Replikation verwendet entweder ein Replikationsprotokoll oder MTree-Snapshots (je nach Replikationstyp), um nachzuverfolgen, welche Dateien oder Daten eine Replikation auf einen Remote-DDR ausstehen. Replikationsverzögerung ist das Konzept, dass das Replikat änderungen am Quell-DDR hinterherhinkt. Dies kann auf verschiedene Faktoren zurückzuführen sein, darunter:
- Deaktivierte Replikationskontexte
- Unzureichende Netzwerkbandbreite zwischen DDRs
- Häufige Netzwerktrennung.
Wenn DDRs unter hoher Auslastung leiden und dies vermutlich auf Replikationsverzögerungen zurückzuführen ist, wenden Sie sich an Ihren vertraglich vereinbarten Supportanbieter, um weitere Unterstützung zu erhalten.
Gibt es Konfigurationsänderungen oder bestimmte Faktoren auf einem DDR, die das Komprimierungsverhältnis insgesamt erhöhen können?
Ja– Das Entfernen oder Beheben der zuvor in diesem Dokument besprochenen Probleme sollte es einem DDR ermöglichen, ein verbessertes Komprimierungsverhältnis im Laufe der Zeit anzuzeigen. Es gibt auch verschiedene Faktoren oder Arbeitslasten auf einem DDR, die zu einer Steigerung der Deduplizierungsrate führen können. Dazu gehören in der Regel:
- Reduzierung des Festplattenspeicherplatzes, der von Dateien auf dem DDR verwendet wird (z. B. Erhöhung der Aggressivität des komprimierungsalgorithmus, der vom DDR verwendet wird)
- Plötzliches Erhöhen der Menge der vorkomprimierten (logischen) Daten auf dem DDR ohne eine entsprechende Steigerung der postkomprimierten/physischen Auslastung
Standardmäßig komprimieren DDRs Daten, die mit dem lz-Algorithmus auf die Festplatte geschrieben werden. Wie bereits erwähnt, wird lz verwendet, da es relativ geringe Overheads in Bezug auf die CPU aufweist, die für die Komprimierung oder Dekomprimierung erforderlich sind, aber eine angemessene Effektivität bei der Reduzierung der Datengröße zeigt.
Es ist möglich, die Aggressivität des Komprimierungsalgorithmus zu erhöhen, um weitere Einsparungen bei der postkomprimierten oder Festplattenauslastung zu erzielen (und damit das Komprimierungsverhältnis insgesamt zu verbessern). Unterstützte Komprimierungsalgorithmen in der Reihenfolge der Effektivität (von niedrig bis hoch) lauten wie folgt:
- Lz
- gzfast
- Gz
- lz im Vergleich zu gzfast bietet ~15 % bessere Komprimierung und verbraucht 2-mal mehr CPU.
- lz im Vergleich zu gz bietet ~30 % bessere Komprimierung und verbraucht 5-mal mehr CPU.
- gzfast im Vergleich zu gz bietet ca. 10 bis 15 % bessere Komprimierung.
Gemäß der obigen Tabelle gilt: Je aggressiver der Komprimierungsalgorithmus ist, desto mehr CPU ist während der Komprimierung oder Dekomprimierung von Daten erforderlich. Aus diesem Grund sollten Änderungen an einem aggressiveren Algorithmus nur auf Systemen vorgenommen werden, die bei normaler Workload leicht geladen sind. Das Ändern des Algorithmus auf stark ausgelasteten Systemen kann zu einer extremen Verschlechterung der Backup- oder Wiederherstellungsleistung und möglichen Dateisystem-Paniken oder Neustarts führen (was zu einem Ausfall des DDR führt).
Weitere Informationen zum Ändern des Komprimierungstyps finden Sie im folgenden Artikel: Auswirkungen der Konvertierung in GZ-Komprimierung
auf das Data Domain-System und die BereinigungsleistungAufgrund der potenziellen Auswirkungen einer Änderung des Komprimierungsalgorithmus wird empfohlen, dass Kunden, die dies tun möchten, sich an ihren vertraglich vereinbarten Supportanbieter wenden, um die Änderung weiter zu besprechen, bevor sie fortfahren.
Verwendung von file system fastcopy:
DDRs ermöglichen die Verwendung des Befehls "file system fastcopy", um schnell eine Datei (oder Verzeichnisstruktur) zu kopieren. Diese Funktion erstellt eine Datei durch Klonen der Metadaten einer vorhandenen Datei (oder Einer Gruppe von Dateien), sodass die neuen Dateien zwar nicht physisch mit der ursprünglichen Datei verbunden sind, aber genau dieselben Daten auf der Festplatte wie die ursprüngliche Datei referenzieren. Das bedeutet, dass die neue Datei unabhängig von der Größe der ursprünglichen Datei wenig Speicherplatz auf der Festplatte belegt (da sie perfekt mit vorhandenen Daten dedupliziert wird).
Das Ergebnis dieses Verhaltens ist, dass bei Verwendung von File System Fastcopy die vorkomprimierte (logische) Größe der Daten auf dem DDR schnell zunimmt, die postkomprimierte/physische Auslastung des DDR jedoch statisch bleibt.
Der folgende DDR verfügt beispielsweise über eine Auslastung wie folgt (was das Komprimierungsverhältnis von ~1,8x angibt):
Aktiver Tier:
Ressourcengröße GiB Verwendete GiB GiB Nutzung% Bereinigungsfähige GiB*
---------------- -------- -------- --------- ---- --------------
/Daten: pre-comp - 12.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
It enthält eine große Datei (/data/col1/backup/testfile):
!!! DDVE60_JF Ihre Daten in Gefahr !!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root root 3221225472 Jul 29 04:20 /data/col1/backup/testfile
Die Datei wird mehrmals schnell kopiert:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data/. col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
Dies führt dazu, dass die vorkomprimierte Auslastung für geringe Änderungen an der postkomprimierten Auslastung zunimmt:
aktiver Tier:
Ressourcengröße GiB Verwendete GiB GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/Data: pre-comp - 21.0 - - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45,6 2 % -
/ddvar/core 158.5 0.2 150.2 0 % -
---------------- -------- -------- --------- ---- --------------
Als Ergebnis zeigt der DDR jetzt ein Komprimierungsverhältnis von ca. 3,1x an.
Wie oben erwähnt, zeigen die Komprimierungsstatistiken der Kopien, dass sie perfekt dedupliziert werden:
sysadmin@DDVE60_JF# filesys zeigen Komprimierung /data/col1/backup/testfile_copy1
Gesamtdateien: 1; Byte/storage_used: 21331976.1
Ursprüngliche Byte: 3.242.460.364
Global komprimiert: 0
Lokal komprimiert: 0
Metadaten: 152
Die Fastcopy-Funktion kann nicht verwendet werden, um das Komprimierungsverhältnis insgesamt zu verbessern, indem die physische Auslastung des DDR reduziert wird. Dies kann jedoch die Ursache für ein hohes allgemeines Komprimierungsverhältnis sein (insbesondere in Umgebungen, in denen fastcopy wie Avamar 6.x umfassend verwendet wird).
Affected Products
Data DomainProducts
Data DomainArticle Properties
Article Number: 000064270
Article Type: Solution
Last Modified: 16 Dec 2024
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.