Data Domain:压缩常见问题
摘要: 本文回答了有关压缩的最常见问题。Data Domain 与数据类型无关。Data Domain 使用的压缩算法仅备份唯一数据 — 重复模式或多个备份仅存储一次。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
说明
目录
数周的每日和增量备份的典型压缩比为 20:1。数据类型会影响压缩比 - 压缩的图像文件、数据库和压缩档案(如.zip文件)不能很好地压缩。
增量备份和完整备份是否使用相同的磁盘空间?
理想情况下是的。在实践中,由于以下原因,完整备份使用的空间比增量备份多一点。这些原因也解释了为什么在没有更改数据后进行完整备份仍会占用大量空间。
- 元数据大约占用备份逻辑大小的 0.5%。假设:
- 完整备份的逻辑大小为 100 GB
- 增量数据的逻辑大小为 2 GB
- 增量压缩为 1 GB
- ...则完整备份至少需要 1.5 GB
- DD 压缩引擎会重写一些重复的数据段以提高性能。更改的数据局部性越差,写入的重复数据就越多。文件系统垃圾数据收集 (GC) 稍后会回收重复项。在某些情况下,大约 2% 的逻辑大小被重写为重复大小。假设此重复级别,完整备份可能需要 1 GB(压缩)+ 0.5 GB(元数据)+ 2 GB(重复项)= 3.5 GB。写入的重复数据量可以通过系统参数来控制,但在实际应用中,我们一般不会调整此参数。
- 不同备份的数据分段可能略有不同,具体取决于 NFS 客户端发送数据的顺序。此顺序不具有确定性。通常,分割算法可容忍移位和重新排序。但是,它也会产生一些“强制”段,这些段容易发生移位和重新排序。通常大约 0.2% 的段是强制的,因此可以预期更多的空间使用量。
为什么'filesys show space' 和 'filesys show compression' 显示不同的数字?
- '
filesys show space' 根据存储的数据的逻辑大小和运行命令时使用的磁盘空间提供压缩比。 - '
filesys show compression' 根据每个文件在创建时的压缩方式提供压缩比。 - '
filesys show compression“主要用于支持和调试。在存在文件删除的情况下,'filesys show compression' 高估了压缩比。
例如,假设:
- 第一个完整备份获得 2 倍压缩
- 不进行任何数据更改的后续完整备份将获得 200 倍压缩
- 第一个完整备份将被删除
“的输出
filesys show space“将显示 2 倍的压缩比,而”filesys show compression“将显示 200 倍的压缩比,因为现在存在的唯一文件在创建时的压缩比为 200 倍。
在上面的示例中,在第二次备份后,'
filesys show space“将显示大约 4 倍的累积比率。如果继续使用更多备份而不删除,则累积比率会渐近地提高到 200 倍。
还有其他一些细微的差异。这 '
filesys show compression' 命令:
- 不考虑容器级浪费,因而进一步高估了压缩比
- 不考虑全局压缩的重复消除,因此低估了压缩比
- 可以按文件或按目录提供信息,而”
filesys show space“仅限于整个系统 - 提供全局压缩和本地压缩之间的细分,同时”
filesys show space' 不
为什么'filesys show compression last 24 hours“不符合对 VTL 的期望?
对于 VTL,诸如“”
filesys show compression last 24 hours“通常不能满足基于其他来源的预期,例如”system show performance'.
出现此问题的原因是”
filesys show compression'.通常,它显示所选文件中的累积统计信息。限定符“last 24 hours”选择过去 24 小时内更新的文件。统计信息仍为自文件创建或上次截断为零大小以来的累积数据。因此,如果在过去 24 小时内附加了文件,则filesys show compression last 24 hours“显示过去 24 小时之前的累计统计信息。
非 VTL 环境中的备份文件仅写入一次,因此更新的文件与创建的文件之间几乎没有差异。使用 VTL 时,备份可以附加到现有磁带文件。例如,假设有一个 100 GB 的磁带填充到 50 GB。如果在过去 24 小时内有 10 GB 的数据附加到此磁带,则'
filesys show compression last 24 hours“将显示以 60 GB 写入的文件”原始字节”。
如何计算累积压缩比?
各个压缩比不是线性累加的。
假设第一个完整备份上的压缩是 2 倍,第二个完整备份上的压缩是 20 倍。累积压缩不是
(2 + 20) / 2 = 11x但 2 / (1/2 + 1/20) = 3.64x。
通常,较低的压缩比比较高的压缩比对累积压缩比的影响更大。
假设
ith 备份具有逻辑大小 si 和压缩比 ci。然后,累积压缩比 k 备份可以按如下方式计算:
C = (total logical size)/(total space used)
total logical size = s1 + s2 + .. + sk
total space used = s1/c1 + s2/c2 + ... + sk/ck
通常,逻辑大小大致相同。在这种情况下,上述计算简化为:
C = k / (1/c1 + 1/c2 + ... + 1/ck)
例如,如果:
- 第一个完整备份的压缩率为 3 倍
- 每个后续完整备份都将获得 30 倍压缩
- 保留期为 30 天
用户看到 30 / (1/3 + 29/30)或 23 倍。
Data Domain 压缩的工作原理是什么?
这个问题在另一篇文章中有详细回答:了解 Data Domain 压缩
Data Domain 是否支持多路复用?
来自备份应用程序的多路复用数据会导致全局重复数据消除率非常差。有关详细信息,请参阅此文章:Data Domain:备份软件中的多路复用
对于一对一目录复制,为什么副本会显示更好的全局压缩?
这通常是因为系统上写入的重复数据段的级别有所不同:
- 存储在源端的数据已经针对之前存储在源端的数据进行了一次重复数据消除。
- 通过网络发送的数据已针对副本上存储的数据进行一次重复数据消除。
- 存储在副本上的数据经过了两次重复数据消除,一次是通过网络发送数据时,另一次是在接收的数据写入副本时。
由于重复数据消除过程会留下一些重复项,因此经过多次重复数据消除的数据具有较少的重复项。假设存储在源中的数据与副本中的数据相似,存储在源中并通过网络发送的数据经过一次重复数据消除,因此它们大致相同。存储在副本中的数据经过两次重复数据消除,因此压缩效果更好。
文件系统清理会删除大部分重复项。因此,在源和副本上运行清理后,存储在这两处的数据量应该大致相同。
使用时压缩有什么变化 lz、 gzfast以及 gz 本地压缩设置?
使用以下命令更改 Data Domain 中使用的本地压缩算法:
filesys option set compression {none | lz | gzfast | gz}
提醒:在更改本地压缩类型之前,必须关闭文件系统。然后,可以在设置压缩选项后立即重新启动它。
通常,压缩顺序如下:
lz < gzfast < gz
| 键入 | 预期的组件 | CPU 负载 |
|---|---|---|
| 无 | 1 倍 | 0x |
| Lz | 2 倍 | 1 倍 |
| gzfast | 2.5 倍 | 2 倍 |
| 广州 | 3 倍 | 5 倍 |
粗略的区别是:
lz to gzfast使压缩率提高 ~15%,占用 2 倍 CPUlz to gz压缩性能提高 ~30%,占用 5 倍 CPUgzfast to gz压缩性能提高 ~10-15%
请注意,更改本地压缩首先会影响在进行更改后写入 Data Domain 的新数据。旧数据将保留其以前的压缩格式,直至下一个清理周期。下一个清理周期将所有旧数据复制转发为新的压缩格式。这会导致清理运行时间更长,占用更多 CPU。
如果系统的 CPU 使用率已经较低,特别是当备份和复制同时运行时,这可能会降低备份和的速度。建议客户明确安排一些时间来执行此转换。
其他信息
受影响的产品
Data Domain产品
Data Domain文章属性
文章编号: 000022100
文章类型: How To
上次修改时间: 24 4月 2026
版本: 12
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。