对 Data Domain Restorer (DDR) 上文件的重复数据消除率和压缩率较差进行故障排除
摘要: 对 Data Domain Restorer (DDR) 上文件的重复数据消除率和压缩率较差进行故障排除
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
Data Domain Restorer (DDR) 旨在使用极少的物理(压缩后)磁盘空间容纳大量逻辑(预压缩)数据。这是通过以下方法实现的:
- 对接收的数据进行重复数据消除,以删除已存储在 DDR 上的磁盘上的重复数据区块,只保留唯一数据
- 在将唯一数据以物理方式写入磁盘之前压缩唯一数据。
- 使用情形
- 正在接收的数据类型
- 备份应用程序配置
- DDR 可快速耗尽其可用容量
- 对备份、恢复或复制性能的影响
- DDR 无法满足客户期望
原因
本文旨在讨论:
- DDR 上重复数据消除和数据压缩的简要概述
- 如何确定系统和单个文件的总体压缩率
- 可能导致整体压缩率下降的因素
解决方案
Data Domain Restorer 如何接收新数据?
除了对新到达的数据进行重复数据消除/压缩外,DDR 还为每个接收的文件构建一个“分段树”。这实质上是构成该文件的数据段“指纹”的列表。如果 DDR 稍后必须重新读取文件,则会:
如何确定 DDR 上的总体压缩率?
可以使用“filesys show space”命令查看 DDR 的总体利用率(和压缩率)。例如:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - -
/data: post-comp 679 4.2 6242.4 551.8 92% 202.5
/ddvar 49.2 9.1 37.6 20% -
---------------- -------- -------- --------- ---- --------------在本例中,我们看到:
压缩前 Comp Global-Comp Local-Comp Total-Comp
(GiB) (GiB) Factor Factor Factor
Factor (Reduction %)
---------------- -------- --------- ----------- ---------- -------------
当前使用:* 115367.8 6242.4 - 18.5x (94.6) <=== 已写入备注
:
过去 7 天 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
过去 24 小时 4924.8 274.0 8.8x 2.0x 18.0x (94.4)
---------------- -------- --------- ----------- ---------- -------------
DDR 上的卸载利用率图的计算方式如下:
Container set 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== 容器大小(以字节
为单位...
attrs.max_containers = 1546057 <=== 最大可能容器
数 attrs.free_containers = 125562 <=== 当前可用容器
attrs.used_containers = 1420495 <=== 当前正在使用的容器
...
请参阅:
如何确定单个文件、目录或目录树的重复数据消除和压缩比率?
接收文件时,DDR 会记录有关文件的统计信息,包括:
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files:1; 字节/storage_used:2.9
原始字节数: 3,242,460,364
全局压缩: 1,113,584,070
本地压缩: 1,130,871,915
元数据: 4,772,672
要报告整个目录树的统计信息:
SE@DDVE60_JF## filesys 显示压缩 /data/col1/backup
Total files:3; 字节/storage_used:1.4
原始字节: 7,554,284,280
全局压缩: 5,425,407,986
本地压缩: 5,510,685,100
元数据: 23,263,692
但是,请注意,使用这些统计信息有一些注意事项:
预压缩字节不一定是文件的预压缩/逻辑大小。而是在其生存期内写入文件的字节总数。因此,在某些环境中,现有文件通常会被覆盖(例如使用虚拟磁带库功能的文件),此图可能大于相应文件的逻辑大小。
接收“质量较差”的数据是否会导致总体压缩率下降?
是 — 要使 DDR 实现接收数据的总体压缩比率良好,它必须能够对这些数据进行重复数据消除和压缩。有各种类型的数据可以阻止这种情况,如下所述:
预压缩/预加密数据:
这些是客户端系统或备份应用程序上压缩或加密的数据类型。这可能还包括按设计进行压缩或加密的特定于应用程序的文件(例如介质文件)和数据库文件,这些文件是压缩、加密或嵌入的二进制对象(例如介质文件)。
由于压缩或加密算法的工作方式,对文件底层数据的更改相对较小,因此会在整个文件中更改为“闩出”。例如,客户端可能保存一个 100 Mb 加密文件,其中修改了 10 Kb。通常情况下,与已更改的 10Kb 部分不同,修改前后生成的文件将完全相同。使用加密时,即使修改前后仅更改了 10 Kb 的未加密数据,加密算法也会导致文件的整个内容发生更改。
当此类数据定期修改并定期发送到 DDR 时,这种“闩出”效应会导致每一代文件看起来不同于前几代同一文件。因此,每一代都包含一组唯一的数据段(和数据段指纹),因此它显示重复数据消除率较差。
另请注意, lz 算法无法进一步压缩构成段数据,因此在写入磁盘之前无法压缩数据,而不是预压缩文件。
作为一般指导准则,预压缩/预加密会导致以下情况:
如果可能,发送到 DDR 的数据不应进行加密或压缩 - 这可能需要在终端客户端或相应的备份应用程序中禁用加密或压缩。
如需帮助检查、修改特定备份、客户端应用程序或操作系统中的加密或压缩设置,请联系相应的支持提供商。
介质文件:
某些文件类型按设计包含预压缩或预加密数据。例如:
具有高“唯一性”的文件:
实现良好的重复数据消除率取决于 DDR 多次看到相同的数据段集(和数据段指纹)。但是,某些数据类型仅包含唯一的事务性数据,根据设计,这些数据包含“唯一”数据。
如果将这些文件发送到 DDR,则每一代备份都包含一组唯一的数据段或数据段指纹,因此会看到降级的重复数据消除率。
此类文件的示例包括:
小型文件:
小文件在写入 DDR 时会导致各种问题。其中包括:
备份应用程序的多路复用:
备份应用程序可以配置为跨发送到备份设备的流执行数据多路复用,即来自输入流(即不同客户端)的数据以单个流方式发送到备份设备。在写入物理磁带设备时,此功能主要用作:
此外,恢复性能可能较差,因为要恢复某些客户端数据,DDR 必须读取许多文件或容器,其中文件或容器中的大多数数据在与其他客户端备份相关时是多余的。
备份应用程序在写入 DDR 时不得使用多路复用,因为 DDR 支持比物理磁带设备更高的传入流计数,并且每个流都能够以可变的速度写入。因此,应禁用备份应用程序的多路复用。如果禁用多路复用后备份性能受到影响,则:
插入过多磁带标记的备份应用程序:
某些备份应用程序可能会将重复的数据结构插入称为“标记”的备份流中。标记不表示备份中的物理数据,而是被备份应用程序用作索引编制或位置系统。
在某些情况下,在备份流中包含标记可能会降低重复数据消除率,例如:
为避免出现此问题,DDR 使用标记识别技术,该技术允许:
但是,为了充分利用此技术,DDR 必须能够正确识别在备份流中插入的标记。DDR 根据“marker type”选项的设置查找标记,例如:
SE@DDVE60_JF## filesys 选项 show
Option Value
-------------------------------- --------
...
Marker-type auto
...
-------------------------------- --------这应该保留为“auto”,因为这允许 DDR 自动匹配最常见的标记类型。如果系统仅从一个备份应用程序接收数据,该应用程序会插入标记,则指定特定标记类型可能会带来性能优势, 即:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
请参阅:
对于从使用备份标记但自动标记处理技术无法识别的应用程序接收数据的系统(例如 BridgeHead 软件中的产品),请联系您的签约支持提供商,后者随后可以与 Data Domain 支持部门合作,确定 DDR 上所需的设置,以检测非标准标记。
DDR 接收到“质量差”数据的迹象:
下表列出了上面列出的不同数据类型的预期重复数据消除率和压缩率。此列表并非详尽无遗,显然,由于 DDR 接收的工作负载或数据,给定系统上显示的确切数字可能会有一些变化:
DDR 上是否有某些因素会影响总体重复数据消除率?
是 - 有几个因素可能会导致旧/超大数据保留在 DDR 上的磁盘上,这会导致压缩后(物理)磁盘空间增加,总体压缩率下降。下面将讨论这些因素。
无法定期运行文件系统清理:
文件系统清理是以物理方式删除磁盘上旧数据/超大数据的唯一方法,DDR 上的文件不再引用这些数据。因此,用户可能会从系统中删除多个文件(导致预压缩利用率下降),但不能运行干净(保持较高的压缩后/物理利用率)。这会导致总体压缩率下降。
Data Domain 建议计划清理以定期运行,如下所示:
系统上的旧快照过多:
DDR 可以创建 mtree 快照,在创建快照时表示 mtree 的内容。但是请注意,将旧快照保留在系统上会导致压缩后/物理利用率增加,从而导致总体压缩率下降。例如:
有关使用快照和快照计划的更多信息,请参阅以下文章:Data Domain — 管理快照计划
复制延迟过大:
本机 Data Domain 复制使用复制日志或 mtree 快照(取决于复制类型)来跟踪哪些文件或数据正在等待复制到远程 DDR。复制滞后是复制副本落后于对源 DDR 的更改的概念。这可能是由于各种因素造成的,包括:
如果 DDR 正遭受高利用率,并且这被认为是由于复制滞后,请联系您的签约支持提供商以获得进一步的帮助。
DDR 上是否有配置更改或某些因素可能会提高总体压缩率?
是 - 删除或解决本文档之前讨论过的问题应允许 DDR 显示随时间推移而提高的总体压缩率。DDR 上还存在各种因素或工作负载,这会导致重复数据消除率提高。这些通常涉及:
默认情况下,DDR 使用 lz 算法压缩写入磁盘的数据。如前所述, lz 用于压缩或解压缩所需的 CPU 开销相对较低,但在减少数据大小方面表现出合理的有效性。
可以提高压缩算法的主动性,以进一步节省压缩后或硬盘驱动器利用率(从而提高总体压缩率)。按有效性顺序(从低到高)支持的压缩算法如下所示:
根据上表,压缩算法越激进,压缩或解压缩期间需要的 CPU 就越多。因此,只有在正常工作负载下轻轻加载的系统上,才应对更具攻击性的算法进行更改。在负载过重的系统上更改算法可能会导致备份或恢复性能严重下降,并可能导致文件系统死机或重新启动(导致 DDR 中断)。
有关更改压缩类型的更多信息,请参阅以下文章:Data Domain 系统和清理转换为 GZ 压缩
对性能的影响由于更改压缩算法的潜在影响,建议有兴趣执行此操作的客户联系其签约支持提供商,以进一步讨论更改,然后再继续。
使用文件系统快速拷贝:
DDR 允许使用“file system fastcopy”命令快速拷贝文件(或目录树)。此功能通过克隆现有文件(或文件组)的元数据来创建文件,以便虽然新文件未物理连接到原始文件,但它们会引用磁盘上与原始文件完全相同的数据。这意味着,无论原始文件的大小如何,新文件在磁盘上占用的空间都很小(因为它对现有数据进行完全重复数据消除)。
此行为的结果是,使用文件系统快速拷贝时,DDR 上的数据的预压缩(逻辑)大小会迅速增加,但 DDR 的压缩后/物理利用率保持不变。
例如,以下 DDR 具有如下利用率(表示总体压缩率约为 1.8 倍):
活动层:
资源大小 GiB 已用 GiB 可用 GiB 使用百分比 可清理 GiB*
---------------- -------- -------- --------- ---- --------------
/数据:预压缩 - 12.0 - - -
/data:压缩后 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
它包含大型文件 (/data/col1/backup/testfile):
!!! DDVE60_JF您的数据处于危险!!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 根 root 3221225472 7 月 29 日 04:20 /data/col1/backup/testfile
文件快速拷贝多次:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /col1/backup/testfile 目标 /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
这会导致压缩前利用率提高,以实现压缩后利用率的很小变化:活动层:
资源大小 GiB 已用 GiB 可用 GiB 使用百分比 可清理 GiB*
---------------- -------- -------- --------- ---- --------------
/数据:预压缩 - 21.0 - - -
/数据:压缩后 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
结果 DDR 现在显示总体压缩率约为 3.1 倍。
如上所述,拷贝的压缩统计信息显示它们完全重复数据消除:
sysadmin@DDVE60_JF# filesys 显示压缩 /data/col1/backup/testfile_copy1
总文件数:1; 字节/storage_used:21331976.1
原始字节: 3,242,460,364
全局压缩: 0
本地压缩: 0
元数据: 152
无法使用快速拷贝功能来通过降低 DDR 的物理利用率来提高总体压缩率,但这可能是总体压缩率高的原因(特别是在广泛使用快速拷贝(如 Avamar 6.x)的环境中)。
- 备份应用程序将数据(即文件)发送到 DDR。
- DDR 将这些文件拆分为大小为 4-12 Kb 的区块 —每个区块都被视为“分段”。
- DDR 会为每个数据段生成唯一的“指纹”(类似于校验和),具体取决于数据段中包含的数据。
- 根据 DDR 上的磁盘索引检查新到达的数据段的指纹,以确定 DDR 是否已保存具有相同指纹的段。
- 如果 DDR 已保存具有相同指纹的分段,则新到达的数据中的对应数据段是重复数据,可以丢弃(重复数据消除)。
- 从新到达的数据中删除所有重复数据段后,仅保留唯一或新数据段。
- 这些唯一或新数据段分组为 128 Kb 的“压缩区域”,然后进行压缩(默认情况下使用 lz 算法)。
- 压缩压缩区域打包到 4.5 Mb 的存储单元中,这些存储单元称为“容器”,然后写入硬盘驱动器。
除了对新到达的数据进行重复数据消除/压缩外,DDR 还为每个接收的文件构建一个“分段树”。这实质上是构成该文件的数据段“指纹”的列表。如果 DDR 稍后必须重新读取文件,则会:
- 确定文件段树的位置。
- 阅读分段树以获取构成要读取的文件区域的所有数据段指纹的列表。
- 使用磁盘指标确定磁盘上数据的物理位置(即容器)。
- 从磁盘上的底层容器读取物理数据段数据。
- 使用物理数据段数据重建文件。
如何确定 DDR 上的总体压缩率?
可以使用“filesys show space”命令查看 DDR 的总体利用率(和压缩率)。例如:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - -
/data: post-comp 679 4.2 6242.4 551.8 92% 202.5
/ddvar 49.2 9.1 37.6 20% -
---------------- -------- -------- --------- ---- --------------在本例中,我们看到:
- 保留在 DDR 上的预压缩或逻辑数据:115367.8 Gb
- DDR 上使用的压缩后或物理空间:6242.4 Gb
- 总体压缩比率为 115367.8/6242.4 = 18.48 倍
压缩前 Comp Global-Comp Local-Comp Total-Comp
(GiB) (GiB) Factor Factor Factor
Factor (Reduction %)
---------------- -------- --------- ----------- ---------- -------------
当前使用:* 115367.8 6242.4 - 18.5x (94.6) <=== 已写入备注
:
过去 7 天 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
过去 24 小时 4924.8 274.0 8.8x 2.0x 18.0x (94.4)
---------------- -------- --------- ----------- ---------- -------------
DDR 上的卸载利用率图的计算方式如下:
- 预压缩数据总数:DDR 保存的所有文件的预压缩(逻辑)大小的总和。
- 压缩后数据总数:磁盘上正在使用的“容器”数量乘以 4.5 Mb(单个容器的大小)。
- 压缩后的总大小:在系统上为可用磁盘空间创建的最大“容器”数。
Container set 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== 容器大小(以字节
为单位...
attrs.max_containers = 1546057 <=== 最大可能容器
数 attrs.free_containers = 125562 <=== 当前可用容器
attrs.used_containers = 1420495 <=== 当前正在使用的容器
...
请参阅:
Postcomp size = 1546057 * 4718592 / 1024 / 1024 / 1024 = 6794.2 Gb
Postcomp used = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242.4 Gb
Postcomp used = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242.4 Gb
如何确定单个文件、目录或目录树的重复数据消除和压缩比率?
接收文件时,DDR 会记录有关文件的统计信息,包括:
- 预压缩(逻辑)字节
- 重复数据消除后唯一数据段的大小
- 重复数据消除和压缩后唯一数据段的大小
- 文件元数据的大小(即分段树等)
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files:1; 字节/storage_used:2.9
原始字节数: 3,242,460,364
全局压缩: 1,113,584,070
本地压缩: 1,130,871,915
元数据: 4,772,672
要报告整个目录树的统计信息:
SE@DDVE60_JF## filesys 显示压缩 /data/col1/backup
Total files:3; 字节/storage_used:1.4
原始字节: 7,554,284,280
全局压缩: 5,425,407,986
本地压缩: 5,510,685,100
元数据: 23,263,692
但是,请注意,使用这些统计信息有一些注意事项:
- 统计信息是在文件或数据接收时生成的,在此之后不会更新。由于 DDR 的工作方式、接收新文件或删除引用相同数据的文件等,可能会更改文件随时间推移的重复数据消除方式,从而导致这些统计信息过时。
- 此外,DDR 上的某些使用情形(例如文件快速拷贝,然后删除原始文件)可能会导致这些统计信息变得具有误导性或不正确。
预压缩字节不一定是文件的预压缩/逻辑大小。而是在其生存期内写入文件的字节总数。因此,在某些环境中,现有文件通常会被覆盖(例如使用虚拟磁带库功能的文件),此图可能大于相应文件的逻辑大小。
接收“质量较差”的数据是否会导致总体压缩率下降?
是 — 要使 DDR 实现接收数据的总体压缩比率良好,它必须能够对这些数据进行重复数据消除和压缩。有各种类型的数据可以阻止这种情况,如下所述:
预压缩/预加密数据:
这些是客户端系统或备份应用程序上压缩或加密的数据类型。这可能还包括按设计进行压缩或加密的特定于应用程序的文件(例如介质文件)和数据库文件,这些文件是压缩、加密或嵌入的二进制对象(例如介质文件)。
由于压缩或加密算法的工作方式,对文件底层数据的更改相对较小,因此会在整个文件中更改为“闩出”。例如,客户端可能保存一个 100 Mb 加密文件,其中修改了 10 Kb。通常情况下,与已更改的 10Kb 部分不同,修改前后生成的文件将完全相同。使用加密时,即使修改前后仅更改了 10 Kb 的未加密数据,加密算法也会导致文件的整个内容发生更改。
当此类数据定期修改并定期发送到 DDR 时,这种“闩出”效应会导致每一代文件看起来不同于前几代同一文件。因此,每一代都包含一组唯一的数据段(和数据段指纹),因此它显示重复数据消除率较差。
另请注意, lz 算法无法进一步压缩构成段数据,因此在写入磁盘之前无法压缩数据,而不是预压缩文件。
作为一般指导准则,预压缩/预加密会导致以下情况:
- 预加密数据:重复数据消除率低,但压缩率可接受
- 预压缩数据:重复数据消除率差和压缩率低
如果可能,发送到 DDR 的数据不应进行加密或压缩 - 这可能需要在终端客户端或相应的备份应用程序中禁用加密或压缩。
如需帮助检查、修改特定备份、客户端应用程序或操作系统中的加密或压缩设置,请联系相应的支持提供商。
介质文件:
某些文件类型按设计包含预压缩或预加密数据。例如:
- PDF 文件
- 某些音频文件(mp3、wma、ogg 等)
- 视频文件(avi、mkv 等)
- 映像文件(png、bmp、jpeg 等)
- 特定于应用程序的文件(Microsoft Office、Open Office、Libre Office 等)
具有高“唯一性”的文件:
实现良好的重复数据消除率取决于 DDR 多次看到相同的数据段集(和数据段指纹)。但是,某些数据类型仅包含唯一的事务性数据,根据设计,这些数据包含“唯一”数据。
如果将这些文件发送到 DDR,则每一代备份都包含一组唯一的数据段或数据段指纹,因此会看到降级的重复数据消除率。
此类文件的示例包括:
- 数据库事务日志(例如 Oracle 归档日志)。
- Microsoft Exchange 事务日志
小型文件:
小文件在写入 DDR 时会导致各种问题。其中包括:
- 元数据膨胀 — 与物理数据相比,DDR 开始容纳高于预期的文件元数据量。
- 容器利用率低 — 根据设计(由于 Data Domain Stream Informed Segment Layout 或 SISL 体系结构 — 超出本文档的范围),磁盘上的 4.5 Mb 容器仅保存来自一个文件的数据。例如,备份单个 10 Kb 文件会导致为该文件写入至少一个完整的 4.5 Mb 容器。这可能意味着,对于此类文件,DDR 使用的压缩后(物理)空间远远多于要备份的相应预压缩(逻辑)数据量,进而导致负总体压缩率。
- 较差的重复数据消除率 — 小于 4 Kb 的文件(DDR 上支持的最小数据段大小)包含一个分段,用衬垫到 4 Kb。此类数据段不会进行重复数据消除,而是直接写入磁盘。这可能会导致 DDR 保存同一段的多个拷贝(被视为重复数据段)。
- 备份、恢复或清理性能较差 — 从一个文件移动到下一个文件时,备份、恢复或清理期间会产生大量开销(因为必须切换所使用的元数据的上下文)。
- 通过在 DDOS 5.5 及更高版本中引入物理清理或垃圾数据收集,在一定程度上减轻了使用小型文件时对清理性能的影响。
- 清理尝试在其拷贝阶段将低利用率容器中的数据聚合到更紧密的容器中,以“撤销”较差的容器利用率。
- 清理尝试在其拷贝阶段删除过多的重复数据段。
备份应用程序的多路复用:
备份应用程序可以配置为跨发送到备份设备的流执行数据多路复用,即来自输入流(即不同客户端)的数据以单个流方式发送到备份设备。在写入物理磁带设备时,此功能主要用作:
- 物理磁带设备只能支持单个传入写入流。
- 备份应用程序必须保持足够的磁带设备吞吐量,以防止磁带启动、停止或倒带(也称为擦鞋)— 如果流到磁带设备包含从多个客户端读取的数据,则更容易。
此外,恢复性能可能较差,因为要恢复某些客户端数据,DDR 必须读取许多文件或容器,其中文件或容器中的大多数数据在与其他客户端备份相关时是多余的。
备份应用程序在写入 DDR 时不得使用多路复用,因为 DDR 支持比物理磁带设备更高的传入流计数,并且每个流都能够以可变的速度写入。因此,应禁用备份应用程序的多路复用。如果禁用多路复用后备份性能受到影响,则:
- 使用 CIFS、NFS 或 OST (DDBoost) 的备份应用程序应增加其写入流数量(以便可以在 DDR 上并行写入更多文件)。
- 使用 VTL 的环境应向 DDR 添加额外的驱动器,因为每个驱动器都支持额外的并行写入流。
插入过多磁带标记的备份应用程序:
某些备份应用程序可能会将重复的数据结构插入称为“标记”的备份流中。标记不表示备份中的物理数据,而是被备份应用程序用作索引编制或位置系统。
在某些情况下,在备份流中包含标记可能会降低重复数据消除率,例如:
- 在第一代备份中,连续有 12 Kb 的数据 — DDR 将此数据识别为单个数据段。
- 但是,在第二代备份中,通过包含可能由 6 Kb 数据、备份标记和 6 Kb 数据表示的备份标记来拆分相同的 12 Kb 数据。
- 因此,在第二代备份期间创建的数据段与在第一代备份期间生成的数据段不匹配,因此它们不会正确地进行重复数据消除。
为避免出现此问题,DDR 使用标记识别技术,该技术允许:
- 在接收备份期间,将透明地从备份流中删除备份标记。
- 备份标记将在备份恢复期间重新插入到备份流中
但是,为了充分利用此技术,DDR 必须能够正确识别在备份流中插入的标记。DDR 根据“marker type”选项的设置查找标记,例如:
SE@DDVE60_JF## filesys 选项 show
Option Value
-------------------------------- --------
...
Marker-type auto
...
-------------------------------- --------这应该保留为“auto”,因为这允许 DDR 自动匹配最常见的标记类型。如果系统仅从一个备份应用程序接收数据,该应用程序会插入标记,则指定特定标记类型可能会带来性能优势, 即:
# filesys option set marker-type {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 | fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
请参阅:
- 选择特定标记类型对性能的任何好处都可能很小。
- 选择不正确的标记类型可能会显著降低备份或恢复性能和重复数据消除率。
对于从使用备份标记但自动标记处理技术无法识别的应用程序接收数据的系统(例如 BridgeHead 软件中的产品),请联系您的签约支持提供商,后者随后可以与 Data Domain 支持部门合作,确定 DDR 上所需的设置,以检测非标准标记。
DDR 接收到“质量差”数据的迹象:
下表列出了上面列出的不同数据类型的预期重复数据消除率和压缩率。此列表并非详尽无遗,显然,由于 DDR 接收的工作负载或数据,给定系统上显示的确切数字可能会有一些变化:
| 全局压缩 | 本地压缩 | 可能的原因 |
| 低 (1x - 4x) | 低(1 倍 - 1.5 倍) | 预压缩或加密数据 |
| 低 (1x - 2x) | 高(>2 倍) | 唯一但可压缩的数据,例如数据库归档日志 |
| 低 (2x - 5x) | 高(>1.5 倍) | 未检测到标记、高数据更改率或流多路复用。 |
| 高(>10 倍) | 低(<1.5 倍) | 相同压缩或加密数据的备份。这种情况并不常见。 |
DDR 上是否有某些因素会影响总体重复数据消除率?
是 - 有几个因素可能会导致旧/超大数据保留在 DDR 上的磁盘上,这会导致压缩后(物理)磁盘空间增加,总体压缩率下降。下面将讨论这些因素。
无法定期运行文件系统清理:
文件系统清理是以物理方式删除磁盘上旧数据/超大数据的唯一方法,DDR 上的文件不再引用这些数据。因此,用户可能会从系统中删除多个文件(导致预压缩利用率下降),但不能运行干净(保持较高的压缩后/物理利用率)。这会导致总体压缩率下降。
Data Domain 建议计划清理以定期运行,如下所示:
- 正常 DDR:每周一次
- 使用 Extended Retention 的 DDR:每两周一次
系统上的旧快照过多:
DDR 可以创建 mtree 快照,在创建快照时表示 mtree 的内容。但是请注意,将旧快照保留在系统上会导致压缩后/物理利用率增加,从而导致总体压缩率下降。例如:
- 存在包含许多文件的 mtree(因此预压缩利用率很高)。
- 将创建 mtree 的快照。
- 许多文件将被删除(导致预压缩利用率下降)。
- 运行文件系统清理 — 但请注意,由于已删除文件的拷贝保留在 mtree 快照中,因此释放了最小硬盘空间,这意味着这些文件引用的数据无法从磁盘中删除。
- 因此,压缩后/物理利用率仍然很高
有关使用快照和快照计划的更多信息,请参阅以下文章:Data Domain — 管理快照计划
复制延迟过大:
本机 Data Domain 复制使用复制日志或 mtree 快照(取决于复制类型)来跟踪哪些文件或数据正在等待复制到远程 DDR。复制滞后是复制副本落后于对源 DDR 的更改的概念。这可能是由于各种因素造成的,包括:
- 复制上下文被禁用
- DDR 之间的网络带宽不足
- 频繁的网络断开连接。
如果 DDR 正遭受高利用率,并且这被认为是由于复制滞后,请联系您的签约支持提供商以获得进一步的帮助。
DDR 上是否有配置更改或某些因素可能会提高总体压缩率?
是 - 删除或解决本文档之前讨论过的问题应允许 DDR 显示随时间推移而提高的总体压缩率。DDR 上还存在各种因素或工作负载,这会导致重复数据消除率提高。这些通常涉及:
- 减少 DDR 上的文件使用的硬盘空间量(例如提高 DDR 使用的压缩算法的主动性)
- 突然增加 DDR 上的预压缩(逻辑)数据量,而不会相应增加压缩后/物理利用率
默认情况下,DDR 使用 lz 算法压缩写入磁盘的数据。如前所述, lz 用于压缩或解压缩所需的 CPU 开销相对较低,但在减少数据大小方面表现出合理的有效性。
可以提高压缩算法的主动性,以进一步节省压缩后或硬盘驱动器利用率(从而提高总体压缩率)。按有效性顺序(从低到高)支持的压缩算法如下所示:
- Lz
- gzfast
- 广州
- 与 gzfast 相比,lz 可将压缩率提高约 15%,并占用 2 个 CPU。
- 与 gz 相比,lz 的压缩率提高了约 30%,占用了 5 倍的 CPU。
- 与 gz 相比,gzfast 可将压缩率提高约 10-15%。
根据上表,压缩算法越激进,压缩或解压缩期间需要的 CPU 就越多。因此,只有在正常工作负载下轻轻加载的系统上,才应对更具攻击性的算法进行更改。在负载过重的系统上更改算法可能会导致备份或恢复性能严重下降,并可能导致文件系统死机或重新启动(导致 DDR 中断)。
有关更改压缩类型的更多信息,请参阅以下文章:Data Domain 系统和清理转换为 GZ 压缩
对性能的影响由于更改压缩算法的潜在影响,建议有兴趣执行此操作的客户联系其签约支持提供商,以进一步讨论更改,然后再继续。
使用文件系统快速拷贝:
DDR 允许使用“file system fastcopy”命令快速拷贝文件(或目录树)。此功能通过克隆现有文件(或文件组)的元数据来创建文件,以便虽然新文件未物理连接到原始文件,但它们会引用磁盘上与原始文件完全相同的数据。这意味着,无论原始文件的大小如何,新文件在磁盘上占用的空间都很小(因为它对现有数据进行完全重复数据消除)。
此行为的结果是,使用文件系统快速拷贝时,DDR 上的数据的预压缩(逻辑)大小会迅速增加,但 DDR 的压缩后/物理利用率保持不变。
例如,以下 DDR 具有如下利用率(表示总体压缩率约为 1.8 倍):
活动层:
资源大小 GiB 已用 GiB 可用 GiB 使用百分比 可清理 GiB*
---------------- -------- -------- --------- ---- --------------
/数据:预压缩 - 12.0 - - -
/data:压缩后 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
它包含大型文件 (/data/col1/backup/testfile):
!!! DDVE60_JF您的数据处于危险!!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 根 root 3221225472 7 月 29 日 04:20 /data/col1/backup/testfile
文件快速拷贝多次:
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy source /data /col1/backup/testfile 目标 /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
这会导致压缩前利用率提高,以实现压缩后利用率的很小变化:活动层:
资源大小 GiB 已用 GiB 可用 GiB 使用百分比 可清理 GiB*
---------------- -------- -------- --------- ---- --------------
/数据:预压缩 - 21.0 - - -
/数据:压缩后 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
结果 DDR 现在显示总体压缩率约为 3.1 倍。
如上所述,拷贝的压缩统计信息显示它们完全重复数据消除:
sysadmin@DDVE60_JF# filesys 显示压缩 /data/col1/backup/testfile_copy1
总文件数:1; 字节/storage_used:21331976.1
原始字节: 3,242,460,364
全局压缩: 0
本地压缩: 0
元数据: 152
无法使用快速拷贝功能来通过降低 DDR 的物理利用率来提高总体压缩率,但这可能是总体压缩率高的原因(特别是在广泛使用快速拷贝(如 Avamar 6.x)的环境中)。
受影响的产品
Data Domain产品
Data Domain文章属性
文章编号: 000064270
文章类型: Solution
上次修改时间: 16 12月 2024
版本: 5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。